倉頡之友 .自學倉頡輸入法
主頁 | 最新消息 | 自學課程 | 倉頡大字典 | 倉頡平台2022 | 論壇 | 網上輸入法 | Unicode九萬漢字 | 聯絡 | 捐助本站
康熙字頭自動切割程式 - 康熙字典論壇 - 康熙字典与倉頡之友 - 手機版 - Powered by Discuz!
登錄|注册
論壇 > 康熙字典論壇
發帖|
看358|回3|收藏
阿勤 看全部
13-9-2021 21:17:53
前個帖子討論關於 舊康熙字頭PNG與SVG向量圖比較,我們正打算一一更新舊康熙字頭,順便逐一校對四萬七千餘個康熙字頭與unicode 13 的編碼。我們打算人工逐一的把康熙字頭剪下來,上周我與蓼汀花溆兄先試從收字較少的部及部開始人工剪圖,新舊字頭圖例子對照如下:
47476613f50a6189f0.png

確實新字頭比舊字頭更美觀了,主要採用更清晰的武英殿版本做字頭切割。不過這種切割採用電腦人工切割方法,也不知要花費多少時間,故而一直想找尋是否可有一種自動切割字頭的方法?

找了好久,看了許多文字識别OCR、版面切割的文章,但一直没法實現。至到本月初,看到賢超師父推出OCR網站:《中文古籍OCR 》https://ocr.gj.cool/ 如獲至寶,於是乎趕緊找我的好友阿宏兄一起測試使用……

78498613f59e27f556.png

一試之下不得了,所有文字座標都能檢測得到,於是阿宏兄負責用C# 編寫前台程式,同時調用 中文古籍OCR API,《康熙字頭自動切割程式》就這么産生了。
96936613f56586be2e.png

程式用了約用14小時,掃描7738頁,把所有康熙字典幾百萬字都一一檢測做文字座標,同時程式過濾只取大字頭,并一一照字書排序,再補上所要的字圖尺寸。成果圖如下:

8162613f583db5cd9.png

至此終於可以用程式自動切割,省了好多時間,《康熙字典》校對的後續工作又進一步了,特別感謝賢超師父推出OCR網站及好友阿宏兄、蓼汀花溆兄的幫忙。如果網友有意加入《康熙字典》校對義工,歡迎與我們聯絡。









蓼汀花溆 看全部
13-9-2021 23:24:41
太好了!说说我的感受。我始终认为赠人玫瑰,手留余香,能为社会贡献是好的。但我人工切字等等,一天才做了大约10-20字,用除法一算,90000字也要大约900天,每天10个字,如果那一天没有机会做,便又延后一天了。以上的自动切字实在是大大增加了效率,实在是一大好消息。康熙字典的工作是一项温故知新的过程,回顾过去的心血,不但不过时,反而让我们的思想更加超前。举个例子,“龠”字本身第一撇的笔画更长,这让我们看见古人审美观的不同,这让我们反思,为何字形一定要左右对称呢?这样一来,既尊重了历史,也帮助我们跳开思想框框。
不要害怕自己时间不够所以不敢加入,我时间表也是满满地,挤一挤总会有时间的
一苇呀 看全部
19-9-2021 17:44:10
阿宏兄用C# 編寫的前台程式可否分享呢
阿勤 看全部
21-9-2021 09:33:28

引用:

一苇呀 發表於 19-9-2021 05:44 PM
阿宏兄用C# 編寫的前台程式可否分享呢

不必急,機緣到了事情自然成。在機緣未到時,中文OCR編程大家仍需努力。

康熙字典与倉頡之友

Powered by Discuz! X3.4

首頁|標準版|觸屏版|電腦版