倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站
☆简化字新字形仓颉输入法编码方案探讨☆ - 倉頡論壇 - 康熙字典与倉頡之友 - Powered by Discuz!



 找回密碼
 注册
查看: 42686|回復: 20

☆简化字新字形仓颉输入法编码方案探讨☆

 火... [複製鏈接]
發表於 11-11-2011 02:46:32 | 顯示全部樓層 |閱讀模式
其实我现在对仓颉感到有些困惑。到底要不要完全按新字形给简化字编码?如果要,怎样编?很多字的教育部标楷体和大陆宋体(绝大部分等同于其手写楷体)接近或相同,而仓颉一定要用细明的字形拆分,这样的字还要不要按宋体字形重新编码?有些字的宋体和标楷体是一样的,如果改了编码,就和依细明体的整体编码规则有违背,有可能造成使用者意识不清。

    其实想想,台湾的手写体都没有单独的一套编码,大陆的编了有什么不同吗?有必要吗?是不是只要区分开宋体明体明显差异的字形、照顾到大陆宋体的输入习惯就好了?

    但凡事要两面想。与明体相对的是宋体,与教育部楷书相对的还是宋体(绝大部分等同于其手写楷体),台湾有一种编码,,大陆也有一种才对。而大陆的手写楷体和宋体又绝少差别,是好事。这样来看,似有必要编码。

    如果不把简化字编码整理了,不产生这套新规则,大陆人:一、不能顺利接受仓颉输入法;二、接受了的未必能顺利使用词组输入提高效率。

    编码再多一种简化字的也不算什么,仓颉编码已经够乱了。有新旧明体差别,有微软编码,有三五代。其实多乱都不关紧要,问题是大陆人怎样用仓颉。如果大陆要用,绝对不能用陌生的取码方式使他们别扭。如果编码很科学准确,那是值得尝试的。

    也许大家认为,既然标楷体都不能享受到独自编码的待遇,凭什么大陆宋体可以?你这么说,我个人也没意见,我可以熟练输入绝大多数我需要用到的汉字。但是,仓颉输入法的使用到底不应该局限在懂繁体字的人群中,是不是???

    这样到最后7万单字码表可能扩成10万多,因为有了两种规则。不过到时可以分码表为大陆派和原生派。

    如果仓六不出,我们就得这么办。

    下面几句转自维基百科:五代倉頡直接用於倉頡系統,其輸入碼(倉頡碼)即是內碼,往往會把二種字體都列入編碼(輸入「戈.十金.金」 得「麻 」,輸入「戈.木.木」 得「麻 」);有些版本的五代倉頡是提供給 Windows、Linux 等系統使用,會加上部分容錯編碼(輸入「戈.十金.金」 或「戈.木.木」 皆得「麻 」(有些字型呈現「麻 」))。

    生活在容错的世界里,有完没完?

    反正在仓颉系统里有码有字,有字有码,怕什么。
 樓主| 發表於 11-11-2011 03:23:44 | 顯示全部樓層
具体到编码上,大陆新字形打法要贯彻到每一个字。所以在原来的仓颉输入法中的字有两种打法的(第一类)都要提取出其宋体打法。如:微,船,虎,善,改,耀,窗,彦,起,角……

除了字形完全相同的字(一,天,相,有……第二类),还有的字是差别很小以至于仓颉输入法没有收入第二种编码,或者是难以给出第二种编码的(第三类)。

下面举例说明第三类:

【及】
新码:弓弓人。
右下角交叉不取了,和【书】一样,不用取全。这样完整而不啰嗦。及和另两个字比较一下也好:【刄】【匁】。这也是取内部,外部有交叉也不再取了。
我没有更好的编码了。

【乃】
新码:弓尸竹。
编码和【可】字一樣,取码位置顺序不是问题。


【几】【儿】【川】【顺】【兆】【邦】【寿】
大家一看就明白这是斜和纵的判定,我认为如果要改一并都改了,使它们一致,全都变成斜。按照新旧字形,这些都是撇,如果改了不影响重码,越名正言顺越好。斜和纵定下了,交和叉也就是确定的了。【邦】【寿】能统一起来。

除了【及】会有三个重码:孓弞
 樓主| 發表於 11-11-2011 03:27:59 | 顯示全部樓層
楼上内容末尾丢失,除【及】会有三个重码字外,其他的新码对重码都没有影响。

请大家踊跃发言,予以指点,多谢!
 樓主| 發表於 11-11-2011 13:03:25 | 顯示全部樓層
这样,以后的仓颉简繁两系分道扬镳,互不干扰。

我了解仓颉近两年,学用一年多,直到我指出上面的问题,我才明白了“的士文全方位仓颉”和“惜缘极点仓颉”一定要打繁出简的道理。因为衹有这样才真正符合仓颉输入法的规则。简化字仓颉方案由于简化字和新字形的地位问题,一直没有真正出现。

请各位朋友看帖留言,在下内心焦躁啊……
 樓主| 發表於 11-11-2011 20:34:44 | 顯示全部樓層
有朋友说我的观点不明确,那我再明确一次:

    仓颉输入法原是因一套标准字形取码,而非各种字体兼顾取码。这使得某一拆码在别的字形体系看来不正确。比如“确”字,大陆人不明白为什么尾码为“土”。解决这一问题我们当下的做法是作为容错码收入大陆宋体字形的编码,末码为“手”。但是这使得新学输入法的人不容易接受,接受了也还是别扭。就像可能有些人看不惯我这帖子全用简化字写一样,大陆人不能接受打简化字用台湾明体配套拆字方法。我们这样做,只不过是“容错”。

    所以我想到,仓颉输入法可以按地区通用标准字体类型分别成立编码体系:台湾明体编码系(现有)、大陆宋体编码系(正在讨论的)、教育部标楷体编码系(可有可无)。这样做的好处是可以符合其地区的政府强制性文字标准,也使学习者接受无困难。如果可能,所有使用汉字的地区如香港(最好从台湾)、日本、韩国等都可以拥有自己的编码体系,而不是所有使用汉字的地方如果要使用仓颉输入法只有依台湾的字形。

    如果我们不做这套简化字宋体新字形的编码方案,仓颉输入法在大陆没前途。如果我们认为大陆的官方规范毫无可取之处,只继续坚持所谓完善的旧字形编码,我们就是仓颉输入法的罪人。因为那样做等于是加深两地文字的隔阂,放弃在大陆推广使用仓颉。仓颉输入法有充足的编码空间,这使得一字两码的实现成为可能。


    有朋友认为Unicode是依据,一字一编码才好,且字形微小差异可以忽略,因为都是一个字。殊不知,反对Unicode的朱邦复先生所开发的仓颉系统是可以有两个字形并存的,如麻(戈十金金、戈木木),而在仓颉系统内仓颉码是内码,不重复。这就是说,一字多形,一形一码是可取的。仓颉系统的功能之于各地字形就如同Unicode之于各国文字。仓颉码就是汉字的统一交换码。
 樓主| 發表於 11-11-2011 21:21:17 | 顯示全部樓層
我们要做的事其实也很简单,只不过是把所有两地有差异的字找出来加以新编码。这个工作已经完成了一部分,就是所谓“照顾大陆宋体使用人士的输入习惯”的容错的那一部分,如船,虎,善,改,窗,起,角。

接下来是细微字形有不同的。比如前面提到的【及】【乃】。
【及】若按宋体取码为弓竹水,末码稍嫌牵强。不如取为弓弓大。
【乃】宋体是两笔,宜先取完外框,为弓尸竹,取码方式参照【刀】【可】。

接下来是两地字形基本上没区别,但该字取码不符合宋体的情況。比如【儿】【川】【顺】【邦】【枕】【忱】【佛】。
这些字按笔画按理都是该取竹或大,但在仓颉输入法中都取了中或十。在简化字宋体中改正了比较好。
(想来当初朱先生没有取竹,可能是出于重码考虑。可是仓颉输入法毕竟是五码输入法,编码空间大,可以改动)

最后是两地字形没有问题,可是规则有不妥的情况。如【武】。
按道理凡是戈字形弋字形的字都要先取【丶】,而武先取了一,这显然是为了避重码。无论一在弋上面还是下面,那一点都是在右上角的,这个在规则上应该统一起来。武去掉止之后的字首部分建议取码为戈心,与弋重码。

也许还有其他的字例,我再慢慢发现。

请大家就我所提出的方案予以评判,这事关仓颉输入法的地区性规范和推广。也许我动机太单纯,斗胆改动朱氏巨作,论坛朋友若有质问,请畅所欲言,但要陈明原委。希望大家对这事上心,谢谢!
 樓主| 發表於 11-11-2011 21:23:45 | 顯示全部樓層
上面对【及】字的编码说错了,应该和先前那一楼说的一样,即改为弓弓人。大留下不取,借鉴【匁】和【刄】。
 樓主| 發表於 11-11-2011 23:56:28 | 顯示全部樓層
回復 8# 平凡人


平凡兄碓定?六代能夠完全照顧到宋明體字形?我確實是一直在等……
宋體簡化字系統內漢字的輸入最好用宋體的字形和筆形。大陸是不能忽視的漢字使用大戶,不能全部採用台灣正體輸入習慣輸入漢字。

正體字的學習是另一回事。
發表於 12-11-2011 17:26:35 | 顯示全部樓層
讓現有的倉頡完全顧及到字形的差異,實在是件難事。
最好最彻底的解決辦法是製出新的標準倉頡,使倉頡變得更實用。但似乎沒有人去做。
發表於 12-11-2011 17:50:54 | 顯示全部樓層
在倉頡完善的情況下,給簡、正體各按相同規則分別做出兩份碼表,然後按需而用,不就可以了?
 樓主| 發表於 12-11-2011 18:42:27 | 顯示全部樓層
回復 11# InSb


閣下看來是讚成我的“兩套倉頡取碼”的辦法。好像你又認爲倉頡還不標準。
其實倉頡輸入法是一套取碼方法,針對不同的字形有不同的編碼,無所謂“標準倉頡”,如果有也是倉頡系統那套。

現下也可以照顧到字形,和你說的一樣,兩個碼表就行。


或者,就把宋體字形的編碼作爲容錯碼放到單字碼表中。像船、改、微、善、産等很大一部分字已經是符合這個要求了,有兩種打法。所沒有的就是我前面講的。

及:弓弓人
乃:弓尸竹
邦:手大弓中
川:竹中中
儿:竹山
沈:水竹月山
武:戈心卜中一
發表於 12-11-2011 20:27:44 | 顯示全部樓層
倉頡有改進餘地,應該與時俱進,更加實用。可惜六代只能苦等,自力更生新創版本又萬分困難。

關於倉頡的字形問題,我和您的觀點相似。不過這樣一來,相關人員的工作就很煩瑣了,實行時有難度。
 樓主| 發表於 25-11-2011 14:00:43 | 顯示全部樓層
前面我所修訂的【及】【乃】的編碼有誤。看過五代倉頡手冊,發現:
【乃】取弓竹尸是因為按位置高低取碼。所以即使在宋體字形下取碼也不會改變,仍爲弓竹尸。
【及】按宋體字形取碼當爲弓人弓(弓人女大不好),而非弓弓人。
這兩個字的取碼方式同【韭】,中尸一一。先取上再取下,左右在其次。
發表於 20-5-2013 16:08:09 | 顯示全部樓層
倉頡改進的餘地,應該與時俱進,比較實用。不幸的是,六代信心只能等待新創建的版本,是非常困難的。類似於倉頡字形和你的觀點。但相關工作人員以這種方式是非常困難的,難以實施。

World of Warcraft Gold
cheap runescape gold
發表於 28-7-2013 18:44:51 | 顯示全部樓層
支持容错的想法,我是想简繁通输无转换才学仓颉的。unicode应该足够容得下多字多码。
存在大量的编码也许不容易接受,但也许将来成为仓颉的优势。

现在在用 Rimeime http://code.google.com/p/rimeime/
可以简繁一起打,如果能借鉴的话可以参考一下。
發表於 11-8-2013 02:08:46 | 顯示全部樓層
本帖最後由 鍾靈 於 11-8-2013 10:07 AM 編輯

回#6樓:
1.
接下来是两地字形基本上没区别,但该字取码不符合宋体的情況。比如【儿】【川】【顺】】邦】【枕】【忱】【佛】。
这些字按笔画按理都是该取竹或大,但在仓颉输入法中都取了中或十。在简化字宋体中改正了比较好。
(想来当初朱先生没有取竹,可能是出于重码考虑。可是仓颉输入法毕竟是五码输入法,编码空间大,可以改动)
==》這是依字義原本的寫法編碼的,那個左邊的「直撇」其實是「縱」不是「撇」,祇是爲了書法上的好看而寫成了「撇」,故取碼仍是以「縱」來取碼。
2.
最后是两地字形没有问题,可是规则有不妥的情况。如【武】。
按道理凡是戈字形弋字形的字都要先取【丶】,而武先取了一,这显然是为了避重码。无论一在弋上面还是下面,那一点都是在右上角的,这个在规则上应该统一起来。武去掉止之后的字首部分建议取码为戈心,与弋重码。
===》倉頡取碼的順序是依空間佈置上下、左右、外內的,總體上是自左上而右下。這也是因爲不同人,不同地區各有各的筆順習慣、規範,朱先生纔否決依筆順來取碼,改依字形筆劃的空間佈局來取碼。武字字首是{一弋},一在弋的左上角,字首的碼所取的字形是:一、<弋-、>,取首尾得碼=一心。「一」和「、」是在同一高度,故左而右取碼,接下來<弋-、>是在「一」和「、」的下方。同理,「哉、韱、畿、X、Y」也是先取左上角的「十、人、女、卜、大」的。
X Y.jpg
發表於 11-8-2013 14:57:03 | 顯示全部樓層
有關依字形編碼,字形是關鍵。但,有個觀念更重要,把輸入法類比於寫字,不管甚麼方式,文字本是「寫」的。「寫」應該參照楷書的字形。所謂宋體明體,其實是楷書在宋朝時代的活字印刷的字模的筆形,就是楷書的印刷體。由於刻印字模使用木頭,爲刻印方便而有了筆形上的遷就變化,也因字體在印刷出版業有了獨立發展空間。有的字是篆體的遺留,如直的左下角的L,如兌上的八在楷書是寫作兑,上方是v型的丷;也有時代變遷中刻印師傅的誤刻變化。所以,編碼應以楷書爲準纔是最好。
還有大陸在文字改革浪潮中,爲了需要突顯「民」的成份而打壓「官」的成份。「官」是指被認爲代表了封建的古代「官」方。這是應合破舊立新的。大部份文獻,或古代出版物,都是「官」家纔有財力出版的,就被視爲蒙上封建的烙印予以排斥。在這浪潮中,祇要一個字有了「民」的版本(不論是野史或名不見經傳的手抄書)或筆劃較少的,哪怕是少一筆劃,如冲和沖,一定選少一筆的冲爲「規範」,無視其字形之義----因爲漢字遲早要拉丁化;正式文獻所載的「官」的版本必定受到摒棄。大陸簡化字字集,包括了後來GBK的繁體及以後的GB18030所選繁體,都採用這種觀點選字形。

倉頡系統本身沒有排斥任何字形,可在倉頡系統以輸入碼產生所需字形。但台灣官方沒接受朱邦復先生最早的以圖形格式表達中文字的建議,而採以西方美國系統對字作編碼方式來發展中文電腦----爲要跟美國電腦系統共容,使到今日中文電腦有外碼(輸入碼)和內碼(如unicode)及字型檔font的結構。朱邦復和微軟閙翻後,他的倉頡系統更沒法好好推廣。這真是很可惜的事。漢字文化圈各國地區同一漢字的字型之異,就在所索引出的font字型不同。
發表於 12-8-2013 08:34:59 | 顯示全部樓層
学习了!!谢谢楼主分享了!嘻嘻
發表於 12-8-2013 16:13:01 | 顯示全部樓層
本帖最後由 鍾靈 於 12-8-2013 04:37 PM 編輯

回#11樓,13樓
請看手冊42頁、43頁說明⑩:
手冊42&43頁「縱」.GIF

所舉的例字,並非大陸宋體和台灣正體的字形之異。
及:弓弓人   --- 若大陸字形第二個フ沒有跟人的乀相連形成「又」,這「弓弓人」可說正確。
乃:弓尸竹   --- 如手冊42,43說明,此ノ是斜;依空間佈區取碼,左上而右下,應是=弓竹尸
邦:手大弓中 ---如手冊42,43說明,此丿是縱,故應=手十弓中
川:竹中中   ----如手冊42,43說明,此丿是縱,故應=中中中
儿:竹山      ----如手冊42,43說明,此丿是縱,故應=中山
沈:水竹月山----如手冊42,43說明,此丿是縱,故應=水中月山
武:戈心卜中一----如其他帖所討論,空間佈局取碼:同高左而右(跟劃分字型結構的左右並列型,同理),同寬上而下(跟劃分字型結構的上下重疊型,同理)。
一、兩字形在<弋-丶>之上,故一、兩字形先取於<弋-丶>
一、兩字形在同高,故左而右先取一後取、
這樣三字形的序就是一、<弋-丶>,得= 一戈心,取首尾得=一心
這樣跟韭情況相同的,祇有「一、」兩字形是跟韭的「左上角丨和右上角ㅑ」,都是同高這一點上。至於結構,韭是整體字/連體字,武是組合字(分體字),兩者不同。故此,#13樓所說「先取上再取下,左右在其次」,其實不是一個定律。若一在弋的右邊(當然沒有這樣的字),即是一在弋的寬範圍之外,就成了左右並列型,就先取弋後取一。
發表於 12-8-2013 17:10:29 | 顯示全部樓層
本帖最後由 鍾靈 於 15-10-2013 08:20 PM 編輯

#1樓指出:往往會把二種字體都列入編碼(輸入「戈.十金.金」 得「麻 」,輸入「戈.木.木」 得「麻 」)

這個「戈十金金」的麻,和「戈木木」的麻,其實字形上是不同的。雖然文獻上,都有這兩個字,而且互相作爲同一字的異體看。但,倉頡系統,依字形之不同是編不同碼的。「戈十金金」的麻,內面是兩個<十ㄦ>(去掉左上角一點的朮,注意那個ㄦ,左邊是直撇右邊是有鉤起的,不是左橫撇右捺的數字八);「戈木木」的麻,內面是兩個<木>,這個八纔是左橫撇右捺的數字八。

(唉!又砍文了)
您需要登錄後才可以回帖 登錄 | 注册

本版積分規則

Archiver|手機版|小黑屋|康熙字典与倉頡之友

GMT+8, 22-12-2024 06:51 PM , Processed in 0.016916 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表






倉頡之友 .自學倉頡輸入法    1997 - 2024   
馬來西亞    https://www.chinesecj.com
姐妹站:康熙字典網上版