倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站
匯整可堪商榷的編碼 - 倉頡論壇 - 康熙字典与倉頡之友 - Powered by Discuz!



 找回密碼
 注册
查看: 16252|回復: 21

匯整可堪商榷的編碼

  [複製鏈接]
發表於 26-4-2020 17:29:20 | 顯示全部樓層 |閱讀模式
倉頡輸入法是最有理的字形輸入法(形碼),對不同的字都能用同一套規則取得唯一的編碼,一視同仁,客觀可信。只要熟悉倉頡輸入法的規則,基本上人人都對任何漢字能取得相同的編碼。這點亦對索引、排序非常有利。其他形碼大多做不到這點,編碼有許多主觀元素,跟該輸入法說明的規則自相矛盾,或者往往對同一字形取出多種編碼,令用戶不知哪個才是正統取碼,無所適從。

當然,世事沒有完美,即使倉頡輸入法已經是最有理、規則最一致的,絕大部份漢字的取碼都毫無問題,也免不了有少數漢字的取碼還可以再深究或商榷。本帖中,我嘗試把已知的都窮擧出來。大家或深入硏究,或發現在下漏洞能指點迷津,或在日後維護碼表與規則時加以修繕等等,只要是理性使用,都無任歡迎。

不過我得先說明,所謂瑕不掩瑜,即使這少數漢字取碼可以商榷,這不代表倉頡的編碼規則有明顯問題。相比之下,其他形碼輸入法往往不能依據同一套規則取得唯一編碼,也許要看發明人的主觀,也許只有一堆取碼大包圍而不知哪個正統,問題都比倉頡輸入法嚴重得多。
發表於 7-6-2020 10:00:45 | 顯示全部樓層
本帖最後由 ceku 於 9-6-2020 12:50 PM 編輯
Ichirou 發表於 26-4-2020 05:30 PM
以下是我想到的或看到其他人商榷過的取碼:(vs前方是官方取碼)

曰:日 vs 田一


這論壇好像找不到引用語法的功能?就先簡單回一下,簡陋勿怪:

曰:日 vs 田一

竊以爲「曰」與「日」並非完全同形,「曰」第三筆橫筆的左右相觸跟「日」未必相同,因此此說未必可從。


倉頡輸入法原則上應該不會把水平或垂直的縮放視為不同字形,否則試想「車」、置左的「車」、置下的「車」都視為不同字形,會成為什麼光景?

此外有些文獻的「曰」看起來是比較瘦長的,字形上也和「日」難以區分。例如:



(出自異體字字典

我認為沈女士的說法大致是可以接受的,且基於相容性考量,能不改就不改,因此建議維持原取碼即可。

囗:月一 vs 月山

朱邦復先生發明倉頡時,以「剪刀原則」作爲拆字取碼的原理。對照「目」字,「月山」比「月一」更易剪出來,因此「目」字取「月山」比取「月一」符合剪刀原則。同理,「囗」字也應當取「月山」而非「月一」,可是官方卻編了「月一」。
後來蒼頡檢字法中,「囗」也的確改爲「月山」,不支援「月一」。似乎反映「月山」更合理。


「剪刀原則」要怎麼應用一直都有模糊空間存在……如果說「目」比較容易剪出「月」「凵」,為何不能說「且」比較容易剪出「月」「廿」?

灬:竹火 vs 火戈

輔根獨立成字時的分割問題。官方從左邊第一道縫切下去取「竹火」也非不合理。但一般來說都視這輔根不再分割。因此有不分割並基於先繁後簡原則的取碼「火戈」。


有可能當初設定「火」的輔助字形只有「點點點」,因此「灬」的「撇點點」不適用。但是否要計較如此細微的差異,也是可以討論。

乂:大 vs 竹人

輔根獨立成字時的分割問題。官方不分割,直接取「大」。後來蒼頡檢字法中,則分割成「竹人」。


「乂」當初不分割可能是為了保留「交叉」的字形特徵,及按區塊原則避免字根互相跨越。

蒼檢改碼可能是沈紅蓮和朱邦復想法不同所致,但新取碼除了遺失字形特徵以外,尚有另一爭議是為何取「竹人」而不取「人竹」?雖說寫字時一般先寫撇再寫捺,但按倉頡取碼原則,筆晝孰高孰低無絕對標準時,應由左而右取碼,因此似乎是後者比較合理。

我個人比較支持按原設計取一碼「大」。

癶:弓戈.卜人 vs 弓戈.竹人/弓戈.人竹

若依正常字根拆字,「癶」右旁有人取「竹人」(較符合字形特徵原則),有人取「人竹」(較符合先繁後簡原則)。我主張取「竹人」,不然的話「癶」作爲字首時就要由「弓人」改爲「弓竹」,會影響「發、癸、登」等相關字。格瓦拉也主張取「竹人」。
後來蒼頡檢字法中,「癶」的右旁直接作爲「人」的輔根。似乎反映五代/三代原取碼有誤,這也是一種解決方法。


取「竹人」的問題是如何符合字形特徵原則?目前整理出來較具體的「區塊」、「轉角」、「跨越」看起來都不適用。

甴:田一中中 vs 田一中


看起來似乎是「曱」的筆誤?

「羗」形
相關字:鬼(五代)、U+2A781 等

像「羗」字,官方視「羌」爲字首,「厶」爲字身。但這字首字身比例太懸殊。整體字的釐定原則「字形筆畫雖非全部交連,但形勢上爲一完整個體者。」且比照U+2A6BE、U+2A6BF、U+2A6C3等字,完全可以把「羗」形的字視爲整體字取碼。


若按此說,五代的「鬼」恐怕也應該視為整體字取「竹田竹戈」,而不是「竹山.戈」。

卵:竹竹尸中戈 vs 竹竹尸卜

官方給「卵」字取碼時,「卜」字根的豎與點可能不能分離。但比照「鸟」字,豎和點分離仍然取「卜」。因此「卵」也應取「竹竹尸卜」,以符合精簡原則。「孵、毈」等字同理。


「鸟」首碼取「心」和次碼取「卜」似乎都是為了方便簡化字取碼而擴充了原有的輔助字形,但擴充輔助字形往往就忽略了對既有字的影響……。



整體來說,倉頡輸入法有個頗大的先天問題是它其實就是「先射箭再畫靶」,所有取碼規則可說都是為了把常用部件的取碼平均分配而歸納(或說硬湊?)出來的,因此往往為了平均和降低重碼的需求調整既有規則,但調整東就忽略了西,導致很多內在矛盾,五代後期和六代的許多新規則尤其明顯……。
 樓主| 發表於 26-4-2020 17:30:41 | 顯示全部樓層
本帖最後由 Ichirou 於 14-6-2020 02:39 AM 編輯

以下是我想到的或看到其他人商榷過的取碼:(vs前方是官方取碼)

曰:日 vs 田一

輔根獨立成字時,基本上是要分割取碼的。除非該輔根眞的無法再分割。基本上,大家都視「曰」形爲「日」形的輔根,按理應分割爲「田一」。
維基敎科書主要編輯ceku的信函得知,沈紅蓮女士視「日」與「曰」同形,兩者無分主輔,因此皆取「日」。竊以爲「曰」與「日」並非完全同形,「曰」第三筆橫筆的左右相觸跟「日」未必相同,因此此說未必可從。

囗:月一 vs 月山

朱邦復先生發明倉頡時,以「剪刀原則」作爲拆字取碼的原理。對照「目」字,「月山」比「月一」更易剪出來,因此「目」字取「月山」比取「月一」符合剪刀原則。同理,「囗」字也應當取「月山」而非「月一」,可是官方卻編了「月一」。
後來蒼頡檢字法中,「囗」也的確改爲「月山」,不支援「月一」。似乎反映「月山」更合理。

灬:竹火 vs 火戈

輔根獨立成字時的分割問題。官方從左邊第一道縫切下去取「竹火」也非不合理。但一般來說都視這輔根不再分割。因此有不分割並基於先繁後簡原則的取碼「火戈」。

忄:竹卜 vs 中金

輔根獨立成字時的分割問題。官方從左邊第一道縫切下去取「竹卜」也非不合理。但一般來說都視這輔根不再分割,尤其是若它視作可以再分割,會令許多「忄」部的字由「左右形⿰」變成「多列形⿲」。而且「忄」的中豎這麼突出,可比照「小、巾」等字,由上至下,先取中間筆畫(其中「小」字也不分割,以整體字的方式取碼)。因此有不分割並基於由上至下原則的取碼「中金」。

氵:戈戈一 vs 卜一

輔根獨立成字時的分割問題。官方從左邊第一道縫切下去取「戈戈一」也非不合理。但一般來說都視這輔根不再分割。因此有不分割並基於先繁後簡原則的取碼「卜一」,可比照「斗、头」等字。

乂:大 vs 竹人

輔根獨立成字時的分割問題。官方不分割,直接取「大」。後來蒼頡檢字法中,則分割成「竹人」。

婁:中中.女(五代) vs 中田中女(三代) vs 十田日女
相關字:樓、縷、摟、嘍、㜢、簍、蔞、嶁 等

三代視爲整體字,但似乎取了異體「」(上方作「申」形)的寫法,沒有處理橫筆左右穿頭的「⯐」形寫法。五代視爲分體字,取「中中.女」,則似乎依香港敎育參考寫法。但以此字最常見的寫法而言,它應爲整體字,而且上方「⯐」形橫筆左右穿頭。擴展區的「U+20DAD」和「U+2E3F3」也含有「⯐」部件,倉頡取碼不能迴避它。
比照「曲、丳、西、衰、貫」等字,豎筆和橫筆跨越「囗」形是可以的,否則「曲」也不能取「廿田」要取「中中田廿」;「丳」也不能取「中中田田」而要取「中中田中」,不省略則是「中中(丨丨)田中中(罒)中中(丨丨)田中中(罒)中中(丿丨)」;「貫」的字首也不能取「田十」而要取「田一一」。這就恐怖了。
因此,「婁」也應可允許「十」的橫筆與豎筆跨越「囗」形,取「十田日女」。「⌖」部件單獨出現時取「十田」。

韭:中尸一一(五代) vs 中一一一(三代) vs 廿廿廿一
相關字:韮、韲、虀、齏、韯、韱、纖、鑯、籤 等

三代是先取「非之左」,再取「非之右」,最後取底橫,不省略則是「中一一一中一一一一」。五代則依由上至下原則,左右兩邊梅花間竹。但兩種取法都未遵從精簡原則。「韭」這整體字取「廿廿廿一(⻀⻀⻀一)」爲最精簡者。而且「㐀」取「廿一」,「韭」取「廿廿廿一」的話亦能互相對照。
根據維基敎科書主要編輯ceku的信函,沈紅蓮女士回信時說「廿廿廿一」亦可,只是覺得和「非」取碼相差較遠。可是「非」是左右形組合字,「韭」是整體字,兩者不能類比。

甴:中田中一 vs 中田一

官方的取碼,把「囗」外的豎筆與「囗」內的豎筆分成兩斷。但比照「曲、丳、西」等字,豎筆跨越「囗」形是可以的(說明見上方「婁」字條)。因此應取「中田一」,不應把豎筆截斷。否則反而會跟規律不一致。

亞:一中中一 vs 一中中廿
相關字:啞、婭、惡、堊、壺、壼、斲、鬬、鬭 等

官方的取碼把「亞」字拆得很散,先取頂橫「一」,再取兩豎「中中」,接着取「匚コ」之形「尸尸」,再取兩豎「中中」,最後取底橫「一」,全字不省略的話取「一中中尸尸中中一」,按原則省略則是「一中中一」。
然而,底部的「中中一」,其實就是「廿」的輔根「ㅛ」。「亞」字不取「ㅛ」有違精簡原則。故應取「一中中廿」。Cj6兄認爲這是「ㅛ」字根後來才有,更新時官方想不到「亞」字的結果。
除非我們把「亞 去掉 二」設定爲輔根或複合字,或者把「亞」字設定作難字取「一難一」,才有理由直接取它而不取「ㅛ」。後來蒼頡檢字法中,直接把「亞 去掉 二」設爲「止」(即倉頡五代/三代的「難」)。

亜:一中中一 vs 一廿田
相關字:唖、悪、壷 等

官方取「一中中一」,似乎首橫和尾橫皆取了「一」,中間部份則取了「中中……(被省略)」,基於省略原則,不完全確定官方怎麼取。不知會不會是分成「兩豎、罒、兩豎」三部分,取「中中田中中中中」。
然而,比照「曲、丳、西」等字,豎筆跨越「囗」形是可以的(說明見上方「婁」字條)。因此「亜」故取「一廿田(一ㅛ囗)」即可,這亦符合精簡原則。

丂:一女尸 vs 一尸
相關字:兮、巧、朽、㱙、粵、粤、㕺、亏 等

雖然倉頡輸入法有轉角分則,但只在不增加取碼數時才適用,如「东」取「大木」不取「大女木」,「专」取「手弓戈」不取「手女弓戈」。按此,「丂」應取「一尸(丆㇆)」,但官方卻取了「一女尸」,跟規律不一致。
格瓦拉說過,五代/三代取碼時,把「丂」字第二筆視爲「豎橫撇鈎(㇉、豎折折鈎)」而非「撇橫撇鈎(ㄅ、撇折折鈎)」,而倉頡沒有「丅」這字根或輔根,因此怎也會取三碼,就當應用轉角分則,取「一女尸」而非「一中尸」了。
不過以此字最常見的寫法而言,它的第二筆應爲「撇橫撇鈎」,因此也應可取「一尸」。後來蒼頡檢字法中,「丂」也的確改爲「一尸」,不支援「一女尸」。

癶:弓戈.卜人 vs 弓戈.竹人/弓戈.人竹

官方取「弓戈.卜人」,視右邊兩撇爲「卜」。然而「卜」無此輔根,這是官方出錯。否則,像「形、髟」的右旁也得取「卜」。
若依正常字根拆字,「癶」右旁有人取「竹人」(較符合字形特徵原則),有人取「人竹」(較符合先繁後簡原則)。我主張取「竹人」,不然的話「癶」作爲字首時就要由「弓人」改爲「弓竹」,會影響「發、癸、登」等相關字。格瓦拉也主張取「竹人」
後來蒼頡檢字法中,「癶」的右旁直接作爲「人」的輔根。似乎反映五代/三代原取碼有誤,這也是一種解決方法。

廴:弓弓大 vs 弓水
相關字:延、誕、涎、建、健、廷、挺、廼、廸、廻 等

官方取「弓弓大」而不取「弓水」,ArthurMcArthur懷疑較早版本倉頡的「又」(「水」的輔根)不允許開口所致。但比照五代/三代其他字,無論「又」的左上角是否開口,都可以取「水」碼。「廴」字拆成「弓水」,就不一致了,並且違反了精簡原則。
後來蒼頡檢字法中,「廴」也的確改爲「弓水」,不支援「弓弓大」。似乎反映「弓水」更合理。

毋:田十竹 vs 田十

五代官方的取碼,把「」外的直撇與「」內的直撇分成兩斷。但比照「曲、丳、西」等字,豎向筆畫跨越「」形是可以的(說明見上方「婁」字條)。因此應取「田十」,不應把直撇截斷。否則反而會跟規律不一致。
三代官方則取「田十」。

曱:田一中中 vs 田一中

官方的取碼,把「囗」外的豎筆與「囗」內的豎筆分成兩斷。但比照「曲、丳、西」等字,豎筆跨越「囗」形是可以的(說明見上方「婁」字條)。因此應取「田一中」,不應把豎筆截斷。否則反而會跟規律不一致。
 樓主| 發表於 26-4-2020 17:55:41 | 顯示全部樓層
本帖最後由 Ichirou 於 27-4-2020 06:27 AM 編輯

五代字首分割爭議編碼

因實務考量,「撇捺形狀」或「蓋子形狀」字形,如「人」、「八」、「大」、「夭」、「天」、「冖」、「宀」、「癶」、「春之頂部」、「龹」、「夂」、「旁之頂部」、「孛之頂部」、「囊之頂部」、「㥑之頂部」、「學之頂部」等等,雖輕微遮住下部字形,仍統一將其下緣視為可一刀分離,如「貧」之字首取「八」不取「分」、「奮」之字首取「大」不取「奞」、「喬」之字首取「夭」不取「呑」等等。換言之,「微曲上下形結構」與「上下形結構」是一樣的。

三代手冊有明確提及此判定原則;五代手冊移除了相關敘述,大多數「撇捺形狀」或「蓋子形狀」字形的下緣仍比照三代視作可以「一刀分離」,不過有些「癶」、「春之頂部」、「夂」、「旁之頂部」字形下緣改作視爲不可以一刀分離。然而五代改碼不統一,不少字並無此更動。換言之,「微曲上下形結構」多數情況下仍與「上下形結構」一樣,但有個別(不是全部)以「癶」、「春之頂部」、「夂」、「旁之頂部」開首的漢字有所改變。

五代中「癶」、「春之頂部」、「夂」、「旁之頂部」字形下緣視爲不可以一刀分離的有:夆、夅(但有例外)、各、备、冬、登、春、秦(但有例外)、舂、帝 等。視爲可以一刀分離的有:㚅、贛之右旁、癹、癸 等(還有一些字例,因本論壇不支援擴展區B及以上的漢字,無法顯示,從略),顯得十分混亂。五代手冊於介紹字首字身時,提到按「於可橫向一次截然分離處分出字首」的原則,視「螽」的字首是「冬」(而非「夂」),但另一例字「基」則以「其」爲字首,視「撇捺形狀」下緣可以一刀分離,與「冬」似乎牴觸。《倉五手冊》電子版自2003年於網上公開後,就一直把「登、春」列爲複合字首,而印刷版(及pdf版)則一直沒有如是作。可見官方自己也自相矛盾。

六代倉頡相關字除改用新規則處理以外,皆取消了五代的這種變動,改回三代的做法。竊以爲五代這些字首分割改變皆不可取。

「羗」形
相關字:鬼(五代)、U+2A781

像「羗」字,官方視「羌」爲字首,「厶」爲字身。但這字首字身比例太懸殊。整體字的釐定原則「字形筆畫雖非全部交連,但形勢上爲一完整個體者。」且比照U+2A6BEU+2A6BFU+2A6C3等字,完全可以把「羗」形的字視爲整體字取碼。
發表於 26-4-2020 21:27:29 | 顯示全部樓層
我認為碼表應该統一,以官方的爲凖,要错大家都错成一样,其他再好也不用。就像86五筆一样,码表统一,大家都以86码表為准,虽然还有缺点,但用户都能视而不见,使用也不会造成困惑。
 樓主| 發表於 27-4-2020 06:33:10 | 顯示全部樓層
本帖最後由 Ichirou 於 4-6-2020 01:14 AM 編輯

個人不能苟同「用户都能视而不见,使用也不会造成困惑」,這只是宣揚盲從死背而已。

而倉頡輸入法並不鼓勵盲從死背,強調對不同漢字都一視同仁,依同一套規則。上述這幾點,許多也不是在下提出的,是過往這麼多年的討論裏各位不同的倉頡朋友提出的。

當然提出不等於一定對,這點要經過大家的深入思考和討論。過往一些有人提出了,但論證上站不住腳,有許多反證,或者在立論過程中歪曲了官方說明規矩的,在下都撇除了,不會列於本帖中。

不過我也同意,即使官方取碼或有可斟酌處,但若沒有官方修訂,或沒有大型且有共識的代表性維護計劃之修訂,要理解這些編碼,仍主要以原來的官方拆碼說法爲根據。

換言之,這帖子串裏提及過的字,哪怕怎麼有道理,也只是爲未來所作的提案芻議,不應在現在就把當中的分析看成拆碼標準方法。
 樓主| 發表於 4-6-2020 01:18:13 | 顯示全部樓層
卵:竹竹尸中戈 vs 竹竹尸卜

官方給「卵」字取碼時,「卜」字根的豎與點可能不能分離。但比照「鸟」字,豎和點分離仍然取「卜」。因此「卵」也應取「竹竹尸卜」,以符合精簡原則。「孵、毈」等字同理。
 樓主| 發表於 14-6-2020 02:54:12 | 顯示全部樓層
ceku 發表於 7-6-2020 10:00 AM
這論壇好像找不到引用語法的功能?就先簡單回一下,簡陋勿怪:

我知道「倉頡輸入法原則上應該不會把水平或垂直的縮放視為不同字形」啊。關於「日」字,我說的是:『「曰」第三筆橫筆的左右相觸跟「日」未必相同』。像你貼出的圖,「日」與「曰」正是由橫筆有沒有與豎筆相觸區分,不從它的寬與扁。

「且」不剪作「月廿」,跟「印」的字首不剪作「人心」,「哉」的字首不剪作「土戈」相類,當兩種剪法都不違反各原則時,就用較少剪開筆畫的剪法。不過未嘗試窮盡相關漢字思考可有反例,有待大家以事實硏究。

「火」也有這種可能。不過按後來的應用,還維持這樣就不太合理。

「乂」我個人也贊成取「大」。

「癶」的右旁比照「戶」和「歹」,橫剪和斜剪後,兩種剪法都不違反各原則時,就用橫剪。不過我也認爲這個比較大爭議,說不好定它作複合字會更簡單解決。

「曱」的筆誤已修改。

如果未來會做大整理,作爲與舊版有一定不同的新版本,我同意「鬼」和「羗」等視作整體字。反正「龜部首的僻字」如「U+2A6A7 弓日尸中」、「U+2A6BE 弓日尸金」、「U+2A6BF 弓日尸十」、「U+2A6C3 弓日尸尸」都已經如此,也避免跟「兔」、「U+26351」相比時的不習慣感。

我個人反對把取碼方法說成是「先射箭再畫靶」,這是不同概念吧。有些時候在取碼時,發明人確會顧此失彼,才出現這種問題。這也不是倉頡獨有,像五筆王碼等其他形碼,都有一些類似的例子。
發表於 15-6-2020 22:25:58 | 顯示全部樓層
本帖最後由 ceku 於 17-6-2020 01:23 AM 編輯
我知道「倉頡輸入法原則上應該不會把水平或垂直的縮放視為不同字形」啊。關於「日」字,我說的是:『「曰」第三筆橫筆的左右相觸跟「日」未必相同』。像你貼出的圖,「日」與「曰」正是由橫筆有沒有與豎筆相觸區分,不從它的寬與扁。


第一,你說的「日」「曰」橫筆差異我不明白,有圖解嗎?

第二,就算有,這差異恐怕也是極其細微,別說十個人可能有九個看不出來,甚至明體、楷體等不同書體搞不好也有差異,那要視不同書體取碼嗎?我認為視作同形恐怕還是比較合理。

「且」不剪作「月廿」,跟「印」的字首不剪作「人心」,「哉」的字首不剪作「土戈」相類,當兩種剪法都不違反各原則時,就用較少剪開筆畫的剪法。不過未嘗試窮盡相關漢字思考可有反例,有待大家以事實硏究。


這題我之前提出過,如果引入此原則,那麼「巳」取「口山」而非「尸山」就會成為反例。

而且,此原則如果成立,那麼「目」、「囗」恰恰更應該取「月一」勝過「月山」。

其實官方曾經過過「目」是複合字,這樣或許更好圓說。但傳統上複合字都是自成單位,並與週邊筆畫強制分離,比如「幾」強制分成「女戈.竹戈」,而不是比照「戍」取「戈竹.戈」的邏輯取「女竹.戈」。若採此說,「貝」、「見」等字的取碼都得重新理解成「月山.金」、「月山.竹山」,可能會影響一些字的取碼。

「火」也有這種可能。不過按後來的應用,還維持這樣就不太合理。


後來的應用是指什麼?我想到的例子是主要是簡化字頭「𭕄」(點點撇)。要解釋的話,這可以視為「點點點」手寫時為向下連接「冖」,而自然轉成的類撇筆,本質上還是「點」。但「灬」就不太一樣了,手寫筆順確實是先一「撇」再三「點」,不太能和前者類比。

「癶」的右旁比照「戶」和「歹」,橫剪和斜剪後,兩種剪法都不違反各原則時,就用橫剪。不過我也認爲這個比較大爭議,說不好定它作複合字會更簡單解決。


視作複合字可以解決衍生字取碼問題,不過「癶」就必須改碼為「弓人」了。

之前有個說法是視為「卜」追加兩短撇的輔助字形,因為是與「⺀」類似的兩短撇,因此不須適用「彡」形。這說法有什麼大問題嗎?

另外說到這種字形,「𭕄」為什麼取「戈戈竹」而不是「戈金」或「金戈」也會是個議題。


發表於 16-6-2020 23:42:21 | 顯示全部樓層
本帖最後由 ceku 於 17-6-2020 01:16 AM 編輯
但傳統上複合字都是自成單位,並與週邊筆畫強制分離,比如「幾」強制分成「女戈.竹戈」,而不是比照「戍」取「戈竹.戈」的邏輯取「女竹.戈」。若採此說,「貝」、「見」等字的取碼都得重新理解成「月山.金」、「月山.竹山」,可能會影響一些字的取碼。


後來重新思考了一下,發現此理解可能不正確。複合字只是不可進一步分割,但不排除可和其他筆畫或字形共同形成整體,例如「隺」「學」都是共同整體的實例。既然如此,「貝」、「見」視為「目」加上「八」、「儿」共同形成整體也不奇怪了。

因此按增訂版三代手冊之說將「目」列入複合字、「囗」按原規則取「月一」似乎是個說得通、相容性也好的做法。

 樓主| 發表於 19-6-2020 16:59:40 | 顯示全部樓層
1.
傳承字形一向區分,「日」、「曰」不同形。上「日」下「曰」,無論寬或扁,橫筆不同是區分點。
未命名123456.png

2.
「巳」取「尸山」就違反了區塊原則。就像「向、戶、歹」等,橫向剪開是比較理想/優先的。「巳」取「尸山」就跟此違反了。

但「印、哉、且」不同,它們的官方取碼並無違反。「巳」並不是它們的反例。

至於你說「目」,則是轉角分則,是另一個問題。
發表於 19-6-2020 18:24:19 | 顯示全部樓層
本帖最後由 ceku 於 19-6-2020 06:25 PM 編輯
Ichirou 發表於 19-6-2020 04:59 PM
1.
傳承字形一向區分,「日」、「曰」不同形。上「日」下「曰」,無論寬或扁,橫筆不同是區分點。


哪個傳承字形?有確切的文獻證據提到這個區別嗎?

我也看過不少不作此區分的字體,比如全字庫正宋體、全字庫正楷體、標楷體、華康魏碑體等等:

font.png

再查異體字字典的「日」,也有文獻是用你所謂「曰」的寫法,如下圖最上面的字:



因此我傾向認為此二字並無此區分,那只是部分字體製作者的做法。

2.
「巳」取「尸山」就違反了區塊原則。就像「向、戶、歹」等,橫向剪開是比較理想/優先的。「巳」取「尸山」就跟此違反了。

但「印、哉、且」不同,它們的官方取碼並無違反。「巳」並不是它們的反例。

至於你說「目」,則是轉角分則,是另一個問題。


無論是所謂的區塊原則或剪刀原則,它們的意思都只是「優先選擇字根不互相交錯的取碼方式」,並沒有所謂橫向剪開比較優先之類的意思。「巳」無論取「尸山」或「口山」,字根之間都只是相接而無交錯,因此與區塊原則無關。

我無法保證後者不存在,但我沒有在官方手冊中明確看到過。三代手冊沒有提;五代手冊有「巳」、「民」兩個字例,但它混在「完整原則」裡談,只能看出官方確實認為切出「口」較能保留字形特徵,無法區分具體是根據什麼原則。

轉角分則只適用於連續筆畫,「目」的兩豎和底橫並非連續筆畫,因此和轉角分則無關。
發表於 6-7-2024 08:01:01 | 顯示全部樓層
Ichirou 發表於 26-4-2020 05:30 PM
以下是我想到的或看到其他人商榷過的取碼:(vs前方是官方取碼)

曰:日 vs 田一

癶不是視边两撇為卜,而是視撇奈(上半)為卜,余為人的输助字形豕的右部。因卜有亠的输助字形,故转九十度的卜也可視作字形。
發表於 6-7-2024 08:22:28 | 顯示全部樓層
本帖最後由 chiangba皭綬 於 18-7-2024 02:56 AM 編輯
Ichirou 發表於 26-4-2020 05:55 PM
五代字首分割爭議編碼

因實務考量,「撇捺形狀」或「蓋子形狀」字形,如「人」、「八」、「大」、「夭」、 ...

关于冖頭分离,个人总结如下:
在涉及冖頭分离问題時:
一常見字于上下结构字前部時,取最前的常見字為字首;
一有字首之常見字為字身時,以常見字字首為次字首;
一常見字于字身前部時,以該字為次字首,无論該字是否可分离;
当一字可由另一字于字身增加部件得到時,若字身码未取足則于尾部按規則增填新部件之码;若已取足則換尾码為新部件之尾码。
五代倉頡冖頭分离问題大部分可以詮譯,少數有誤,故此。
例拿字,合為常見字于字前,故為字首取首尾码為人口,惫同;夅為非常見字,故竷㯯等字按字身取首、次、尾码得之。此時字身是否分离便不那么重要了(分不分都一样)。
發表於 6-7-2024 08:44:00 | 顯示全部樓層
Ichirou 發表於 4-6-2020 01:18 AM
卵:竹竹尸中戈 vs 竹竹尸卜

官方給「卵」字取碼時,「卜」字根的豎與點可能不能分離。但比照「鸟」字,豎 ...

据字源,鸟字源于草书楷化,而草书字形中或无點,或与之相连一笔写下,是鳥中卜的部分對应。理应不与卜当𥘉所設之输助字形沖突。故此。

另,現大陆字形中卜的丨与、大多視為分离而写。
个人认為,卵本应也取竹竹尸中(包含省略),但並不妥当,猜于後加戈以与卯区分,而当時未考慮到大陆字形(也許当時大陆的丨与、也不分离呢)。故此。
發表於 6-7-2024 09:00:53 | 顯示全部樓層
chiangba皭綬 發表於 6-7-2024 08:44 AM
据字源,鸟字源于草书楷化,而草书字形中或无點,或与之相连一笔写下,是鳥中卜的部分對应。理应不与卜当 ...

倉頡取碼與字源無關,而是完全根據字形,看到什麼就是什麼。


「卵」的字身可以取三碼,此時「卪」可以全部取完,是完全不適用於包含省略的,只有在「孵」這種情况,「卪」作為次字首只能取兩碼時才能包含省略內部的點。


還是和上次一樣的話,請先閱讀教程,你的原創理論都是經不起推敲的。
 樓主| 發表於 12-7-2024 13:00:13 | 顯示全部樓層
chiangba皭綬 發表於 6-7-2024 08:22 AM
关于冖頭分离,个人总结如下:
在涉及冖頭分离问題時:
一常見字于字前部時,取最前的常見字為字首;

用是否「常見字」來劃分字首,是錯誤的。

「喬」字上方也有常見字「呑」,但「喬」字的字首是「夭」。
「盆」字上方也有常見字「分」,但「盆」字的字首是「八」。
「攀」字上方也有常見字「樊」,但「攀」字的字首是「棥」。
相反,
「學」字上方的「𦥯」並非常見字,但「學」字的字首的確是「𦥯」。
「𡕩」字上方的「𠒆」並非常見字,但「𡕩」字的字首的確是「𠒆」。
「舋」字上方的「」並非常見字,但「舋」字的字首的確是「」。

五代倉頡中,「拿」字的字首,從三代的「人」改成五代的「合」,是因爲在五代裏有複合字首「合」。這是三代沒有的。
「拿」字的改碼,不能用所謂「常見字」來解釋。

上述這些,在官方手冊裏都說得清清楚楚。請多留意。
發表於 18-7-2024 02:01:23 | 顯示全部樓層
Ichirou 發表於 12-7-2024 01:00 PM
用是否「常見字」來劃分字首,是錯誤的。

「喬」字上方也有常見字「呑」,但「喬」字的字首是「夭」。

那么請问,曲字的字首為何?
發表於 18-7-2024 02:41:44 | 顯示全部樓層
Ichirou 發表於 12-7-2024 01:00 PM
用是否「常見字」來劃分字首,是錯誤的。

「喬」字上方也有常見字「呑」,但「喬」字的字首是「夭」。

吞字的常見字形是一大口而非竹大口(至少在大陆没見過竹大口的呑),夭也是常見字;

攀𣝴𫽷𬅍𭬑盆弅等字用的是續码原則,一字可由另一字身不足三码之字填增部件得到時,于後填码得到本字字码,同样的还有卵字;
另,常見字原則中並非説非常見字不可做字首,而是无常見字于字前時正常分离。
常見字原則是由wiki上所説冖頭分离问題所给之表总结而出,
續码原則由卵字等字觀之,二原則优先级乃未知,故无先後取用之定。
另问,
在字身中設置次字首的意義何在?
其各規則的绝對取用順序(优先順序)為何?
每个規則使用時各自明确且严格的前提条件分別為何?
为漢字排序作為倉頡码設計的目的之一,試问對重復字的唯一定序处理為何?
曲字的字首為何?依何原則(分則)而定?

發表於 18-7-2024 02:51:38 | 顯示全部樓層
Ichirou 發表於 26-4-2020 05:30 PM
以下是我想到的或看到其他人商榷過的取碼:(vs前方是官方取碼)

曰:日 vs 田一

癶的取码官方应是以人同飞中人的输助字形,卜則為卜转45°的字形(转90°的亠都有45°也应允許存在吧),除卜的字根有小问題外,並无不妥。
您需要登錄後才可以回帖 登錄 | 注册

本版積分規則

Archiver|手機版|小黑屋|康熙字典与倉頡之友

GMT+8, 22-12-2024 11:12 PM , Processed in 0.019608 second(s), 10 queries , File On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表






倉頡之友 .自學倉頡輸入法    1997 - 2024   
馬來西亞    https://www.chinesecj.com
姐妹站:康熙字典網上版