倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站
我的倉頡詞組碼表 - 倉頡論壇 - 康熙字典与倉頡之友 - Powered by Discuz!



 找回密碼
 注册
查看: 14906|回復: 2

我的倉頡詞組碼表

 火... [複製鏈接]
發表於 9-6-2010 20:09:00 | 顯示全部樓層 |閱讀模式
本帖最後由 有女同車 於 10-6-2010 09:46 PM 編輯

感覺把Z插在中間的格式很不舒服,調整了一下編碼規則

碼表下載:cjphrases.rar

我從新酷音那裡偷來一個詞表,剔除注音和單字後,得到一個包含總計128321條詞語暨其頻度的大詞庫。


我的詞語編碼規則是這樣:

1)在詞語編碼中加入特殊標記(字母z或x),俾之與單字編碼判然有別。
2)雙字詞取碼爲: 1首尾 + 2首尾 + z (首尾二碼是借鑒速成的取碼法)
3)三字詞取碼爲: 1首 + 2首 + 3首尾 + x (模倣五筆字型:首字、次字取一碼,第三字取兩碼。末尾標記用X是為了跟兩字詞有所區別,減少重碼。單字碼與三字詞碼重疊者甚少,詳附注【一】)
4)四字詞取碼爲: z + 1首 + 2首 + 3首 + 4首
5)五字以上詞語取碼爲: 1首 + 2首 + 3首 + z + 末字首
~~~~~~~~~~~~~~~~~~~



碼表格式(scim_table)
左 中 右
碼 詞 頻

(頻度數值高者常用,低者罕用)

~~~~~~~~~~~~~~
附注【一】:三字詞與大字集單字重碼如下--
"anbhx","𨶒"
"btlx","𦢩"
"eeeex","𠮌𠮐𦦖"
"hdhjx","䅤𦦈"
"hnlx","𩘹"
"hohjx","𢔣"
"hylcx","𦪺"
"mbhjx","𩃹"
"nflx","鱐"
"oihjx","𩝟"
"rmmjx","𨂵"
"tjcx","𦽜"
"yalkx","𩐽"
---------------------------

〔統計〕

詞語條目數:128321
編碼條目數:93960
一對一編碼:73551
一對多編碼:20409
  其中--
      一對二         : 13896
      一對三組以上: 6513

碼表下載:cjphrases.rar

phrases.7z

498.53 KB, 下載次數: 52492

發表於 9-6-2010 23:12:04 | 顯示全部樓層
辛苦了!希望“Z”能解訣重碼問题。重碼率多少?
 樓主| 發表於 10-6-2010 20:08:35 | 顯示全部樓層
回復 2# chinu
調整了一下編碼規則,統計數據見一樓更新。
您需要登錄後才可以回帖 登錄 | 注册

本版積分規則

Archiver|手機版|小黑屋|康熙字典与倉頡之友

GMT+8, 22-12-2024 10:58 PM , Processed in 0.013556 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表






倉頡之友 .自學倉頡輸入法    1997 - 2024   
馬來西亞    https://www.chinesecj.com
姐妹站:康熙字典網上版