|
本帖最後由 有女同車 於 10-6-2010 09:46 PM 編輯
感覺把Z插在中間的格式很不舒服,調整了一下編碼規則
碼表下載:cjphrases.rar
我從新酷音那裡偷來一個詞表,剔除注音和單字後,得到一個包含總計128321條詞語暨其頻度的大詞庫。
我的詞語編碼規則是這樣:
1)在詞語編碼中加入特殊標記(字母z或x),俾之與單字編碼判然有別。
2)雙字詞取碼爲: 1首尾 + 2首尾 + z (首尾二碼是借鑒速成的取碼法)
3)三字詞取碼爲: 1首 + 2首 + 3首尾 + x (模倣五筆字型:首字、次字取一碼,第三字取兩碼。末尾標記用X是為了跟兩字詞有所區別,減少重碼。單字碼與三字詞碼重疊者甚少,詳附注【一】)
4)四字詞取碼爲: z + 1首 + 2首 + 3首 + 4首
5)五字以上詞語取碼爲: 1首 + 2首 + 3首 + z + 末字首
~~~~~~~~~~~~~~~~~~~
碼表格式(scim_table)
左 中 右
碼 詞 頻
(頻度數值高者常用,低者罕用)
~~~~~~~~~~~~~~
附注【一】:三字詞與大字集單字重碼如下--
"anbhx","𨶒"
"btlx","𦢩"
"eeeex","𠮌𠮐𦦖"
"hdhjx","䅤𦦈"
"hnlx","𩘹"
"hohjx","𢔣"
"hylcx","𦪺"
"mbhjx","𩃹"
"nflx","鱐"
"oihjx","𩝟"
"rmmjx","𨂵"
"tjcx","𦽜"
"yalkx","𩐽"
---------------------------
〔統計〕
詞語條目數:128321
編碼條目數:93960
一對一編碼:73551
一對多編碼:20409
其中--
一對二 : 13896
一對三組以上: 6513
碼表下載:cjphrases.rar |
|