倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站
新手請教:目前中文字總共有多少字? - 倉頡論壇 - 康熙字典与倉頡之友 - Powered by Discuz!



 找回密碼
 注册
查看: 162|回復: 10

新手請教:目前中文字總共有多少字?

[複製鏈接]
發表於 20-3-2025 20:13:44 | 顯示全部樓層 |閱讀模式
如題
發表於 6 天前 | 顯示全部樓層
目前康熙字典的字數有47043個字。
在一般觀念中,問題問的是中文字有多少個,答案應該提供數字就夠了。
然而,在文化和政治不同背景下,出現一些不同的答案。

目前unicode收錄漢字字數有9萬字。
簡體字有8000字,此外簡體的異體字有14000字。
繁體字在觀念上是不包含簡體字的,但臺灣人其實也有使用一套有別於中國大陸的簡體字,例如梹字。此外,康熙字典被認為是繁體字,但字典裡面也有些目前被認為是簡體字的字,例如:弃/万/于。
簡單的答案:還是9萬字。
 樓主| 發表於 5 天前 | 顯示全部樓層
謝謝詳實的說明,再請教
1. 這九萬字也包含日文的漢字嗎?
2. 這九萬字都有對應的倉頡碼嗎?
發表於 4 天前 | 顯示全部樓層
本帖最後由 蓼汀花溆 於 27-3-2025 09:24 AM 編輯
Bridan 發表於 26-3-2025 07:29 PM
謝謝詳實的說明,再請教
1. 這九萬字也包含日文的漢字嗎?
2. 這九萬字都有對應的倉頡碼嗎? ...

以下都是我個人的看法,如果有錯誤請指正。
1. 我覺得這9萬字也包括了日文的和製漢字,韓文,越南文,馬來西亞和新加坡的新造字,說成是漢字也沒問題,因為大家都在同樣的漢文化圈裡,而且也無法明顯分割這幾個國家或文化的文字。
https://zh.wikipedia.org/zh-cn/W ... 5%E6%B1%89%E5%AD%97
2.對,這9萬字都有對應的倉頡碼,請下載倉頡平臺。有個最快的方法檢查這些字,就是在安裝倉頡平臺完成之後,在電腦裡搜尋txt文檔,就能看見這9萬字和所對應的倉頡碼了。
例如: c:\program files(x86)\cjsys\mb\cj3-90000.txt
c:\program files(x86)\cjsys\mb\cj5-90000.txt
c:\program files(x86)\cjsys\mb\cj5q-90000.txt
 樓主| 發表於 4 天前 | 顯示全部樓層
謝謝說明,倉頡平台2022 下載有問題。
因為沒法看 cjx-90000.txt,我就查閱倉頡字典,看見很多字同碼,
例如,日、曰都是 A,記得倉頡不是每一字都有它的獨碼嗎?
如果不是獨碼,就表示倉頡有很多字會重碼需要選字,對嗎?
發表於 3 天前 | 顯示全部樓層
Bridan 發表於 27-3-2025 11:48 PM
謝謝說明,倉頡平台2022 下載有問題。
因為沒法看 cjx-90000.txt,我就查閱倉頡字典,看見很多字同碼,
例 ...

以下的是我從倉頡平臺裡提取的cj5-90000.txt。直接下載看看吧。

cj5-90000.txt

1.19 MB, 下載次數: 13

發表於 3 天前 | 顯示全部樓層
本帖最後由 蓼汀花溆 於 28-3-2025 10:47 AM 編輯
Bridan 發表於 27-3-2025 11:48 PM
謝謝說明,倉頡平台2022 下載有問題。
因為沒法看 cjx-90000.txt,我就查閱倉頡字典,看見很多字同碼,
例 ...

倉頡還是有重碼字,通常是用難根來解決:
日是A,曰是XA
但在90000字的範圍裡,日本的和製漢字、中國的簡體字仍然還會有取碼相同,字形和unicode有差異的字,希望重碼數沒有超過5個。

希望有回答到你的問題。
至於解決方法嘛,如果有興趣的話,可以試試看第六代的倉頡輸入法(蒼頡輸入法),但第六代的倉頡還是有重碼字。我自己也魔改過一套倉頡,至少需要半年的時間去做這套碼表,曾經想過AI是否能幫忙?可惜AI沒有辦法自動生成碼表。所以,當年是為臺灣繁體特定字形所發明的倉頡輸入法,在收納字形漸漸增加的背景下,已經很難解決重碼字。除非自己再增加字根、鍵位、碼長、規則等等來解決重碼字。

有個有趣的思路來解決重碼字,就是在倉頡24鍵的基礎上,設立A區和X區,A區鍵位打字,X區選重碼字,脫離空白鍵和數字鍵選字的規則。

發表於 3 天前 | 顯示全部樓層
本帖最後由 馬拉一個錘子 於 28-3-2025 11:07 AM 編輯
例如,日、曰都是 A,記得倉頡不是每一字都有它的獨碼嗎?

在倉頡系統中,不同的字都有不同的編碼。像「日」和「曰」這種本身重碼的字,就會以「重」(六代以前的做法)或數字(六代的做法)區分開來。例如五代及以前版本,「日」編碼「日」,「曰」編碼「重日」。六代中「日」編碼「日」,「曰」編碼「日1」。通過這種人為區分,每字都有了不同編碼了。這樣,倉頡編碼就可以被轉換為計算機內碼,供處理文字之用。

然而,現在的常見碼表中都不再堅持這種編碼方式,一般都會允許使用者從重碼中選字。這主要是以下幾個原因:
①現在人們所使用的計算機都是Unicode編碼,不採用倉頡內碼。因此一字一碼失去了內碼上的意義。
②即使還想用這種方式做到每一個字都有獨有編碼,可是Unicode中一些漢字在倉頡中重碼過多,已不能以上述的方法加以區分。例如「鬻」、「䰞」、「𩰲」、「𩱪」、「𩱭」…等40多個漢字,在倉頡五代中都是「弓弓一口月」,已經不可能以「重」鍵加以區分。「井」、「并」、「卌」、「𠀎」、「𠦌」、「𠦜」、「𦬇」、「𦬠」、「𦬵」等字在倉頡六代中都是「廿廿」,也不能以數字鍵加以區分,因為受限於六代內碼設計,數字最多可以加到5。
③這種做法需要記憶哪個字前面有「重」,哪個沒有,或是記憶哪個字編碼後面有數字,也不利使用。


如果不是獨碼,就表示倉頡有很多字會重碼需要選字,對嗎?

倉頡輸入法中存在重碼,但上面提到的幾例畢竟是比較極端的狀況。倉頡輸入法的重碼表現是比較優秀的,在大字集和繁簡通打下都如此。對於繁簡通打時倉頡的表現可見此文
 樓主| 發表於 3 天前 | 顯示全部樓層
蓼汀花溆 發表於 28-3-2025 10:10 AM
以下的是我從倉頡平臺裡提取的cj5-90000.txt。直接下載看看吧。

下載了,感謝
 樓主| 發表於 3 天前 | 顯示全部樓層
蓼汀花溆 發表於 28-3-2025 10:39 AM
倉頡還是有重碼字,通常是用難根來解決:
日是A,曰是XA
但在90000字的範圍裡,日本的和製漢字、中國的簡 ...

不知道我的理解對不對,當初朱博士設計倉頡輸入法是根據繁體字庫,後來陸續加入各種文字而擴編了倉頡,

初期還能一字一碼不重碼,但是現在九萬字就難辦到了,
不曉得現在編碼的重任是由誰決定字碼規則?是朱博士、沈女士,還是論壇的版主們?
 樓主| 發表於 3 天前 | 顯示全部樓層
馬拉一個錘子 發表於 28-3-2025 11:04 AM
在倉頡系統中,不同的字都有不同的編碼。像「日」和「曰」這種本身重碼的字,就會以「重」(六代以前的做 ...

個人對倉頡輸入的外行看法,基本上
老手應該會續用舊版三代或五代,已經熟記相關拆字規則,直接看稿盲打不用選字,
新手會使用較新代規則,甚至會自創規則,可以接受一字多碼,甚至選字也接受

不知道是不是這樣?
您需要登錄後才可以回帖 登錄 | 注册

本版積分規則

Archiver|手機版|小黑屋|康熙字典与倉頡之友

GMT+8, 31-3-2025 06:48 PM , Processed in 0.015324 second(s), 10 queries , File On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表






倉頡之友 .自學倉頡輸入法    1997 - 2025   
馬來西亞    https://www.chinesecj.com
姐妹站:康熙字典網上版