常見漢字輸入方案重碼數據統計
〔朱宇浩 初寫於 2022年12月24日 鹿特丹〕
目錄
1. 靜態重碼率
這裏將世面上可見的各類形碼輸入法的重碼數據進行對比,統計其在不同漢字字符集下的單字全碼的重碼數量。其中:
- 「通規」是指大陸《通用規範漢字表》中的 8105 箇簡化漢字。測試輸入法簡化字確定性。
- 「國字」是指臺灣《常用國字標準字體表》中的 4808 箇繁體漢字。測試輸入法繁體字確定性。
- 「繁簡通」是指大陸《通用規範漢字表》和臺灣《常用國字標準字體表》中的 9853 箇繁簡漢字。測試輸入法繁簡混輸確定性。
- 2312 是大陸的簡化字集,共有簡化漢字 6764 箇。
- BIG5 是臺灣的繁體字集,共有繁體漢字 13069 箇。
- GBK 是大陸的繁簡字集,共有繁簡漢字 21003 箇。
- 動態重碼率指的是用字頻對重碼字進行加權,只使用大陸《通用規範漢字表》中的簡化漢字。
- 動態選重率指的是用字頻對重碼字中除卻煅選的漢字進行加權,只使用大陸《通用規範漢字表》中的簡化漢字。這裏的假設明文打開記住首選字,並默認將之上屏。因此只有在二選或三選時纔需要選重。更能反映實際簡化漢字輸入體驗。
- 注意,動態重碼率基於字頻數據,不同的字頻統計會産生不同結果。我採用的字頻數據來自北京師範大學 邢紅兵的《25亿字语料汉字字频表》。
注意:此處只呈現客觀的重碼數據,不能用來代表此輸入方案優秀與否。評判一箇輸入方案,應該綜合攷量以下因素:
- 在不同字集/使用環境下的重碼率。
- 規則複雜度。
- 字根記憶難度。
- 拆字直觀性/唯一性/容錯性。
- 和漢字體系和漢字理論的相容性。
- 編碼或規則的特例數量。
- 人體工學性。
- 平臺通用性。
以下排名不分先後:
形碼方案 | 通規 | 國字 | 繁簡通 | 2312 | BIG5 | GBK | 動態重碼率 | 動態選重率 | 特點 | 最大優勢 |
---|---|---|---|---|---|---|---|---|---|---|
單編碼系 | ||||||||||
五筆86 | 787 | 357 | 1938 | 537 | 2236 | 6582 | 7.77% | 0.34% | 四碼定長 單編碼 字根分區 | 全平臺通用 |
五筆98 | 763 | 329 | 1867 | 515 | 2150 | 6368 | 8.56% | 0.37% | 四碼定長 單編碼 字根分區 | 易上手 |
五筆06·新世紀 | 831 | 387 | 1970 | 532 | 2373 | 6610 | 7.90% | 0.31% | 四碼定長 單編碼 字根分區 | |
張碼 | 223 | 113 | 1236 | 110 | 1202 | 4646 | 13.91% | 1.55% | 四碼定長 結構碼 | 簡體字集低重碼 |
藍寶石 | - | - | - | 487 | - | - | - | - | 四碼定長 單編碼 字根隨機 | 没有無理碼 |
雙編碼系 | ||||||||||
鄭碼 | 843 | 311 | 2063 | 563 | 2206 | 6590 | 7.50% | 0.59% | 四碼定長 單編碼 大碼分區 小碼形託 | 拆字科學 |
徐碼12 | 508 | 125 | 688 | 324 | 1089 | 2872 | 3.52% | 0.10% | 四碼定長 雙編碼 大碼分區 小碼音託 | 繁簡通打 |
徐碼22 | 495 | 131 | 678 | 320 | 1104 | 2899 | 3.49% | 0.10% | 四碼定長 雙編碼 大碼分區 小碼音託 | |
徐碼22·FF調整 | 476 | 117 | 650 | 300 | 1096 | 2858 | 2.98% | 0.08% | 四碼定長 雙編碼 減少X和Z鍵的頻率 | |
真碼 | 600 | 238 | 2038 | 422 | 2039 | 6670 | 4.24% | 0.13% | 四碼定長 單編碼 大碼分區 小碼形託 | |
虎碼 | 871 | 238 | 2382 | 532 | 2489 | 7687 | 8.92% | 0.05% | 四碼定長 雙編碼 大碼隨機 小碼音託 | 手感好 |
大於四碼系 | ||||||||||
倉頡五代 | 498 | 164 | 714 | 422 | 978 | 2893 | 12.07% | 0.89% | 五碼定長 | 繁體字集低重 |
山人全息 | 275 | 84 | 1523 | 194 | 660 | 3952 | 1.80% | 0.06% | 不定長 | 聯想記憶 |
類三碼系 | ||||||||||
三碼鄭碼 | 3677 | 1578 | 5534 | 2700 | 8604 | 16490 | 24.26% | 0.50% | 三碼定長 只打單字 出簡不出全 | 節奏感好 |
五筆092 | 1956 | 798 | 2576 | 1876 | 5451 | 11418 | 28.04% | 3.15% | GBK内單字三碼 全碼四碼 單編碼 字根分區 | |
音形碼系 | ||||||||||
小鶴音形 | 1117 | 214 | 1119 | 730 | 581 | 1067 | 9.09% | 0.85% | 四碼定長 音形碼 |
2. 碼表來源
碼表數據基於:
- [徐碼12] 官方QQ群:218210590
- [徐碼22] 官方QQ群:761401688
- [徐碼22·FF調整]https://github.com/forFudan/xuma
- [倉頡五代]https://github.com/rime/rime-cangjie
- [山人全息]https://github.com/ywxt/rime-sunman
- [虎碼]http://huma.ysepan.com/
- [五筆06·新世紀]https://github.com/byujiang/wubi06_rime
- [張碼] 官方QQ群:77313896
- [藍寶石]https://github.com/kktt007/rime-fcitx-rime
- [092五筆]https://github.com/lvxingjia/092r
- [小鶴]https://github.com/cubercsl/rime-flypy