常见输入法重码数据对比
目录
重码数据
这里将世面上可见的各类形码输入法的重码数据(全码)进行对比,统计其在不同汉字字符集下的单字全码的重码数量。其中:
- 「通规一二级」是指大陆《通用规范汉字表》中的 6500 个简化汉字。测试输入法简化字确定性。
- 「国字」是指台湾《常用国字标准字体表》中的 4808 个繁体汉字。测试输入法繁体字确定性。
- 「常用繁简」是指大陆《通用规范汉字表》一二级的6500个汉字、台湾《常用国字标准字体表》中的 4888个汉字、以及《古籍印刷通用规范》中的125个大陆繁体字形。总共为8390个常用繁简汉字。测试输入法繁简混合文本下的确定性。
- GB2312 是大陆信息技术简化字集,共有简化汉字 6764 个。
- GBK 是大陆的信息技术大字集,共有繁简汉字 21003 个。
- 静态重码数指的是一个字集范围内,编码相同的汉字的绝对数量,反映出了输入法在检字方面的确定性。
- 动态选重率指的是用字频数据对重码汉字进行加权。因为存在五码自动顶一选,只有在二选或三选时才需要选重。这个指标更能反映实际的输入体验。
- 注意,动态重码率基于字频数据,不同的字频统计会产生不同结果。我采用的字频数据,简体来自北京师范大学邢红兵的《25亿字语料汉字字频表》,繁体来自”繁体字频表.txt”。
注意:此处只呈现客观的重码数据,不能用来代表此输入方案优秀与否。评判一个输入方案,应该综合攷量以下因素:
- 在不同字集/使用环境下的重码率。
- 规则复杂度。
- 字根记忆难度。
- 拆字直观性/唯一性/容错性。
- 和汉字体系和汉字理论的相容性。
- 编码或规则的特例数量。
- 人体工学性。
- 平台通用性。
表格按输入法的性质排列:
形码方案 | GB2312 | 通规一二级 | 国字常用 | 常用繁简 | GBK | 简体选重率 | 繁体选重率 | 繁简混合文本选重率 |
---|---|---|---|---|---|---|---|---|
四码定长 | 字根单编码 | |||||||
五笔86 | 537 | 452 | 357 | 1685 | 6582 | 34.2‱ | 79.0‱ | 226.4‱ |
五笔98 | 515 | 452 | 329 | 1623 | 6368 | 38.1‱ | 78.0‱ | 230.1‱ |
五笔06·新世纪 | 532 | 488 | 387 | 1690 | 6610 | 31.8‱ | 81.8‱ | 223.6‱ |
张码 | 110 | 84 | 113 | 1138 | 4646 | 154.9‱ | 181.1‱ | 265.6‱ |
蓝宝石 | 388 | 358 | 284 | 713 | 5082 | 21.6‱ | 57.6‱ | 58.9‱ |
四码定长 字根双编码 | 繁简同根 | |||||||
郑码 | 563 | 533 | 311 | 1779 | 6590 | 59.9‱ | 63.3‱ | 267.1‱ |
真码 | 422 | 366 | 238 | 1833 | 6670 | 13.8‱ | 41.9‱ | 269.1‱ |
四码定长 字根双编码 | 繁简通打 | |||||||
徐码13 | 324 | 288 | 125 | 462 | 2872 | 10.4‱ | 23.0‱ | 24.8‱ |
徐码23 | 318 | 278 | 127 | 453 | 2902 | 10.7‱ | 21.8‱ | 25.1‱ |
宇浩·正式版 | 313 | 271 | 214 | 583 | 5015 | 5.5‱ | 15.6‱ | 17.7‱ |
宇浩·發燒版 | 312 | 267 | 212 | 590 | 5144 | 5.2‱ | 15.4‱ | 17.0‱ |
五码定长 | 繁简通打 | |||||||
仓颉五代 | 422 | 367 | 164 | 585 | 2893 | 88.8‱ | 48.9‱ | 104.7‱ |
不定长 | ||||||||
山人全息 | 194 | 168 | 84 | 1455 | 3952 | 6.4‱ | 7.5‱ | 233.7‱ |
选重方案 | ||||||||
五笔092 | 1876 | 1569 | 798 | 2034 | 11418 | 315.3‱ | 268.1‱ | 317.6‱ |
三码定长 | 出简不出全 | |||||||
三码郑码 | 2700 | 2551 | - | - | - | 51.8‱ | - | - |
音形方案 | 简体方案 | |||||||
小鹤音形 | 730 | 725 | - | - | - | 85.3‱ | - | - |
公式化表达
假设 \(Z\) 为一个汉字的集合, \(M\) 为一个编码的集合, \(p:Z\rightarrow [0,1]\) 为汉字到某文本状态下单字频率的映射.
用编码和字频对汉字排序, 使汉字 \(z_{ij}\) 是编码为 \(m_i\) 的第 \(j\) 个汉字, \(i \in I\), \(j \in J_i\), 且满足 \(a\geq b\) 时, \(f(z_{ia})\geq f(z_{ib})\).
那么,静态重码数可以表达为:
\[N_{s} = \mid \{z_{ia}, z_{ib} \text{ if } M(z_{ia}) = M(z_{ib}) \text{ for all } a,b \in J_i \text{ and } i \in I \}.\]动态重码率可以表达为:
\[N_{d} = \sum\limits_{i \in I, j \in J_i/\{1\}} p(z_{ij}).\]码表来源
码表数据基于:
- [宇浩]https://zhuanlan.zhihu.com/p/614054514 官方QQ群:735728797
- [徐码13] 官方QQ群:218210590
- [徐码23] 官方QQ群:761401688
- [仓颉五代]https://github.com/rime/rime-cangjie
- [山人全息]https://github.com/ywxt/rime-sunman
- [五笔06·新世纪]https://github.com/byujiang/wubi06_rime
- [张码] 官方QQ群:77313896
- [蓝宝石] 2023年版 官方QQ群:111088239
- [092五笔]https://github.com/lvxingjia/092r
- [小鹤]https://github.com/cubercsl/rime-flypy
125个大陆繁体字形
蟶衆螄斕綉覈飆淩轆癡刴戩糉㨃擡佈圇箇絝啓廡儕槪顴躋鉅鋭鎚牀廏衹朶讞噁瑋旣蓽嬡僞蹟癟艶淼㑚紈餚攢樑噠繮曬崗壎濕竈殞揹瓚鵰痠鈺巘裏曁皁奬諏孃贇閆跥歎産顔頽摻爲絶昇繳躱薦閲謔卽纔剮闕暘屌勳覷伲崟蹌饋駡曇躥翀熒鹵説唄龕裋衊㞞〇誒侷玅薈齶燼嬈鉢檯喫摳鶩縐滷襬麪