Skip to main content Link Menu Expand (external link) Document Search Copy Copied

常见输入法重码数据对比

目录
  1. 重码数据
  2. 码表来源
  3. 125个大陆繁体字形

重码数据

这里将世面上可见的各类形码输入法的重码数据(全码)进行对比,统计其在不同汉字字符集下的单字全码的重码数量。其中:

  • 「通规一二级」是指大陆《通用规范汉字表》中的 6500 个简化汉字。测试输入法简化字确定性
  • 「国字」是指台湾《常用国字标准字体表》中的 4808 个繁体汉字。测试输入法繁体字确定性
  • 「常用繁简」是指大陆《通用规范汉字表》一二级的6500个汉字、台湾《常用国字标准字体表》中的 4888个汉字、以及《古籍印刷通用规范》中的125个大陆繁体字形。总共为8390个常用繁简汉字。测试输入法繁简混合文本下的确定性
  • GB2312 是大陆信息技术简化字集,共有简化汉字 6764 个。
  • GBK 是大陆的信息技术大字集,共有繁简汉字 21003 个。
  • 动态选重率指的是用字频数据对重码汉字进行加权。因为存在五码自动顶一选,只有在二选或三选时才需要选重。这个指标更能反映实际的输入体验。
  • 注意,动态重码率基于字频数据,不同的字频统计会产生不同结果。我采用的字频数据,简体来自北京师范大学邢红兵的《25亿字语料汉字字频表》,繁体来自”繁体字频表.txt”。

注意:此处只呈现客观的重码数据,不能用来代表此输入方案优秀与否。评判一个输入方案,应该综合攷量以下因素:

  • 在不同字集/使用环境下的重码率。
  • 规则复杂度。
  • 字根记忆难度。
  • 拆字直观性/唯一性/容错性。
  • 和汉字体系和汉字理论的相容性。
  • 编码或规则的特例数量。
  • 人体工学性。
  • 平台通用性。

表格按输入法的性质排列:

形码方案 GB2312 通规一二级 国字常用 常用繁简 GBK 简体选重率 繁体选重率 繁简混合文本选重率
四码定长               字根单编码
五笔86 537 452 357 1685 6582 34.2‱ 79.0‱ 226.4‱
五笔98 515 452 329 1623 6368 38.1‱ 78.0‱ 230.1‱
五笔06·新世纪 532 488 387 1690 6610 31.8‱ 81.8‱ 223.6‱
张码 110 84 113 1138 4646 154.9‱ 181.1‱ 265.6‱
蓝宝石 388 358 284 713 5082 21.6‱ 57.6‱ 58.9‱
四码定长 字根双编码               繁简同根
郑码 563 533 311 1779 6590 59.9‱ 63.3‱ 267.1‱
真码 422 366 238 1833 6670 13.8‱ 41.9‱ 269.1‱
四码定长 字根双编码               繁简通打
徐码13 324 288 125 462 2872 10.4‱ 23.0‱ 24.8‱
徐码23 318 278 127 453 2902 10.7‱ 21.8‱ 25.1‱
宇浩·正式版 313 271 214 583 5015 5.5‱ 15.6‱ 17.7‱
宇浩·發燒版 312 267 212 590 5144 5.2‱ 15.4‱ 17.0‱
五码定长               繁简通打
仓颉五代 422 367 164 585 2893 88.8‱ 48.9‱ 104.7‱
不定长                
山人全息 194 168 84 1455 3952 6.4‱ 7.5‱ 233.7‱
选重方案                
五笔092 1876 1569 798 2034 11418 315.3‱ 268.1‱ 317.6‱
三码定长               简体方案
三码郑码 2700 2551 - - - 51.8‱ - -
音形方案               简体方案
小鹤音形 730 725 - - - 85.3‱ - -

码表来源

码表数据基于:

125个大陆繁体字形

蟶衆螄斕綉覈飆淩轆癡刴戩糉㨃擡佈圇箇絝啓廡儕槪顴躋鉅鋭鎚牀廏衹朶讞噁瑋旣蓽嬡僞蹟癟艶淼㑚紈餚攢樑噠繮曬崗壎濕竈殞揹瓚鵰痠鈺巘裏曁皁奬諏孃贇閆跥歎産顔頽摻爲絶昇繳躱薦閲謔卽纔剮闕暘屌勳覷伲崟蹌饋駡曇躥翀熒鹵説唄龕裋衊㞞〇誒侷玅薈齶燼嬈鉢檯喫摳鶩縐滷襬麪