Skip to main content Link Menu Expand (external link) Document Search Copy Copied

常见输入法重码数据

梦泽闲客 更新于二零二三年六月一日

目录
  1. 常见输入法重码数据
    1. 单字重码数据
      1. 单字重码定义
      2. 单字重码计算公式
      3. 单字全码数据
      4. 二级简码出简不出全数据
    2. 词语重码数据
      1. 词语重码定义
      2. 词语重码计算公式
      3. 词语重码结果
    3. 候选项个数·检字效率
    4. 古今名著选重频率统计
      1. 单字全码数据
      2. 二级简码出简不出全数据
    5. 手感·人体工学
      1. 速度当量
      2. 古今名著双手互击频率
    6. 码表来源

这里将世面上可见的各类形码输入法的重码数据(全码)进行对比,统计其在不同汉字字符集下的重码数量。

本文只是呈现客观的重码数据,不能用来作为此输入方案是否优秀的唯一评价标准。评判一个输入方案,应该综合考量以下因素:

  • 在不同字集/使用环境下的重码率。
  • 规则复杂度。
  • 字根记忆难度。
  • 拆字直观性/唯一性/容错性。
  • 和汉字体系和汉字理论的相容性。
  • 编码或规则的特例数量。
  • 人体工学性。
  • 平台通用性。

单字重码数据

单字重码定义

表格中的各项名称定义如下:

  • 「通规一二级」是指大陆《通用规范汉字表》中的 6500 个简化汉字。测试输入法简化字确定性
  • 「国字」是指台湾《常用国字标准字体表》中的 4808 个繁体汉字。测试输入法繁体字确定性
  • 「常用繁简」是指大陆《通用规范汉字表》一二级的6500个汉字、台湾《常用国字标准字体表》中的 4888个汉字、以及《古籍印刷通用规范》中的125个大陆繁体字形1。总共为8390个常用繁简汉字。测试输入法繁简混合文本下的确定性
  • GB2312 是大陆信息技术简化字集,共有简化汉字 6764 个。
  • GBK 是大陆的信息技术大字集,共有繁简汉字 21003 个。
  • 静态重码数指的是一个字集范围内,编码相同的汉字的绝对数量,反映出了输入法在检字方面的确定性。
  • 动态选重率指的是用字频数据对重码汉字进行加权。因为存在五码自动顶一选,只有在二选或三选时才需要选重。这个指标更能反映实际的输入体验。
  • 注意,动态重码率基于字频数据,不同的字频统计会产生不同结果。我采用的字频数据,简体来自北京师范大学邢红兵的《25亿字语料汉字字频表》,繁体来自繁体字频表

单字重码计算公式

假设 \(Z\) 为一个汉字的集合, \(M\) 为一个编码的集合, \(p:Z\rightarrow [0,1]\) 为汉字到某文本状态下单字频率的映射.

用编码和字频对汉字排序, 使汉字 \(z_{ij}\) 是编码为 \(m_i\) 的第 \(j\) 个汉字, \(i \in I\), \(j \in J_i\), 且满足 \(a\geq b\) 时, \(f(z_{ia})\geq f(z_{ib})\).

那么,静态重码数可以表达为:

\[N_{s} = \mid \{z_{ia}, z_{ib} \text{ if } M(z_{ia}) = M(z_{ib}) \text{ for all } a,b \in J_i \text{ and } i \in I \}.\]

动态重码率可以表达为:

\[N_{d} = \sum\limits_{i \in I, j \in J_i/\{1\}} p(z_{ij}).\]

单字全码数据

以下为单字全码的结果。表格按输入法的性质排列。

形码方案 简体选重率 繁体选重率 繁简混合文本选重率 GB2312 国字常用 GBK CJK-B CJK-D CJK-F CJK-H CJK-I
四码                      
五笔86 34.2‱ 77.7‱ 238.3‱ 521 333 6453 - - - - -
五笔98 31.8‱ 79.5‱ 240.0‱ 515 330 - - - - - -
五笔06 31.8‱ 83.8‱ 236.3‱ 532 387 - - - - - -
蓝宝石2 - 57.3‱ 58.4‱ 388 284 - - - - - -
蓝宝石3 9.7‱ - - 392 - - - - - - -
郑码 59.0‱ 83.6‱ 262.8‱ 559 316 6631 - - - - -
真码 - 60.1‱ 273.7‱ 422 238 - - - - - -
徐码 10.7‱ 22.8‱ 24.9‱ 318 127 2902 25605 27956 35746 - -
嘸蝦米 - 72.5‱ 814.6‱ - 98 - - - - - -
宇浩光华 4.3‱ 15.1‱ 15.7‱ 320 198 5168 33249 35910 44530 50686 51139
宇浩星陈 8.0‱ 10.9‱ 15.1‱ 415 149 4932 33192 36024 45002 51688 52179
卿雲 7.9‱ 7.9‱ 13.2‱ 539 186 6104 36906 39950 49400 56330 56844
云码 4.8‱ 6.5‱ 10.5‱ 287 97 3877 29902 32503 40870 46990 -
天码 9.2‱ 26.4‱ 57.4‱ 471 299 - 33457 36251 45116 51685 52157
五码                      
仓颉五代 25.9‱ 57.0‱ 51.0‱ 422 164 - - - - - -
蒼颉六代 25.3‱ 39.6‱ 40.0‱ 384 113 - 17949 19590 25415 29603 -
三码                      
三码郑码 51.4‱ 281.2‱ 386.5‱ 2677 1568 - - - - - -
三码吉旦饼 37.8‱ 62.6‱ 85.7‱ 2244 987 15949 68356 72903 86503 95844 96472
不定长                      
山人全息 6.4‱ 39.0‱ 246.1‱ 192 84 3948 - - - - -
音形                      
小鹤音形 85.5‱ - - - - - - - - - -
- 6.3‱ 72.2‱ 296.1‱ 541 244 7694 36870 40035 49419 56588 -

二级简码出简不出全数据

以下为二级简码出简不出全的结果,换句话说,如果一个字存在一级和二级简码,则默认只打简码,并将其全码后置。部分方案设置了两重二级简码字,数据无法准确计算,故而略去。注意,真码只设置一级简码,不设置二级简码。表格按输入法的性质排列:

形码方案 简体选重率 繁体选重率 繁简混合文本选重率 GB2312 国字常用 GBK CJK-B CJK-D CJK-F CJK-H CJK-I
四码                      
五笔86 21.8‱ 69.0‱ 168.5‱ 451 293 6111 - - - - -
蓝宝石 - 36.9‱ 30.7‱ 301 245 - - - - - -
郑码 24.5‱ 47.7‱ 152.2‱ 460 283 6405 - - - - -
真码 - 59.6‱ 262.0‱ 412 234 - - - - - -
徐码 9.1‱ 19.0‱ 19.1‱ 353 119 2871 25378 27721 35456 - -
宇浩光华 3.4‱ 14.0‱ 13.9‱ 297 174 5026 32933 35584 44171 50310 50761
宇浩星陳 6.2‱ 9.5‱ 12.8‱ 362 129 4736 32809 35622 44546 51209 51701
卿雲 4.4‱ 6.4‱ 10.5‱ 453 173 5877 36514 39565 48993 55898 56415
雲碼 3.5‱ 5.5‱ 7.8‱ 259 85 3735 29522 32105 40433 46539 -
三码                      
三码郑码 51.4‱ 281.1‱ 379.4‱ 2700 1578 - - - - - -
三码吉旦饼 37.8‱ 62.6‱ 85.7‱ 2244 987 15949 68356 72903 86503 95844 96472
不定长                      
山人全息 5.0‱ 38.1‱ 141.1‱ 499 266 4430 - - - - -

词语重码数据

词语重码定义

表格中的各项名称定义如下:

  • 词语完美动态选重率指的是用词频数据对重码词语(包括单字词和多字词)进行加权后得到的选重的频率。
  • 单字动态选重率指的是使用极端保守的分词法,即所有多字词全部视作单字词输入时选重的频率。
  • 实际动态选重率指的是在实际输入过程中,因为用户分词和字频表分词的差异造成的偏差所造成的选重率。介于「单字动态选重率」(极端保守分词)和「词语完美动态选重率」(完美分词)之间。因为用户输入了词库中不存在的词而导致的回删,不算入此内。
  • 因为存在五码自动顶一选,只有在二选或三选时才需要选重。
  • 动态重码率对词频数据的依赖度极高,不同的词频统计会产生不同结果。本文采用的词频数据,来自《现代汉语语料库分词类词频表》。

这里给出对于「词语完美动态选重率」的一个直观解释。假设存在这样一个句子:

「请用大约十句话来描述你所居住城市的历史的来龙去脉。」

如果词库为中等大小,换言之,分词比较适中,我们对这句话进行如下分割:

「请·用·大约·十句·话·来·描述·你·所·居住·城市·历史·的·来龙去脉。」

我们得到了 14 个词语,也就是说,用户要输入 14 次全码。假设「请」和「描述」发生了重码,那么我们输入这 14 个词,就要选重一次。这句话的词语动态选重率就是 1 / 13 = 7.1%。

如果词库为超大词库,换言之,分词比较激进,我们对这句话进行如下分割:

「请用·大约·十句话·来·描述·你所·居住·城市·历史的·来龙去脉。」

我们得到了 10 个词语,也就是说,用户要输入 10 次全码。假设「请用」和「描述」发生了重码,那么我们输入这 10 个词,就要选重一次。这句话的词语动态选重率就是 1 / 10 = 10.0%。

如果词库为精简词库,换言之,分词比较保守,我们对这句话进行如下分割:

「请·用·大约·十·句·话·来·描述·你·所·居住·城市·历史·的·来·龙·去·脉。」

我们得到了 18 个词语,也就是说,用户要输入 18 次全码。假设「请」和「描述」发生了重码,那么我们输入这 18 个词,就要选重一次。这句话的词语动态选重率就是 1 / 18 = 5.56%。

一个基本的经验(rule of thumb)是:分词越激进、词库越大,那么「词语完美动态选重率」就越高,同时平均码长也越短。

从上例可以看出,词语的重码数据,极度依赖于用户的「人工分词」和统计数据中的词语的一致性。只有在以下条件全部满足时,数据才会比较准确:

  • 用户只打词频表中出现的词。如:词频表中若无「我们」,那么用户只打「我·们」。
  • 用户必定打长度较长的词。如:出现「电视机」时,必定打「电视机」,而不是「电视·机」或「电·视·机」。这一条也意味着,一个多字词若在字频表中,那么用户绝对不会打成单字。

因为这两个条件过于完美,实际使用时对用户的分词压力高,所以一般不会实现。很多时候,用户会将某些词频表中的多字词分为单字词输入,这意味着:

实际输入时的动态选重率,应介于「单字动态选重率」和「词语完美动态选重率」之间。依照用户习惯:

  • 如果一个人偏好打单字,那么动态选重率更偏向「单字动态选重率」(更低)。
  • 如果一个人偏好打词语,那么动态选重率更偏向「词语动态选重率」(更高)。

因此,精简词库配合单字输入,是平衡码长(效率)和选重(确定性)的一个解决方案,适合新手。而背诵字词简码和选重位置也是提高确定性的一种方式,适合老手。

词语重码计算公式

假设\(W\)为一个词语的集合,词长大于等于1。 \(M\) 为一个编码的集合。一段文本\(T\)可以被贪婪地分割为\(W\)的组合。统计每一个词语的概率,定义\(p:W\rightarrow [0,1]\) 为词语到其出现频率的映射.

用编码和频率对词语排序, 使词语 \(w_{ij}\) 是编码为 \(m_i\) 的第 \(j\) 个项目, \(i \in I\), \(j \in J_i\), 且满足 \(a\geq b\) 时, \(f(w_{ia})\geq f(w_{ib})\).

那么,词语完美动态选重率可以表达为:

\[N_{d} = \sum\limits_{i \in I, j \in J_i/\{1\}} p(w_{ij}).\]

在部分指标计算软件中,词语选重率只包括了多字词,不能成词的单字词被移除,例如,「我今天去那里」被分割成「今天 那里」,一共有 2 个词语。倘若「我」和「那里」生了重码,则选重率为 0 / 2 = 0%。这不能完全反应实际打字时的选重频率。

词语重码结果

下表内容仅适用于现代汉语典范白话文的文本空间。
实际动态选重率,应介于「单字动态选重率」(极端保守分词)和「词语完美动态选重率」(完美分词)之间。

单字全码数据。也就是说,单字全码在词语全码之前。

方案 简体词语完美动态选重率 繁体词语完美动态选重率 繁简混合词语完美动态选重率
蓝宝石3 45.9‱ - -
蓝宝石2 48.4‱ 89.3‱ 199.0‱
云码 103.1‱ 106.7‱ 245.3‱
卿雲 107.3‱ 111.5‱ 295.8‱
宇浩光華 116.0‱ 129.3‱ 311.7‱
徐码23 116.3‱ 131.2‱ 316.7‱
天码 115.3‱ 116.0‱ 356.1‱
宇浩星陳 127.2‱ 144.4‱ 302.6‱
五筆86 204.1‱ 235.6‱ 750.2‱
五筆98 204.2‱ 242.7‱ 733.5‱
五筆06 217.8‱ 238.3‱ 749.6‱

单字一简、二简出简不出全数据。也就是说,有一简、二简的单字,全码在词语全码之后。

方案 简体词语完美动态选重率 繁体词语完美动态选重率 繁简混合词语完美动态选重率
蓝宝石3 45.9‱ - -
蓝宝石2 48.4‱ 89.3‱ 199.0‱
云码 103.1‱ 106.7‱ 245.3‱
卿雲 107.3‱ 111.5‱ 295.8‱
宇浩光華 116.0‱ 129.3‱ 311.7‱
徐码23 116.3‱ 131.2‱ 316.7‱
天码 115.3‱ 116.0‱ 356.1‱
宇浩星陳 127.2‱ 144.4‱ 302.6‱
五筆86 204.1‱ 235.6‱ 750.2‱
五筆98 204.2‱ 242.7‱ 733.5‱
五筆06 217.8‱ 238.3‱ 749.6‱

候选项个数·检字效率

本节给出各个字集中、重码最多的码位上候选项的个数。本指标可以有效反映输入方案在大字集上的检字效率。

该数字不大于 9,则可以不用翻页;该数字不大于 18,则只需要翻页一次。

形码方案 GB2312 国字常用 GBK CJK-B CJK-D CJK-F CJK-H CJK-I
五笔86 21 4 21 44 - - - -
五笔98 4 4 13 - - - - -
五笔06 4 4 13 - - - - -
蓝宝石2 3 4 10 - - - - -
蓝宝石3 4 - - - - - - -
郑码 3 4 7 18 19 - - -
真码 4 4 13 - - - - -
徐码 3 3 7 17 17 17 - -
嘸蝦米 3 2 - - - - - -
宇浩光华 3 3 7 14 14 15 16 16
宇浩星陈 4 3 6 15 15 17 18 18
卿雲 3 3 6 16 17 17 18 18
云码 3 3 5 13 13 14 14 14
天码 3 4 6 13 13 14 15 15
仓颉五代 3 2 6 32 34 - - -
蒼颉六代 3 3 5 11 11 11 12 -
小鹤音形 4 - - - - - - -
山人全息 2 2 5 9 9 - - -
- 4 5 14 38 38 40 40 -

古今名著选重频率统计

这里给出部分名著的选重频率统计。四本简体、三本繁体、三本繁简混排。

文本越趋近于现代汉语典范白话文,其重码数据越符合前面几章所展示的「动态选重率」。文本越趋近于古汉语诗词歌赋,其重码数据越符合前面几章所展示的「静态重码数」。

单字全码数据

以下为单字全码的结果。

方案 毛泽东选集(简) 天龙八部(简) 三体三部曲(简) 战争与和平(简)
五笔86 25.8‱ 30.6‱ 25.7‱ 20.9‱
五笔98 31.3‱ 28.4‱ 26.5‱ 33.2‱
五笔06 22.2‱ 25.5‱ 24.3‱ 37.1‱
蓝宝石2 18.4‱ 20.5‱ 24.9‱ 18.1‱
蓝宝石3 8.1‱ 10.2‱ 3.7‱ 4.7‱
郑码 44.2‱ 51.6‱ 49.2‱ 48.1‱
真码 5.3‱ 14.0‱ 5.6‱ 6.9‱
徐码 3.3‱ 9.8‱ 7.0‱ 7.8‱
宇浩光华 1.2‱ 2.9‱ 2.7‱ 2.4‱
宇浩星陈 3.5‱ 6.4‱ 2.3‱ 6.2‱
卿雲 2.7‱ 7.5‱ 4.7‱ 5.6‱
云码 1.1‱ 3.1‱ 4.1‱ 6.6‱
天码 3.5‱ 7.2‱ 4.5‱ 6.0‱
倉頡五代 74.0‱ 71.1‱ 80.2‱ 60.0‱
蒼颉六代 62.5‱ 65.0‱ 61.0‱ 43.1‱
三码郑码 9.7‱ 47.3‱ 26.4‱ 29.5‱
三码吉旦饼 13.8‱ 41.6‱ 16.2‱ 23.6‱
山人全息 2.4‱ 6.8‱ 5.6‱ 6.1‱
方案 史記(繁) 紅樓夢(繁) 笑傲江湖(繁)
五笔86 88.4‱ 28.9‱ 46.7‱
五笔98 69.3‱ 32.5‱ 48.8‱
五笔06 79.7‱ 35.3‱ 49.2‱
蓝宝石2 43.8‱ 25.3‱ 29.9‱
蓝宝石3 9.8‱ 4.8‱ 7.2‱
郑码 89.9‱ 39.2‱ 32.2‱
真码 45.3‱ 16.6‱ 16.4‱
徐码 22.1‱ 10.9‱ 9.1‱
宇浩光华 25.9‱ 9.2‱ 6.5‱
宇浩星陈 31.5‱ 9.1‱ 7.3‱
卿雲 25.3‱ 7.3‱ 5.9‱
云码 15.5‱ 3.9‱ 2.8‱
天码 39.6‱ 18.8‱ 12.6‱
倉頡五代 74.6‱ 33.0‱ 30.9‱
蒼颉六代 69.3‱ 16.4‱ 14.2‱
三码郑码 296.1‱ 143.8‱ 132.3‱
三码吉旦饼 115.5‱ 54.4‱ 34.3‱
山人全息 20.8‱ 6.3‱ 3.2‱
方案 論語集解(繁簡混) 三國演義(繁簡混) 海上花列傳(繁簡混)
五笔86 260.8‱ 360.8‱ 244.6‱
五笔98 265.7‱ 374.8‱ 242.5‱
五笔06 252.5‱ 345.7‱ 232.7‱
蓝宝石2 20.5‱ 52.7‱ 35.6‱
蓝宝石3 3.9‱ 12.6‱ 13.2‱
郑码 266.7‱ 385.9‱ 311.2‱
真码 298.4‱ 411.4‱ 333.9‱
徐码 10.3‱ 39.2‱ 22.7‱
宇浩光华 4.4‱ 24.5‱ 9.6‱
宇浩星陈 3.9‱ 30.9‱ 17.7‱
卿雲 4.9‱ 22.3‱ 10.7‱
云码 7.8‱ 21.8‱ 13.1‱
天码 45.9‱ 71.9‱ 47.3‱
倉頡五代 67.4‱ 144.6‱ 88.3‱
蒼颉六代 38.6‱ 129.6‱ 83.4‱
三码郑码 330.2‱ 562.3‱ 395.4‱
三码吉旦饼 70.3‱ 119.4‱ 96.4‱
山人全息 281.3‱ 352.3‱ 314.7‱

二级简码出简不出全数据

以下为二级简码出简不出全的结果,换句话说,如果一个字存在一级和二级简码,则默认只打简码,并将其全码后置。部分方案设置了两重二级简码字,数据无法准确计算,故而略去。注意,真码只设置一级简码,不设置二级简码。

方案 毛泽东选集(简) 天龙八部(简) 三体三部曲(简) 战争与和平(简)
五笔86 5.7‱ 15.6‱ 12.1‱ 9.0‱
蓝宝石2 3.8‱ 5.6‱ 1.7‱ 2.2‱
蓝宝石3 0.8‱ 1.5‱ 1.1‱ 1.2‱
真码 1.1‱ 3.0‱ 2.1‱ 2.1‱
徐码 3.2‱ 7.9‱ 5.8‱ 7.3‱
宇浩光華 1.0‱ 2.4‱ 2.3‱ 1.9‱
宇浩星陳 3.3‱ 5.2‱ 1.7‱ 4.6‱
云码 0.9‱ 2.2‱ 1.7‱ 6.1‱
三码郑码 9.5‱ 46.8‱ 26.2‱ 29.4‱
三码吉旦饼 15.4‱ 44.7‱ 26.1‱ 35.6‱
山人全息 129.9‱ 173.6‱ 152.3‱ 152.5‱
方案 史記(繁) 紅樓夢(繁) 笑傲江湖(繁)
五笔86 75.0‱ 24.1‱ 35.0‱
蓝宝石2 35.3‱ 20.4‱ 19.5‱
蓝宝石3 5.2‱ 1.1‱ 0.6‱
真码 44.9‱ 14.2‱ 14.6‱
徐码 23.6‱ 10.2‱ 8.0‱
宇浩光華 22.9‱ 8.3‱ 5.6‱
宇浩星陳 28.6‱ 8.3‱ 6.6‱
云码 14.0‱ 3.3‱ 2.4‱
三码郑码 294.8‱ 142.6‱ 131.0‱
三码吉旦饼 114.0‱ 63.3‱ 57.3‱
山人全息 117.7‱ 99.9‱ 109.6‱
方案 論語集解(繁簡混) 三國演義(繁簡混) 海上花列傳(繁簡混)
五笔86 192.0‱ 242.8‱ 187.5‱
蓝宝石2 9.8‱ 43.9‱ 17.0‱
蓝宝石3 0.0‱ 4.0‱ 2.9‱
真码 290.1‱ 405.0‱ 331.9‱
徐码 12.7‱ 35.5‱ 27.7‱
宇浩光華 3.9‱ 21.5‱ 8.4‱
宇浩星陳 2.9‱ 28.3‱ 16.2‱
云码 7.8‱ 18.8‱ 10.4‱
三码郑码 337.5‱ 555.2‱ 398.3‱
三码吉旦饼 41.5‱ 154.7‱ 104.1‱
山人全息 415.6‱ 686.1‱ 597.8‱

上表反映的是确定性,而平均码长则反映输入效率。现统计如下。注意,真码只设置一级简码,不设置二级简码。

方案 简体均值 毛泽东选集(简) 天龙八部(简) 三体(简) 战争与和平(简) 史記(繁) 紅樓夢(繁) 笑傲江湖(繁) 論語集解(繁簡混)
三码郑码 2.68 2.67 2.74 2.66 2.66 2.92 2.78 2.8 2.87
三码吉旦饼 2.99 2.99 2.99 2.99 2.99 3.01 2.99 2.99 2.99
蓝宝石2 3.05 3.04 3.1 3.03 3.05 3.48 3.29 3.29 3.36
云码 3.06 3.02 3.11 3.04 3.08 3.46 3.29 3.29 3.3
蓝宝石三 3.07 3.03 3.12 3.05 3.07 2.51 2.2 2.26 2.92
宇浩光華 3.1 3.13 3.13 3.07 3.09 3.52 3.29 3.3 3.4
宇浩星陳 3.12 3.12 3.14 3.1 3.12 3.51 3.29 3.3 3.35
五笔06 3.14 3.06 3.19 3.13 3.18 3.47 3.33 3.34 3.37
五笔98 3.16 3.06 3.22 3.16 3.2 3.46 3.36 3.36 3.34
徐码 3.18 3.15 3.21 3.18 3.17 3.49 3.32 3.33 3.33
五笔86 3.22 3.12 3.31 3.21 3.24 3.59 3.44 3.45 3.49
郑码 3.23 3.18 3.31 3.19 3.23 3.54 3.4 3.41 3.49
真码 3.5 3.47 3.54 3.47 3.53 3.67 3.57 3.56 3.63

手感·人体工学

速度当量

方案 簡體速度當量 繁體速度當量 繁簡速度當量
卿雲·26键 1.2664 1.2588 1.2626
吉旦餅·26键 1.2796 1.2973 1.2885
雲碼·26键 1.3008 1.3058 1.3033
宇浩星陳·26键 1.3017 1.3058 1.3038
蓝宝石·25键 1.3079 1.3302 1.3191
宇浩光華·25键 1.3224 1.3347 1.3286
山人全息·26键 1.3249 1.3349 1.3299
倉頡五代·25键 1.3343 1.3368 1.3356
真码·25键 1.339 1.3607 1.3499
郑码·26键 1.3451 1.3473 1.3462
五筆86·25键 1.354 1.3592 1.3566
五筆98·25键 1.3587 1.3643 1.3615
五筆06·25键 1.3636 1.3655 1.3646
徐码23·26键 1.3865 1.3679 1.3772
天碼·26键 1.3961 1.3878 1.3919

古今名著双手互击频率

因为宇浩输入法是将字根按照键盘分区进行排布的,相对于全乱序字根排布的方案,双手互击方面有天生的劣势。如果不进行优化,那么会影响手感。这也是为什么宇浩输入法的算法中,将双手互击率专门设置为一个约束条件。

对于双手互击率,作者进行了以下的定义:给定一段连续文本,将其中的汉字以及逗号和句号转换为输入方案的编码,分别计算其单手连按的频数和双手互击的频数,则:「双手互击的频数 / (双手互击的频数 + 单手连按的频数)」即为双手互击率。

连续文本的双手互击率,可以用以下案例展示。「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。在连续文本情况下,单字全码派和词语派的双手互击率比较相近。

对于连续文本的双手互击率的优化,需要用到隐马尔科夫链或者大样本统计。算法中,需要计算每个汉字后下一个汉字的频率,从而得到连续文本的双手互击率。

在部分指标计算软件中,双手互击只包括了单字,例如,「我今天去那里」被分割成 qagg tobu fgdi hvvt vacj ksij,出现了9次同手击键,9次双手互击,故而互击率为 50%。这种算法无法完全反应实际打字时的双手互击情况。

下表列出了常见输入方案对于古今名著时的双手互击率。表格按行均值降序排列,越靠前的方案,双手互击频率越高。

方案 均值 毛泽东选集(简) 天龙八部(简) 三体三部曲(简) 战争与和平(简) 史記(繁) 紅樓夢(繁) 笑傲江湖(繁) 論語集解(繁簡) 三國演義(繁簡) 海上花列傳(繁簡)
卿雲·26键 46.46% 47.48% 48.13% 47.30% 47.97% 44.40% 45.31% 46.87% 47.01% 44.43% 45.72%
三码C42·30键 44.83% 44.66% 46.28% 45.50% 45.22% 42.69% 45.44% 46.00% 47.29% 43.09% 42.12%
三码吉旦餅·26键 43.64% 43.70% 44.37% 44.77% 44.89% 42.44% 43.13% 44.66% 44.68% 42.25% 41.48%
三码猫码·26键 43.05% 44.93% 43.73% 44.31% 44.86% 42.86% 42.11% 41.54% 45.50% 40.50% 40.15%
蓝宝石2·25键 42.85% 44.54% 44.17% 44.30% 43.97% 40.77% 42.02% 43.08% 44.94% 40.51% 40.17%
三码非凡码·26键 42.35% 43.86% 43.31% 44.02% 43.18% 39.34% 43.12% 44.24% 39.90% 40.04% 42.52%
雲碼·26键 41.97% 43.52% 42.45% 42.84% 43.29% 42.45% 41.27% 42.01% 39.71% 41.26% 40.91%
蒼颉六代·25键 40.65% 40.49% 40.09% 40.52% 41.12% 39.66% 40.86% 41.64% 39.85% 40.52% 41.71%
宇浩星陳·26键 40.26% 40.59% 40.49% 40.89% 41.62% 38.22% 40.25% 40.49% 40.40% 38.69% 40.93%
倉頡五代·25键 40.10% 40.22% 40.24% 39.96% 41.12% 39.13% 39.82% 41.12% 39.41% 39.24% 40.71%
三码郑码·26键 38.89% 38.80% 39.31% 39.96% 40.66% 38.17% 37.97% 38.03% 40.85% 37.91% 37.24%
蓝宝石3·25键 38.75% 38.00% 39.91% 38.12% 38.14% 37.54% 39.57% 41.33% 37.71% 38.76% 38.41%
真码·25键 38.61% 40.38% 39.67% 40.56% 39.15% 37.69% 38.62% 38.32% 36.51% 37.76% 37.43%
郑码·26键 38.54% 36.70% 38.86% 38.56% 39.12% 38.90% 37.98% 37.92% 39.50% 38.53% 39.29%
宇浩光華·25键 38.46% 39.41% 38.67% 39.11% 38.14% 37.11% 38.90% 38.07% 39.65% 38.20% 37.34%
徐码·26键 37.97% 37.92% 37.61% 37.35% 37.17% 38.56% 37.99% 37.00% 39.06% 38.51% 38.57%
山人全息·26键 36.16% 36.39% 36.53% 36.24% 36.68% 36.09% 35.58% 35.79% 37.18% 35.46% 35.68%
天碼·26键 35.59% 35.28% 35.75% 34.80% 35.93% 34.72% 35.87% 36.41% 36.25% 35.48% 35.43%
五筆98·25键 35.41% 36.96% 35.90% 37.58% 37.05% 34.31% 34.98% 34.35% 33.56% 35.48% 33.99%
五筆06·25键 35.32% 36.96% 35.54% 37.24% 37.11% 34.24% 35.04% 34.25% 33.70% 35.08% 34.01%
五筆86·25键 34.30% 36.46% 35.01% 36.62% 35.88% 33.24% 34.60% 33.44% 30.95% 33.63% 33.12%

码表来源

码表数据基于:

  1. 蟶衆螄斕綉覈飆淩轆癡刴戩糉㨃擡佈圇箇絝啓廡儕槪顴躋鉅鋭鎚牀廏衹朶讞噁瑋旣蓽嬡僞蹟癟艶淼㑚紈餚攢樑噠繮曬崗壎濕竈殞揹瓚鵰痠鈺巘裏曁皁奬諏孃贇閆跥歎産顔頽摻爲絶昇繳躱薦閲謔卽纔剮闕暘屌勳覷伲崟蹌饋駡曇躥翀熒鹵説唄龕裋衊㞞〇誒侷玅薈齶燼嬈鉢檯喫摳鶩縐滷襬麪