第七百四十二章新方案_重生之乘风而起

设置背景

第七百四十二章新方案

    “按照任昉《述异记》陆居曰熊，水居曰能的说法，还可以让我们联想到另外一个传说。”

    “传说大禹治水，娶涂山氏，在工地竖起一面鼓，让涂山氏听到鼓响，就送饭前来。”

    “之后大禹就化作一头大熊开山，结果有一日工作太投入，飞扬的石头打到了鼓上，大禹却没有注意到。”

    “涂山氏听到鼓声送饭过来，发现夫君居然是一头大熊，受惊过度，化作了石像。”

    “大禹悲痛万分，对石像说你化作石像可以，把儿子给我留下啊。”

    “说完石像中腹突然打开，一个小孩从石像里掉了出来，这就是‘启’这个名字的由来。”

    这一连串的故事和知识，让对面计算机系的大佬们都听得津津有味，周至这才说道：“这传说是不是也说明，大禹也继承了鲧的能力，能够变化成熊或熊（尼）？”

    “而大禹是不是因为感受到父亲的凄惨命运，最终决定打破禅让制度，将天下传给了自己的儿子？”

    “是不是还能算作一个侧证，证明大禹治水的传说，是发生在陶石骨器并用的部落联盟时代？”

    “所以大家看，熊（尼），（骨系）这两个生僻字如果真的消失了，是不是就会造成上述华夏文明部分信息资料的缺失？是不是会在将来产生一些无法解答的疑案？会不会造成我们子孙的困惑？”

    “以前是因为条件所限，国人受教育程度不高，快速普及文字，扫除文盲是重中之重，所以简化字的推行势在必然。GB2312也发挥了巨大的作用。”

    “可如果现在条件明明已经允许了，如果我们已经有机会将所有的文字都采集下来，记录下来，可我们还是无动于衷，让这些文字就这样消失在历史的长河里，而不将之留给子孙，会不会是一种将来的遗憾？”

    “如果我们的子孙，因为我们的原因，今后不再知道熊（尼），（骨系）这两个字以及这两个字上说承载的历史文化信息的话，那我们该不该算是……民族的罪人？！”

    “信息技术最早出来之前，曾经有西方人认为，汉字必将因为计算机技术的诞生而消亡。”

    “经过我们的努力之后，有了GB2312汉字编码，向那些人证明了他们之前就是纯粹的胡说八道。”

    “而我认为，正是因为信息技术的发展，解决了汉字书写记忆困难的问题，汉字的推广应用，甚至完全可能产生革新性的变化。”

    “GB2312，证明了我们能行，GB13000，证明了我们能够做得更好，那么我们为什么不趁热打铁，干脆就一次性给它做到极致？”

    “做到极致是什么意思？”李红江再不敢轻视眼前这小孩了，他是真不知道汉字中承载的这些东西，或者说压根没有重视。

    这也是如今中国学界普遍的一种想象，疯狂追赶阶段，哪里还敢追求完美？现阶段够用，解决当前问题，就已经是绝大多数理工科学者的最高目标了。

    “做到极致的意思，就是新的字库编码，要做到历史全兼容，当前全收集，未来可拓展。”周至倒是一点不怵：“历史全兼容的意思，就是新的字库，可以完全兼容GB2312和GB13000编码。已经用这两种编码录入的文字信息，用新的编码同样能够完整地读出来。”

    “当前全收集，则指当前我们已知的汉字符号，包括大陆简化字，宝岛、港澳、新岛的繁体字，还有岛国，朝韩所用的一些汉字符号，全部采纳到新编码体系中来。”

    “未来可拓展的意思，就是要给字库留够充足的冗余编码空间，给将来采集更多的文字符号做好准备。”周至侃侃而谈：“刚刚旦增大师已经说了，我国是多民族的国家，很多民族都有自己的文字，这些文字，同样是我们华夏一族大家庭的瑰宝。”

    “因此我们要留足这个字库的拓展空间，以备将来时机成熟后，将这些少数民族的文字也收纳进来。”

    “这就是我的设想，关于华夏标准大字库的设想。”

    “呃……周至同学。”李红江倒也是光棍：“我给你道个歉，也给辜老和旦增大师道个歉，之前自己的确没有意识到这个问题的重要性。”

    “但是我之前已经说了，GB13000是根据ISO/IEC1064来设计的，通用多八位编码字符集的码位就只有两万多个，就好像一个养殖场，鸡笼子就这么多，实在是装不下你们说的这么多鸡啊？”

    “所以说这个多八位编码字符集是有问题的呀，不适合中国的需要呀，那我们为什么还要凑合着用呢？”周至反问道。

    “要是不用这个，那又用哪个呢？”李红江倒是不觉得周至是在无理取闹，能够提出问题来不是本事儿，关键是问题提出来之后，你还得能够解决问题才算。

    “为什么不用UNICODE呢？”

    “UNICODE？”李红江想了一下：“UNICODE八字还没一撇吧？国际标准都还没有出来，我们哪来的参照？”

    Unicode的汉语翻译，叫做统一码，也叫万国码、单一码，是由统一码联盟开发的一项计算机科学领域里的业界标准，主要就包括字符集和编码方案。

    统一码是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符，设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

    统一码设计之初的目的，就是为了打造一个能够容纳世界上所有文字和符号的字符编码方案。

    其设计思路，就是用数字0-0x10FFFF来映射所有字符，最多可以容纳1114112个字符，或者说有1114112个码位。

    后世大家所熟悉的UTF-8、UTF-16、UTF-32，其实都是将数字转换到程序数据的编码方案。

    当然这些码位也不是随便乱用的，而是规定了区间，比如上一世给汉字使用的区间，就是3400-4DBF，4E00-9FFF，20000-3FFFF三段，称作：中日韩越统一表意文字区间。

    这就有一百多万个码位，装下所有汉字绰绰有余。

    因为不存在上限，UTF理论上还可以继续扩展。

    当然从上一世的经验来看，也完全没有这个必要，足够用了。

第七百四十二章 新方案

第七百四十二章新方案