很少有人意识到繁简体问题在中国大陆已混乱到何种程度,负责地说,所有涉及古文的简体出版物(工具书情况好一点儿)几乎都不能免病,比例接近100%。您相信么?
㑟,志在必得的样子。庄子,举群趣者,㑟㑟然如将不得已。看上去很简单吧?呵呵,上天入地搜遍所有字库,就是找不到这个㑟字!怎么办?写成繁体吗?㖠。
那么造字呢?
国内9一些制作机构就是这么做的。造字谁都会,问题不在能否造字,而在于一旦决定造字,大麻烦才真正浮出水面:就造一个㑟字么?简体本《庄子译注》44万字,㑟字以外,您怎么判断还有哪些字是繁简混用因而也需要造字呢?
除了死磕怕没别的办法。单字是汉语的最低表义单元,单字的内部结构已经在最低单元之下,计算机鞭长莫及,缺乏有效的分析手段。
DDK不死磕。独有的汉字靶向技术,只消半个钟头就能完成庄子译注的繁简混用字筛取,最后还能按部首排出来。结果显示,庄子译注共有40个“不得已”混用的繁体字,涉及宋楷仿宋3种字体和言丝金门页车马鸟虫鱼等16个部首,共出现107次。
上面40个简化字均来自贺天字库,所谓基于轮廓的ttf字体,无限放大无锯齿的l。
靶向搜索时间与冷字数、总字数都成正相关。庄子译注冷字相对较少,只有300来个,《子虚赋》《三都赋》之类,铺张扬厉,冷字极度夸张,但总字数却并不多,有个10分钟也完成一次扫描了。简单情况下,比如《大学语文》,40万字,两分钟完事。