上午没有进行符号对比工作,而是研究将另外两个码表文件整理成符合对比标准的文档格式。这两个文件有点儿不一样,所以花了不少的时间。其中一个文件内容是这样的,是按音序排列的(最前面是符号部分),而且编码和对应的汉字对应得上:
0759啊 7093阿 1002埃 2179挨 0740哎 0780唉 0755哀 4114皑 4074癌 5676蔼 4253矮 5337艾 4293碍 1947爱 7137隘 7254鞍 8637氨 1344安 0219俺 2174按 2542暗 1489岸 5143胺 2714案 7542肮
这个用前面提到的php文件把空格替换成回车,导入表格,重新排序(单列)就基本可以了。另外一个文件内容就比较特殊了,内容如下:
如上面的图片所示。本来这里是想直接引用文档内容的,结果引用内容完全正确,真不知道是怎么回事,相当意外!
一 0001
丁 0002
七 0003
丈 0004
三 0005
上 0006
下 0007
不 0008
丐
看文件内容,汉字和制表符后面的数字编码才是相对应的,所以我想,必须得把数字编码和汉字区分开来,比如加个逗号或者制表符,然后再经过格式处理,导入excel表格,再另存为文档。这就必须得使用正则表达式进行匹配查询替换,而这个自己哪里会,于是上网查找并进行相应测试,结果不行啊。后来想到,要不到hellocq论坛发帖求助吧,但结果怎样又不可期待,所以又继续研究,只当是研究了。到最后没办法,解决不了,就尝试导入excel表格看看,没想到竟然和上面的引用内容一样,导入后基本没问题,就是数字编码前面的前导0都没有了。但这已经相当让我感到意外了!!!于是,研究前导0的问题,原来是
在第3步“列数据格式”中需要把编码列改为“文本”格式,而不是默认的“常规”。后来就是交换列,保存为文档,替换制表符,和上面的文档进行对比得到最后的差异报告文档,再稍加处理(把“--------------”替换为空格,再用软件把空行删除)就可以和我们已经校对好的码表文件进行再次对比了。这样,校对结束,就是4个文件的对比成果了,准确率上应该会更上一层。