• 10365阅读
  • 233回复

2019年8月19日:初步调试成功标准电码编码方案! [复制链接] [手机版]

上一主题 下一主题
离线zhangjingyu

只看该作者 59楼 发表于: 2019-08-28 00:28:06 星期三  点亮(0)
第7页,编码有差异的更多些(由于不确定,所以楼上的记录也没有那么多),可能都是最后补充的吧,由于时间和版本的原因,编码有变化。到今天晚上为止,汉字部分基本校对一遍了,明天晚上开始校对最后面的符号、数字和标点。晚安!
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 60楼 发表于: 2019-08-28 23:57:04 星期三  点亮(0)
刚到家一会儿,要不要继续呢?明天歇班,还是明天早上校对最后面的符号部分吧,睡觉去。晚安!
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 61楼 发表于: 2019-08-29 10:11:50 星期四  点亮(0)
上午没有进行符号对比工作,而是研究将另外两个码表文件整理成符合对比标准的文档格式。这两个文件有点儿不一样,所以花了不少的时间。其中一个文件内容是这样的,是按音序排列的(最前面是符号部分),而且编码和对应的汉字对应得上:
0759啊 7093阿 1002埃 2179挨 0740哎 0780唉 0755哀 4114皑 4074癌 5676蔼 4253矮 5337艾 4293碍 1947爱 7137隘 7254鞍 8637氨 1344安 0219俺 2174按 2542暗 1489岸 5143胺 2714案 7542肮
这个用前面提到的php文件把空格替换成回车,导入表格,重新排序(单列)就基本可以了。另外一个文件内容就比较特殊了,内容如下:

如上面的图片所示。本来这里是想直接引用文档内容的,结果引用内容完全正确,真不知道是怎么回事,相当意外!
一    0001
丁    0002
七    0003
丈    0004
三    0005
上    0006
下    0007
不    0008
看文件内容,汉字和制表符后面的数字编码才是相对应的,所以我想,必须得把数字编码和汉字区分开来,比如加个逗号或者制表符,然后再经过格式处理,导入excel表格,再另存为文档。这就必须得使用正则表达式进行匹配查询替换,而这个自己哪里会,于是上网查找并进行相应测试,结果不行啊。后来想到,要不到hellocq论坛发帖求助吧,但结果怎样又不可期待,所以又继续研究,只当是研究了。到最后没办法,解决不了,就尝试导入excel表格看看,没想到竟然和上面的引用内容一样,导入后基本没问题,就是数字编码前面的前导0都没有了。但这已经相当让我感到意外了!!!于是,研究前导0的问题,原来是在第3步“列数据格式”中需要把编码列改为“文本”格式,而不是默认的“常规”。后来就是交换列,保存为文档,替换制表符,和上面的文档进行对比得到最后的差异报告文档,再稍加处理(把“--------------”替换为空格,再用软件把空行删除)就可以和我们已经校对好的码表文件进行再次对比了。这样,校对结束,就是4个文件的对比成果了,准确率上应该会更上一层。
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 62楼 发表于: 2019-08-29 11:10:01 星期四  点亮(0)
楼上的帖子竟然编辑了快一个小时(为了记录过程,需要再次演示)!佩服佩服! 好吧,马上开始第二次校对工作,实际上可以算第三次了,不是吗?
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 63楼 发表于: 2019-08-29 11:14:54 星期四  点亮(0)
本来是想一行一行的对比查看的(肯定需要花费很多时间),转念一想,用上面的“差异”法,不是更有效率吗?马上试试!
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 64楼 发表于: 2019-08-29 11:38:58 星期四  点亮(0)
坏了,行数不一样,空欢喜!
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 65楼 发表于: 2019-08-29 11:59:04 星期四  点亮(0)
61楼的两个文件合并成一个文件(编码对应汉字可能不准确,这不重要,可以后期校对),校对过的码表文件再稍加处理(删除空格,以保证格式一致),对比得到差异报告,再重新整理下就可以再次校对了(为了查看方便)。
文本比较(T)
已产生: 2019-8-29 11:49:16

模式:  差异
左边文件: C:\Documents and Settings\Administrator\桌面\1147.txt(替换后的码表文件)
右边文件: C:\Documents and Settings\Administrator\桌面\1139.txt(合并后的文件)
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 66楼 发表于: 2019-08-29 12:28:04 星期四  点亮(0)
2531 xī(ㄒ一)1、同“晰”。
4112 xī(ㄒ一)1、皮肤白:“其民皙而瘠。”2、泛指白色:“皙帻而衣狸制。”3、一种只开花,不结果的枣树。
3974 shē(ㄕㄜ)1、播种前,焚烧田地里的草木,用草木灰做肥料下种;刀耕火种。2、刀耕火种的田地:“长刀短笠去烧畬。”3、古同“畲”(中国东南地区少数民族名):“自将陈吊眼、许夫人诸畬兵攻打蒲寿庚。”4、姓。
(无编码)shē(ㄕㄜ)1、〔畲族〕中国少数民族,主要分布于福建省、浙江省。
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 67楼 发表于: 2019-08-29 23:14:23 星期四  点亮(0)
楼上两组是这次对比校对中修正的编码,不仔细看真的看不出来,太相近了!另外就是需要添加的编码了,下午挨着看了看,九成五以上可以算得上是不常用字,要说读音恐怕真的没几个能读准的,基本都没见过。在生僻字不能输出的情况下,添加了又有什么意义呢?不过是显得相对完整些罢了,但能用到的几率真的几乎为零。自己添加的标准电码编码方案不能输出生僻字,只能另辟蹊径,看看四角号码自带的方案能不能输出。采取的方案是“移花接木”,就是把不常用的标准电码的编码加入到码表文件中。测试了四角号码和拼音四角,结果都不行,看来可能是输入法自身有点儿问题吧。所以到现在,忽然有些失望,有些失落,自己这么的“努力”怎么会是这样的结果呢?虽然自己的能力相当有限,但遇到的问题总希望能相对完美的解决,可这个不常用字真的是难住我了,虽然就像前面说的几乎用不到,但总想着虽然用不到,但能够正常输出才是最完美的,码表文件可以慢慢完善,不断的修正,以保证尽可能高的准确性。心里感觉还是有差距的,这个距离让我感到可惜。为什么?
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!
离线zhangjingyu

只看该作者 68楼 发表于: 2019-08-29 23:25:51 星期四  点亮(0)
忽然感觉失去了继续努力的意义,失落、不甘、孤独、困倦……洗洗睡吧。没事儿,我不会放弃的,即使是只能输出常用字,我也还是会尽量做好的。我相信只要梦想不曾放弃,生僻字不能输出的问题总有一天能够被我解决!就像之前的经历,不管是几个月,还是几年之后!
尊重每位祺师,做有价值的祺文化社区!欢迎光临,并感谢您的支持与陪伴!
我希望能通过这个论坛让更多的朋友更多的关爱自己的家人和朋友,不要等到有一天失去后才知道没有好好的珍惜,才知道
拥有的珍贵!亲爱的们,如果你懂得,请把这份关爱传递,让更多的人加入到爱心接力当中,让每个人的心中都洋溢着爱的温馨!

我们应该知道:岁月如梭!其实生命,是很短暂,也是很脆弱的东西…… 设置自己的帖子签名请点这里!