第七节 现代汉字的信息处理
第六节 现代汉字的信息处理
教学要点,难点:了解汉字信息处理的方式和汉字键盘输入的方法;了解各种汉字编码方案的优缺点;熟悉汉字信息处理对汉字规范化,标准化的要求.
课时安排:2学时
教学过程:
一,汉字信息处理的意义
汉字能否输入计算机,计算机能否输出汉字,这曾经是人们十分关注的问题.人类社会已经进入信息化社会,信息化社会的一个最主要的特征就是利用电子计算机之类的现代化技术和设备对语言文字信息进行各种处理,诸如储存,分类,统计,检索,转换,传输,控制等,使之得到最充分的利用,发挥其最大效能.汉字如果不能进入计算机,汉字信息不能用计算机进行处理,以汉字信息处理系统作为关键部分的汉语书面语处理系统也就不可能建立,那么,计算机在涉及中文的各个领域的应用,如中文印刷出版的现代化,中文科技情报检索的现代化,办公事务的自动化等都将成为一句空话.汉字的信息处理与我们国家的现代化建设密切相关,是一项十分重要的语言工程,对我国社会的发展,科技的进步具有重大的现实意义和深远的历史意义.
二,汉字信息处理
汉字数量庞大,笔画繁多,结构复杂,不便于在计算机上直接输入,人们一直在努力寻找一种准确,方便,快捷的输入方法.目前汉字计算机输入方式主要有三种:一是汉字键盘输入;二是汉字字形识别输入;三是汉字语言识别输入.以下分别谈谈各种输入方式的优点及不足.
1,汉字语音识别输入.计算机利用配备的语音识别装置对人说的汉语口语进行语音分析,从不同音节中找出汉字,或从相同音节中判断辨别汉语语言,而实现汉字的输入.
优点:①由于省去了编码步骤,使用者不必记忆编码规则,因而不必为编码中断思考;②何无须进行复杂的专门训练,掌握了汉语拼音和普通话的人无须经过特殊培训即可上机操作,普及较快.
不足:部分字词难以查找,输入,方言会影响到准确输入.
汉字编码输入
汉字编码输入是为汉字设计一种便于输入计算机的代码,然后利用国际通用小键盘把代码输入计算.
优点:速度较快,重码较少.
不足:对用计算机写作的人来说,加重了思考编码的负担,写作过程不断受到干扰.
3,整字输入法:整字输入法是把整个汉字作为输入符号,一般的做法是把几千个汉字按照一定顺序排列在一个很大的键盘上,使用者用键盘击打或电笔点输入.
优点:一字一键,无重码,直观性好,操作简单.
不足:需要特制键盘,速度较慢,设备笨重,成本昂贵,普及很难.
4,汉字字形识别输入
计算机依靠光学字符阅读器之类的装置,通过光电扫描等方法识别汉字(包括汉字的手写体和各种印刷体),从而使汉字进入计算机.
优点:迅速,快捷.
不足:分辨率低,校对工作量大.
三,汉字编码
汉字编码是为汉字设计一种便于输入计算机的代码.
近10多年来,设计的汉字编码方案有数百种,其中通过上机试验或已被采用的也多达数十种.概括起来,有以下几种基本类型:
(1)全汉字编码法.通常所说的"笔触字表法"或"字表法"就是这样一种编码法.几千个常用汉字依据一定的排列原则,如根据部首,音序,字义联想等,按横纵座标排列成字表.每个汉字的代码由它在字表中的位置决定,比如,位于横12行竖15列交叉处的字,它的代码便是1215.当电笔触及该字时,计算机自动将其代码输入,这种编码法的优点是直观性强,操作方便,无重码;缺点是需要特制键盘,输入速度较慢.现在,一种新的"全汉字编码输入与字形输出技术"已取得突破性成果,可以用25个拉丁字母对见诸字典的数万汉字字形进行编码,在计算机中综合汉字总集的编码输入,字形结构分类,解码检索和字形产生等功能为一体,具有较先进的水平.
(2)字形分解编码.将汉字字形分解为笔画或部件,在此基础上按形取码,以一定的顺序输入计算机.这一编码法的优点是不涉及字音,不认识的字也可编码输入;缺点是分解标准不易统一,为了对付汉字字形的复杂情况,往往需要制定较多的规则.
(3)全拼音编码.例如,"拼音—汉字变换法"就是这样一种输入法.采用汉语拼音输入,通过机内软件变换,也就是通过查机器词表,输出汉字.它的优点是不受字形影响,操作便捷,可以"盲打",也便于进一步的信息处理;缺点是不认识的字没法输入,要借助以词定字,显示选择或加形码等办法处理同音字问题.
(4)字音为主,字形为辅编码法.通常是在拼音码的前面或后面加上一定的字形码,目的在于利用一定的字形信息以区分同音字.
(5)字形为主,字音为辅编码法.例如,以字形码为基础,附加一定的字音码,利用一定的字音信息,以简化字形码的编码规则,缩短字形码的码长.
为了适应不同的需要,不同的编码法可以并存并用,但标准需要统一.国家统计局1981年公布了《信息交换用汉字编码字符集基本集》(分两集,共6763字),简称"汉字标准交换码".它作为计算机的内部码,为各种输入输出的设计提供了统一标准,可以使各种系统之间的信息交换具有一致性,以保证信息资源的共享.用字量超过基本集的,《信息交换用汉字编码字符集辅助集》可以满足其需要.
理想的汉字编码方案应具有以下一些基本特点:字码无二义性,易于掌握,便于操作,输入和处理效率高,储存节省,传输可靠,设备经济,实用,组词能力强等.
可以预计,汉字的信息处理,汉语书面语和口语的信息处理,随着研究手段的改善和研究工作的深入,必将取得更令人振奋的新的进展.
四,汉语拼音输入法
(一)汉语拼音输入法的优越性
1.不需要编码规则
在走向信息社会的今天,我们迫切需要好学好用的计算机输入方案,但从数百种编码方案中很难挑选出人人满意的方案.因为每一种方案都有编码规则需要记忆,这样就失去了使用电脑为减轻脑力负担的本来意义.汉语拼音输入法是一种无编码方案,使用者无需记忆编码规则,只要掌握汉语拼音和普通话,就能应用自如.
2.体现语言中以词为单位的特点
汉语拼音输入法的基本特点是以词或语为输入单位,由计算机自动转换为相应的汉字输出.它尽量避免单个汉字的选择.它的词库里贮存大量现代汉语的词汇,词汇之间可以自动切换.汉语拼音是与汉语的词相对应的,而不是与汉字相对应的,因此这样实际上也就大大地弥补了同音字多的不足.
3.输入与思维同步进行
人是通过有声语言进行思维的,拼音同有声语言直接相联系.汉语拼音输入法要求人们向计算机输入规范的汉语拼音,实质上是要求人们在键盘上使用汉语拼音来书写普通话,把写作者的思想直接表达出来.这一点对使用电脑写作的人来说,具有特别意义.写作是一项语言创造活动,需要精神高度集中.如果要分出精力去思考复杂的字形编码规则,频繁地拆字拼字,那就会影响写作质量.所以用电脑写作的人爱用汉语拼音输入法.
4.有利于学习普通话和汉语拼音
从20世纪50年代以来,凡受过初等文化教育的人,几乎都接受过普通话和汉语拼音的教育,因此运用汉语拼音输入法一般不需要经过特别培训,相反地还可以进一步帮助人们学好普通话和汉语拼音.比如南方人平翘舌音不分,要输入"中止"一词,错打成zongzhi,结果输出"宗旨",于是迫使自己更正输入错误.这样,普通话和拼音的水平就会逐渐提高.
5.有利于国际间的信息交流
采用汉语拼音输入法作为信息检索的手段,不仅可用于获得所需的汉语汉字信息,而且也可用于获得同拉丁文字类似的语言文字信息.
汉语拼音已经成为国际标准,在标准键盘上输入拼音,同输入其他拉丁文字相类似.因此,外国人同样可以使用汉语拼音输入法来操作计算机,在信息网络上获取他们所需要的汉语汉字信息.汉语拼音是国际间进行信息交流的工具,任何汉字字形编码都无法取代汉语拼音的这一重要作用.
(二)汉语拼音输入法的完善化
汉语拼音输入法符合我国国情,是发展方向,但在实际应用中还存在一些问题,需要逐步解决,使之日趋完善.其中减少同音选择是完善汉语拼音输入法的关键.实践经验告诉我们,"以词定字"和"高频先见","用过提前"是根据汉语内在规律总结出来的减少同音选择的好方法.
1.根据词汇多音节化规律实行"以词定字"
在现代汉语词汇中,单音节词是个稳定量,数量增加极其缓慢;多音节词是个扩张量,数量不断增加.根据多音节化规律,实行"以词定字"的输入法,可以大量避免汉字的同音选择.例如不要把"现代"拆开成为"现"和"代"两个字,要把"现代"作为一个语词单位来输入.因为"现"和"代"分别有许多同音字,"现代"这个双音词没有同音词.其实在计算机上使用汉语拼音,是作为一种辅助性文字工具来用的,并不是简单地对汉字注音,而是以词为单位,分词连写.因此所要区分的是同音词,而不是同音字.这是使用汉语拼音输入法与汉字编码法最大的不同点.而且由于电脑的智能化,即使电脑里没有的词语,只要使用一次,它就会自动记忆,永久保存.
2.根据语词出现频度不平衡的规律采用"高频先见","用过提前"的技术
在"以词定字"的基础上,根据语词出现频度不平衡的规律,采用"高频先见""用过提前"的两种技术,可以使同音词的选择减少到微不足道的程度.一组同音词中,往往一个常用,其他次常用或罕用.例如"废纸""废止"和"废址"一组同音词,"废纸"常用,"废止"次常用,"废址"罕用.常用的首先出现,能避免大量同音词的选择,这叫"高频先见".如果常用的不是所需要的,那么选择一次,以后自动出现,不要选择第二次.这又能减少选择.刚刚用过的排在前面,在这之前用过的退居第二,再以前用过的依次往后退,那些备用字就逐渐挤到后面去了.这叫"用过提前".以上两种技术可以说是汉语拼音输入法的支柱.
五,汉字编码字符集
(一)字符集的作用
汉字输入计算机后,要使计算机对输入的信息进行处理,首先应当研制一个科学实用的电脑字符集.字符集的作用是提供一个标准代码.字符集内每个汉字都要给它规定一个固定的位置,根据汉字的位置编制地址码.有了地址码,计算机即可找到相应的汉字,进行信息处理.用于计算机中的汉字地址码一般采用2个字节表示.第一个字节称为"区",第二个字节称为"位",每个汉字占用一对区,位的地址.区位的地址码就是汉字的代码,也就是通常所说的汉字内码,这些内码是计算机内部处理汉字信息时使用的代码体制.
为了使各种输入输出设备有统一的标准,也为了使各种汉字信息处理系统之间的信息交换有共同性,需要研制标准化的汉字编码字符集.标准字符集是汉字信息处理的重要基础.
(二)国家标准字符集
1.国标码
国家标准局于1980年和1990年分别制定了《信息交换用汉字编码字符集·基本集》和《信息交换用汉字编码字符集·辅助集》,相应的国家标准代号分别为GB2312—80和GBl2345—90(GB是"国标"二字汉语拼音的首字母),这种代表国家标准的汉字内码称为"国标码".《基本集》包含了6763个汉字(其中含有39个非汉字的部首)和682个图形符号.《基本集》是我国第一个简体汉字内码的国家标准,它起到了统一电脑用字的作用,同时也起到了汉字规范化教育的作用.(辅助集)包含了6866个汉字和717个图形符号.除了新增加的103个汉字和35个图形符号外,其汉字都是《基本集》中简化字的繁体形式.
2.国标扩充码
《基本集》适用于一般汉字处理,汉字通信系统之间的信息交换,随着计算机技术应用领域的不断扩展,人们需要计算机处理的汉字数目越来越多,《基本集》所包含的汉字已经不能满足实际的需要.因此,为解决 《基本集》的汉字收字不足,简繁汉字不能同平面共存,简化代码体系间不能转换等问题,我国又制定了一个更大范围的字符集,叫"汉字扩展内码规范",即GBK("K"是"扩展"一词汉语拼音的首字母).GBK是包含有 20902个汉字的简繁体共存的大字符集国家标准.
2000年3月,信息产业部和国家质量技术监督局联合发布了两项新的中文信息处理基础性国家标准.其中有一项为强制性国家标准,称为GBl8030-2000《信息技术和信息交换用汉字编码字符集·基本集的扩充》,收录了27000多个汉字,为彻底解决邮政,户政,金融,地理信息系统等迫切需要的人名,地名用字问题提供了解决方案,也为汉字研究,古籍整理等领域提供了统一的信息平台基础.这项标准还同时收录了藏文,蒙文,维吾尔文等少数民族文字.
(三)国际标准字符集
信息处理的国际化要求汉字字符集的国际标准化,因此,确定电脑汉字字符集的国际标准,已成为举世瞩目的课题.1992年,中日韩三国共同建立和推出的《CJK统一汉字编码字符集》已被国际标准化组织通过为电脑汉字字符集的国际标准.CJK是把目前中(包括台湾省),日,韩三国四方电脑用汉字字符集合并在一起,去掉重复的,取其"合集"而成,共收20902个汉字.CJK国际标准的公布,使不同国家和地区的汉字信息处理系统之间能无阻碍地连通,解决了国际间的信息交换问题,真正实现了信息资源的共享.
六,汉字信息处理与汉字研究
20世纪50年代以来所进行的汉字改革,其重大成果正越来越多地用于汉字信息处理,为我国计算机的普及和发展提供了有利条件.例如拼音输入法,语音自动识别,汉字自动识别,词语自动切分,同音词自动识别等输入方式的研制和应用,都与普通话的推广,汉语拼音的推行,汉字的整理和简化密切相关.因此,为了促进信息处理技术的发展,必须加大力度继续推广普通话,推行汉语拼音和简化字,同时也还要对汉字继续进行整理.
(一)汉字属性研究
汉字属性是汉字信息处理不可缺少的基本要素.20世纪80年代出版的《汉字信息字典》和《汉字属性字典》,对每个汉字的属性都给出充分的信息.这些信息包括每个字的序号,读音,笔画数,部件数,部首,部首笔画数,部首外笔画数,部首序号,笔顺,笔顺编号,结构方式,异体字,繁体字,旧字形,字频,国标码,电报码,四角号码等几十种属性.众多属性的提供,对汉字信息处理工作具有重要的实用参考价值.它不仅提高了计算机进行汉字信息处理的各项功能,而且为制定汉字属性的国家标准打下了坚实的基础.汉字属性丰富,今后还要继续开发,并从如何使电脑文字处理更高效,更经济,更方便的角度,进一步加强研究.
(二)汉字规范化,标准化研究
语言文字规范化程度,直接决定着汉字信息处理的速度和效率,社会的信息化每向前迈进一步都向汉字规范化提出了新的要求.汉字信息处理中的输入,输出,频率统计,汉字识别,语音识别,语音合成等等都和汉字规范化有着密切的关系.例如汉字的自动识别,如果字形不规范,就会影响汉字识别的研究工作,再如语音的自动识别,如果汉字的普通话读音存在分歧,就会使得语音识别和合成的研究者无所适从.又如汉字编码,如果不是建立在汉字规范标准的基础上,就会加剧"万'码'奔腾"的局面.因此要提高汉字信息处理的速度和效率,必须加强汉字规范标准的研究,加快汉字信息处理急需的规范标准的制订.十多年来,我国开展了一系列语言文字规范标准的制订工作,为汉字信息处理提供了规范依据.目前还要制订的规范标准有汉字笔形分类标准,汉字字序标准,各类专业用字字符集标准等.
以上各方面研究工作的发展,必将促进汉字信息处理技术的发展,进而促进我国自动化技术的发展,促进人工智能的实现,促进信息高速公路和多媒体技术的应用,这对推动我国现代化的历史进程,推动人类文明向更高阶段发展,具有非常重大的意义