通用规范汉字表
目录
二、《通用规范汉字表》背景知识
三、《通用规范汉字表》的研制情况
四、《通用规范汉字表》制定的意义
五、制定《通用规范汉字表》遵循的原则
六、《通用规范汉字表》的性质
七、《通用规范汉字表》发布后如何实施
八、《通用规范汉字表》解决了哪些重大问题
九、表内字分级的理据及一、二级字表的收字
十、三级字表设立的原因及其性质
十一、三级字表的收字原则、范围
十二、《通用规范汉字表》对异体字的处理
十三、《字表》对类推简化问题的处理
十四、《字表》对宋体字形调整的原则与结果
十五、《字表》中微调的44个汉字字型
二、《通用规范汉字表》背景知识
三、《通用规范汉字表》的研制情况
四、《通用规范汉字表》制定的意义
五、制定《通用规范汉字表》遵循的原则
六、《通用规范汉字表》的性质
七、《通用规范汉字表》发布后如何实施
八、《通用规范汉字表》解决了哪些重大问题
九、表内字分级的理据及一、二级字表的收字
一、《通用规范汉字表》简介 《通用规范汉字表》是《中华人民共和国国家通用语言文字法》的配套规范,是现代记录汉语的通用规范字集,体现着现代通用汉字在字量、字级和字形等方面的规范。
图解44个被“整形”的汉字
字表收字8 300个。根据字的通用程度划分为三级:
一级字表收字3 500个,是使用频度最高的常用字,主要满足基础教育和文化普及层面的用字需要。
二级字表收字3 000个,使用频度低于一级字。二级字与一级字合起来共6 500字,主要满足现代汉语文本印刷出版用字需要。
三级字表收字1800个,是一些专门领域(姓氏人名、地名、科学技术术语、中小学语文教材文言文)使用的未进入一、二级字表的较通用的字,主要满足与大众生活和文化普及密切相关的专门领域的用字需要。
二、《通用规范汉字表》背景知识
撰者按:这里所做的词语解释,不是严格意义上的学术定义,而是为了便于非文字学专业的人更好的理解字表。所列举的词语有的未必只限于表述汉字,其他文字也应涵括,但这里皆把它当作汉字的专有术语来解释。
1.字集:按照一定原则选出的一定数量汉字的集合。比如1988年1月,国家语委和国家教委联合发布的《现代汉语常用字表》就是一个一般社会领域最常用汉字的字集。
2.字量:文字的数量,一般指某一特定范围使用到的汉字的数量。比如1988年3月,国家语委和新闻出版署联合发布的《现代汉语通用字表》的字量是7000个。《通用规范汉字表》(征求意见稿)的总字量为8300个。
3.字形:汉字的外形,即单个汉字在空间展现出来的形貌。比如“王”由三横一竖组成。
4.字级:一定数量的汉字集合内部,依据某原则而分出的若干具有层级性关系的汉字集合。比如,1988年1月,国家语委和国家教委联合发布的《现代汉语常用字表》收字 3500个,其中又分为两个字级:前面2500个是常用字,后面1000个是次常用字。《通用规范汉字表》(征求意见稿)分为一级字、二级字、三级字3个字级。
5.字用:汉字在书面作品中使用的情况。确定字用依据的是汉字具体的使用职能。记录同一个词的不同字形可算同一个字(比如说“泪”和“涙”是同一个字);记录不同词的相同字形则可算不同的字(比如“体”,古代读bèn,表示愚笨;现代读tǐ,表示身体,二者虽然形体相同但可算两个字)。
6.字样:《通用规范汉字表》(征求意见稿)的相关文件中所使用的“字样”是指汉字的外部样态。凡是汉字中的线条、图素、笔画在数量、交接方式、位相或体式等方面具有差异,也就是不能同比例重合的字,都属于不同的字样。比如说“泪”和“涙”是两个字样,因为它们的外在形态不同,但字用没有区别,因为它们的职能相同,都是记录汉语中“眼泪”这个词。再比如,“户-户-户-户-户”五个形体也是5个不同的字样,只是其间的差别主要由于字体风格形成。总之,“字样”描述的是每个字的外形。
7.字频:汉字的出现频率,即某个汉字在一定语料中使用(出现)的次数与样本总字数的比率。比如在一个一万字的文本中, “的”字一共出现过415次,那么“的”字在该文本中的字频便是4.15%(415÷10000×100%=4.15%)。
8.字序:汉字在辞书和各种索引中的排列顺序。汉字的字序主要有音序和形序。比如“天、地、人”三字,按形序(笔画序)排列应该是“人(2画)、天(4画)、地(6 画)”,按音序排列应该是“地(di)、人(ren)、天(tian)”。几个字笔画相同时,则依照笔顺的先后顺序排列(笔顺的先后顺序是横1、竖2、撇 3、点4、折5),如“文、王、队、日、午”五个字全是四画,起笔分别为点、横、折、竖、撇,依照笔顺则应排列为“王、日、午、文、队”。
9.类推简化:某个字形简化了,当这个字作为其他字的构件时如果也可以跟着简化,就形成类推简化。《简化字总表》规定其第二表中的132个简化字和12个简化偏旁,可以类推简化。比如“严、龙”简作“严、龙”,“俨、垄”可以类推简化作“俨、垄”;“车”简作“车”,则以“车”为偏旁的“轨、军、库、载”可以类推简化为 “轨、军、库、载”。
10.有限类推:类推简化限定在一定范围内。《通用规范汉字表》(征求意见稿)实行的就是有限类推,即凡收进字表的字如其字形是繁体,都依据《简化字总表》规定的原则而类推简化。而字表以外的字,不管其形体是否含有已经简化了的繁体字形,都不再类推简化。比如“驦、驌、鸘、鷫”四字收进了字表,依据类推简化原则,将们分别简化为“骦、骕、鹴、鹔”。与其相对的说法是“无限类推”,也就是某个字不管其现在是否使用,只要其形体含有已经简化了的繁体字形,都类推简化。比如 “驡”现在基本不用,但因为“龙”简化作“龙”、“马”简作“马”,于是把“驡”类推简作“龙+马”。无限类推学术界不赞成,主管部门也已明确否定。
11.异体字: “异体字”是与“正体字”相对的概念。音义和使用功能相同而字形不同于正体字的汉字。例如,“峰-峯”、“凳-櫈”、“朵-朶”、“泪-涙”等字组中,后者皆为前者的异体字。严格意义上的异体字,其职能不由正体字承担,是汉字的冗余,给记忆带来负担,所以有必要限制其使用。
12.宋体字形:宋代刻版印书通行的字体。结构方正匀称,横细直粗,便于刻版,阅读醒目,是16世纪以来汉字的主要印刷体。当前出版物上的常用字体,除宋体外(如:小),还有仿宋体(小)、楷体(小)、黑体(小)等。
13.《第一批异体字整理表》:1955 年12月22日,文化部和中国文字改革委员会联合发布的新中国第一个汉字规范,1956年2月1日起在全国实施。该表内列810组字,每组最少2个字,最多6个字,共1865字。根据从简从俗的原则,从中选出810个作为正体,淘汰了1055个异体字。比如“橹—艪艣樐”为一组具有正字与异体字关系的字,该表将“橹”定为正字,“艪艣樐”是淘汰的异体字。该表发布后,不仅精简了汉字的字数,而且有效地遏制了汉字使用中的字体混乱现象。
14.《印刷通用汉字字形表》:1955 年,中国文字改革委员会提出进行汉字字模标准化工作,以统一印刷字体和手写正楷体的笔画结构,精简偏旁部件的种类,确定汉字的标准字形,并把它作为书写的规范和设计印刷、打字字模的标准,以利学习和使用。1956年9月,标准字形研究组编成了《标准字形方案(草案)》,1957年对该草案进行修改并更名为《汉字字形整理方案(草案)》,1959年初步定稿;1960年5月,在前表的基础上又编成《通用汉字字形表草案》;1962年3月,文化部决定把整理字形的工作确定在印刷通用汉字的范围内,并改名为《印刷通用汉字字形表》。
整理字形的原则是:①宋体楷化;②字形结构和笔势尽量服从横写的需要;③折笔尽量改为直笔;④连结个别笔画结构;⑤精简偏旁的数量;⑥按读音分化原有部件。 1964年5月,字形整理组拟出《印刷通用汉字字形表》,1965年发布实施。收印刷通用汉字6196个,并给每个汉字规定了笔画数、结构和笔顺。经过对字形的调整和美化,进一步取得了宋体字笔形的一致,使字形更趋于规律性、系统性。
15.《简化字总表》:1956 年1月,国务院公布《汉字简化方案》;1964年3月,中国文字改革委员会、文化部、教育部联合发布《关于简化字的联合通知》,《总表》分成三个表。第一表所收的是352个不作偏旁用的简化字。这些字的繁体一般都不用作别的字的偏旁。个别能作别的字的偏旁,也不依简化字简化。如“习”简化作“习”,但 “褶”不简化作“衤+习”。第二表所收的是132个可作偏旁用的简化字和14个简化偏旁。第三表所收的是应用第二表的简化字和简化偏旁作为偏旁得出来的简化字。1986年10月,国家语委经国务院批准重新发布了《简化字总表》,并作了个别调整。调整后的《总表》,实收简化字2235个。
16.《现代汉语常用字表》:1988 年1月26日,国家语委、国家教委联合发布,目的是为了适应语文教学及其他方面的需要。字表分常用字(2500字)和次常用字(1000字)两个部分。选字原则是:①根据汉字的使用频率,选取使用频率高的字;②在使用频率相同的情况下,选取学科分布广、使用度高的字;③根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字;④根据汉字的实际使用(语义功能)情况斟酌取舍。其后,国家教委颁布的基础教育教学大纲规定基础教育阶段的识字量为3500 字,完全等同于本字表。
17.《现代汉语通用字表》:国家语委、新闻出版署1988年3月25日发布。共收7000字,包括《现代汉语常用字表》的3500字。本表的制订,主要依据1965年颁布的《印刷通用汉字字形表》。根据实际需要,删去《印刷通用汉字字形表》中的50字,增收854字。同时,本表依据《印刷通用汉字字形表》确定的字形标准,规定了汉字的字形结构、笔画数和笔顺。其后,印刷通用汉字字形即以此表为准。
18.语料库:应用计算机技术存储语言材料的总汇。语料范围可以是综合的,也可以是专项的,如国家语委“现代汉语平衡语料库”(收1919-2002年的语料9100万汉字)。语料库的容量大小和编制体例可根据需要设计,内容也可以及时更新补充。
19.《GB13000.1字符集汉字字序(笔画序)规范》:GB13000.1 字符集是指国家标准汉字编码字符集,共20902个汉字。《GB13000.1字符集汉字字序(笔画序)规范》由国家语委1999年10月1日发布、 2000年1月1日实施,编号为GF3003-1999。它是按笔画排序的汉字字序规范,主要用于汉字的信息处理、排序检索、辞书编纂等方面。
20.历史通用字形:即在历史上已经通行的汉字。一般指《康熙字典》之后、特别是《中华大字典》(1915年)之后的字形。使用历史通用字形的原则:字形要有历史上使用过的依据;有多个字形可以采用时,要尽量选取通行度高、易于识别的字形。这个概念主要针对这种情况:如果文章中需要使用非常生僻的字,要使用历史上已经通行的字形,不要生造新字或乱改字形(包括类推简化),以免增加汉字的繁复程度。比如“壣”“蘹”未收入字表,如果写作时确需使用,则不能将其简化为“土+联” “艹+怀”,也不能写成其他新造形体,而要使用古书中所使用的原字形。
三、《通用规范汉字表》的研制情况
汉字是中华民族的骄傲。它历史悠久,使用人口众多,使用状况也相当复杂;汉字之学源远流长,渊深如海。研制一个适用当前语言生活的字表,工程庞大,问题庞杂。字表正式立项研制始于2001年4月,历时8年有余,先后召开学术会、审议会、征求意见会等大型会议80余次,参与讨论的海内外专家学者3000多人次,前后修改90余稿。可以说,字表是所有参与者的集体产品。
字表的研制有很多特点,限于时间我主要讲四点:
第一,充分利用语料库资源和计算机统计技术。使用的主要语料库有:
国家语委“现代汉语平衡语料库”(9 100万字符)。
北京语言大学“现代新闻媒体动态流通语料库”(3.5亿字符)。
字表研制过程中建立的“教育科普综合语料库”(404万字符)、“儿童文学语料库”(570万字符)、“中小学语文教材文言文语料库”(560万字符)。
同时还参考了国家语言资源监测与研究中心2005-2008年建立的平面媒体、网络媒体、有声媒体、教育教材等海量语料库的数据
参考了海内外几十个语料库的数据。
这些语料库提供了现代用字的统计数据,为字表研制奠定了科学基础。
二,全面继承已有成果,充分发扬学术民主。课题组的工作是从学术调研和社会调研开始的。在调研中,系统地收集与字表研制相关的文献资料,梳理出字表必须面对的若干学术问题和社会问题,然后有针对性地召开学术座谈会,广泛深入地听取各领域的意见,并就一些重要问题的处理召开学术审议会,做出学术决策。这为字表研制提供了学术基础。
第三,广泛征集用字,认真听取相关部门的建议。向教育、文化、科技、民政、公安、军事、测绘、新闻出版、文物图书、广播影视、信息处理、辞书编纂、医疗卫生、民族宗教等领域,了解用字需求,征集需补入字表的汉字,得到了各部门的大力支持。
就字表及其实施等问题,多次听取了工业和信息化部、国家民委、公安部、民政部、人力资源和社会保障部、文化部、工商总局、质检总局、广电总局、新闻出版总署、解放军有关单位、中科院、社科院、国家测绘局、共青团中央、中华全国总工会、全国妇联等部门的意见。为字表的研制及以后的实施提供了社会基础。
第四,以方便人民语言生活为目的,兼顾稳定与创新。建国以来的语言文字工作,为文字规范化奠定了良好基础,有效满足了文化教育等各项事业的发展。信息时代的来临,对汉字的规范化、标准化提出了新要求:一方面需提高标准化程度,方便信息储存、信息管理和信息交换;另一方面,某些专门领域的用字较快进入大众生活,社会用字量有所扩大。字表重视与已有规范标准衔接,同时根据语言生活的新情况对已有规范进行整合优化,拓宽了通用领域用字的范围,慎重处理了类推简化、异体字等有关问题。
四、《通用规范汉字表》制定的意义
我国现代汉字规范工作酝酿于20世纪上半叶。新中国成立后,在国务院直接领导下,这一工作开创了全新的局面。20世纪50年代以来,国务院语言文字工作主管部门和其他有关部门陆续发布了多项汉字规范,初步实现了社会用字标准化,推动了我国教育、文化和科技事业的发展。近20年来,随着国家现代化、信息化事业的快速推进,我国语言生活发生了巨大变化。语言文字规范同社会发展和人民生活联系的广度和深度是前所未有的。在新时代、新形势下,过去的规范已经不能完全适应现代语言生活的需要,因此,对此前的汉字规范工作重新审视、制定新的可行性规范是非常必要的。
制定《通用规范汉字表》,是为了适应国家信息化发展的需要。世纪之交,我国实施创新型国家战略,信息化成为实现这一目标的重要支撑。语言文字规范化是国家信息化的基础,只有有了汉字这种传播载体的标准化,才能保证信息传播的速度和信度。
制定《通用规范汉字表》,是为了适应当代语言生活的需要。科学技术的发展,教育水平的提高,使科技术语用字范围扩大,并且快速进入日常生活。印刷业告别了“铅与火的时代”,激光照排成为出版的主要手段。古籍整理、辞书编纂广泛使用计算机,计算机字库的缺字和错字直接影响印刷出版与信息传播的质量和社会效益。在社会生活中,户籍、邮政、金融、保险等政府部门和服务行业的信息存贮和检索已经实行数字化,姓氏人名、地名中的不规范字和生僻字影响多个行业信息系统的建设和政府的社会管理,也给某些相关人员的日常生活带来极大的不便。制定适应现代语言生活的汉字规范,已经成为关涉人民生活的大事,成为广大人民群众的需求。
制定《通用规范汉字表》,是为了贯彻国家语言文字法的需要。2000年10月颁布的《中华人民共和国国家通用语言文字法》规定:“国家推广普通话,推行规范汉字”,并进一步明确了“国家机关以普通话和规范汉字为公务用语用字”,“学校及其他教育机构通过汉语文课程教授普通话和规范汉字。使用的汉语文教材,应当符合国家通用语言文字的规范和标准”,“公共服务行业以规范汉字为基本的服务用字”。这一法律的颁行,使汉字规范进入了法律层面,需要为社会一般应用提供明确的“规范汉字”范本。制定字表,对已有的汉字规范进行整合和优化,消除不同规范字表之间相互矛盾之处,集分散的规范于一体,明确“规范”的政策指向和法律效力,确定“规范汉字”这一法律概念在通用层面上的外延,使国家通用语言文字法所指称的“规范汉字”在一般社会通用层面落到实处,是保证该法顺利施行的重大措施。
五、制定《通用规范汉字表》遵循的原则
《通用规范汉字表》的制定,遵循了如下四项原则:
(一)注重与原有规范的衔接,维护汉字系统的基本稳定。字表的制定,坚持了汉字简化的基本方针,同时也遵循了国务院1986年批转国家语委《关于废止〈第二次汉字简化方案(草案)〉和纠正社会用字混乱现象的请示的通知》中所指出的“今后,对汉字的简化应持谨慎态度,使汉字的形体在一个时期内保持相对稳定”的原则。《第一批异体字整理表》、《简化字总表》、《印刷通用汉字字形表》、《现代汉语常用字表》、《现代汉语通用字表》等已有的汉字规范,经过数十年实践的考验,很多精神和大量成果值得承袭和吸取。字表继承了这些规范的原则和主要内容,对其中错误、疏漏、相互矛盾及不能满足当今社会需要之处,则在详细调查和认真分析的基础上,充分考虑到历史形成的全民习惯和社会的可接受程度,遵照便民利国的原则,进行必要的修订。
(二)坚持实事求是的科学精神,遵循汉字构造和演变的规律。字表制定过程中,邀请了我国多位资深的语言文字学家主持和参与工作,又反复听取了很多其他语言文字学家和相关领域专业人员的意见,注意吸收汉字学与汉字史研究的最新成果,采用科学的统计方法获取可靠的数据;同时也广泛吸取基础教育、古籍整理、辞书编纂、印刷出版、计算机信息处理等部门的实践经验,遵循汉字构造和演变的规律,充分考虑汉字应用的实际,尽可能提高汉字规范的科学性与可行性。
(三)广泛听取各界意见,照顾不同领域汉字应用的需要。字表的制定,坚持了群众路线,通过各种方式听取广大人民群众的意见,尤其是基础教育和文化普及领域所反映的意见,尽量满足不同领域、不同文化程度的人群对汉字使用的不同要求。
(四)适当考虑汉字在台湾、香港、澳门的使用情况和国际化的需求。汉字通行于两岸四地,而且还跨越国界,传播到世界各地。字表的制定,正视使用汉字的不同国家、地区简繁字形并存并用的客观实际,兼顾汉字使用的现状及国际化的各种需求,尽量避免扩大不同国家或地区之间汉字使用的差异,以利于相互之间的沟通和交流。
六、《通用规范汉字表》的性质
汉字规范一直是我国新文化建设中一项重要的基础工作。《通用规范汉字表》是《国家通用语言文字法》的配套规范,是体现国家文字政策的重大规范,将经国务院批准、由教育部和国家语言文字工作委员会发布。
《通用规范汉字表》说明第二条指出:“《通用规范汉字表》是现代记录汉语的通用规范字集,体现现代通用汉字的字量、字级和宋体字形的规范。”这个定义式的说明可以从以下三个方面来理解:
规范性是字表的首要特点,也是字表的本质属性。字表给出了确定的字量、字级,实现了字形与用字的标准化。表中规定了三个等级的字集,各级字集所收的字,字头都经过严格选取,并根据规则进行了字形整理,完全可以成为我国社会通用领域汉字的正字,在字形上具有唯一标准的作用。
现代性是字表的第二个特点。字表的分级、收字都是从现代应用出发的,充分考虑到现代语言文字生活的需要,所收的字也主要从现代汉语语料库中选出。现代文本中的文言文引文和中小学语文教材中的文言文,是当今文化传承和文化学习所必需的,而且需要用简化字印刷,其用字属于现代用字的范畴,这些字也已纳入了字表。
通用性是字表的第三个特点。在现代一般社会用字领域,没有必要对一些罕用字或生僻字进行标准化处理,经过规范整理的8300字,都是现代社会需要的通用字。字表按通用程度分级:一级字表的通用性最高,二级次之,三级字表虽然取自专业领域,但这些字都与国计民生的信息传播息息相关,在计算机存储和阅读上也有通用性。
七、《通用规范汉字表》发布后如何实施
《通用规范汉字表》的制定,是为了方便群众和各界更好地使用汉字。各领域在使用时,可根据其用字特点和实际需求,采取既遵循规范、又有一定宽松度的实施办法:
(1)专业性的古籍印刷,书法和牌匾等手写字,可以用繁体字与传承字。为了社会释读的方便,也为了印刷编辑部门有据可依,古籍印刷使用的繁体字也要适时进行整理。在没有制定相关标准之前,建议采用历史上曾经通行的汉字,即:字形要有历史上使用过的依据;有多个字形可以采用时,要尽量选取通行度高、易于识别的;不要生造新字或乱改字形。
(2)基础教育语文新课标规定,小学阶段识读汉字的数量为3500个。这3500字应采用《通用规范汉字表》的一级字表。但根据教学需要,尚需在3500常用字范围内再划分应用子集时,比如第一、二、三学段分别应该学其中的多少字、学哪些字,教育管理部门可按照儿童不同年龄段的认知特点,以汉字必要的属性做参数,经过科学研究,生成适用的应用字表。需要强调的是:《通用规范汉字表》给出的仅仅是宋体字的规范字形,而我国小学语文课本1-3年级的课文和各年级的生字都是以楷体字印刷的,两种字体在笔形上略有差异,在楷体字字形没有新的规范之前,仍沿用原有楷体字形。
(3)根据需要可以使用表外字。所使用的表外字如果有繁体部件,根据规定,不得类推简化。若为了保持系统的一致性而确需类推简化,例如新化学元素用字等,可报国家语言文字工作主管部门审批。
(4)字表发布后,如有当用的姓氏用字尚未收入,可报国家语言文字工作主管部门,经专家审定和相关部门确认后,适时补充进字表。
(5)使用汉字的工业产品,特别是信息产品,要遵守汉字规范的原则,不应违背字表。由于产品更新需要一定的周期,字表公布后,与字表规定不一致的产品用字的更改,可以有个过渡期,在此期限内应积极采取措施,以尽快与国家规范切合。
八、《通用规范汉字表》解决了哪些重大问题
字表涉及问题众多,具有很强的学术性和社会性,研制难度很大。解决的重大问题主要有五个:
第一,关于汉字简繁问题。字表研制过程中,对繁体字恢复和类推简化问题,曾进行过反复的研讨。研制组最终得出的结论是:为了维护社会用字的稳定,字表原则上不恢复繁体字;将类推简化的范围严格限定在字表以内,以保持通用层面用字的系统性和稳定性;允许字表以外的字有条件使用,但不类推简化。
第二,关于异体字问题。为尊重社会习惯,方便人们用字需要,字表将《第一批异体字整理表》中的51个异体字收入表中,主要用作人名地名,如“喆”“淼”“堃”“升”等。对异体字不再简单地提“淘汰、废除”,但在使用上有明确要求。
第三,关于字形问题。字表对宋体字形进行了规范,依据《印刷通用汉字字形表》总结和制定了字形规则,对一些不符合字形规则的字的字形作了微调。字形调整的原则是:尊重汉字结构,遵循统一规则,严格控制特例。字形调整的原则和字形规则,不仅使表内字的字形保持了系统性,也使今后大批量汉字的字形整理有章可循,避免出现新的字形不统一现象。
第四,关于字表的属性。字表的研制,是以大量的统计数据为基础,以满足现代语言生活的用字需要为目的,具有通用性、现代性和规范性。规范性是字表的本质属性。
第五,关于字表的效力。字表的研制,充分考虑了社会各领域的用字需要。字表发布后,社会各领域的现代通用汉字,应使用表内字。个别情况下需要使用表外字的,仍可以使用,但要选用历史上确曾通用过的字形,不要任意类推简化、造字或改字。为确保字表的有效性,今后字表会根据语言生活的变化,适时进行修订。
九、表内字分级的理据及一、二级字表的收字
作为国家规范,字表将要面对的是全体使用者,全体使用者的文化水平不同,交际范围不同,行业需求不同,对汉字的使用要求也必然会有差异。而且,汉字本身的使用频率存在着很大的差别,通用的程度是不一样的。因此,字表只有对所收字进行合理的分级,才能反映汉字的实际使用状况,照顾不同人群的需求差异,从而提高字表的实用性。
字表收字8300个,根据它们的通用程度,划分为三级,各级字表的收字数量、每个字的标准字形以及某些字的使用范围,都有明确规定。一级字表共收3500字,是一般社会领域使用频度最高的常用字集,主要满足基础教育和文化普及层面的用字需要。二级字表共收3000字,一般社会领域也会经常使用,但其使用频度明显低于一级字;一、二级字表一共6500字,主要满足现代汉语文本印刷出版用字的需要。三级字表共收1800字,是姓氏人名、地名、科技术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足与大众生活密切相关的专门领域用字的需要。
常用字是使用频率最高的字,这批字覆盖了绝大部分通用的语料,人们阅读和书写时常常使用它。常用字必须够用,但也不是越多越好,准确确定常用字的数量,并把应当收入的常用字收入,对汉字信息的传递,以及识字教学、字书编纂等应用,都具有重要意义。制定《通用规范汉字表》,在理论上根据的是“汉字效用递减率”这一重要的原理。频率反映的是汉字的具体使用情况,个体字符的使用频率不是平均分布的,随着字频的下降,汉字使用的覆盖率呈递减趋势。当字频降到一定程度,覆盖率基本不再上升。因此,掌握以下数据,就可以大致统计出常用汉字的数量:(1)从一定通用语料中测查出的汉字使用频率的降次排列表;(2)每个频次段落语料中所含的不重复的汉字数的递增量;(3)每个频次段落中覆盖率的增长数。
要想得到这些数据,选取什么样的语言材料和多少字数的语言材料进行统计,直接影响统计结果的代表性、客观性和准确性。制定《通用规范汉字表》,选定国家语委的“现代汉语平衡语料库”为基础语料库。该语料库按照时代与领域平衡的原则,收录1919年至2002年的语料9100万汉字,不重复汉字8181个。同时,采用北京语言大学“现代新闻媒体动态流通语料库”(收集2001-2002年15种报刊语料共3.5亿汉字)和《通用规范汉字表》课题组建立的“教育科普综合语料库”(收集1951-2003年的中小学通用教材及科普读物语料404万汉字),作为核查、验证的辅助语料。同时还参考了国家语言资源监测与研究中心2005-2008年建立的平面媒体、网络媒体、有声媒体、教育教材等海量语料库及海内外几十个其他语料库。利用这些语料库进行统计与分析,得到了《通用规范汉字表》一、二级字表的分级、字量和收字的基本结果。
在确定一、二级的字量与收字时,始终以客观的统计数据作为主要判断依据。但由于汉字自身和汉字使用都具有很强的人文性,汉字字集的界限并不是截然分明的,而是存在一定数量的“临界字”,对于这些“临界字”,只有进行人工的调整,才能更加科学地反映汉字使用的实际状况。在确定一级字表时,作了如下人工干预:(1)补全了10个大写数目字、22个干支字、31个省(直辖市)简称用字和一部分常用联绵词的缺字;(2)增加“儿童文学语料库”(收1949年后出版的适合基础教育阅读的各种体裁儿童文学语料570万汉字)的口语高频字;(3)提出频次位于3201至3500的300字,向中小学教师进行问卷调查,将其中通用度相对小的字与所增加的字置换,并将被置换的字降到二级字表。经人工干预调整的字量约占3%。在确定二级字表时,主要是对备选字表的字逐一进行核查、甄别,排除备选字表中意义离现代较远、形体上与其他字有纠葛的字,用三级字表中频度相对较高的字补足。
此次确定的一级字表的3500字与原《现代汉语常用字表》的3500字比较,有103字的出入,但在不同语料库中的覆盖率比原来的常用字高出0.09%~0.22%。一、二级字表的6500字,与原《现代汉语通用字表》的7000字比较,减少了500字,但在不同语料库中的覆盖率基本不变。字数减少而覆盖率保持不变的原因,首先是我国几十年来汉字规范工作取得了成效,适用性较差的字被自然淘汰,社会用字相对集中。同时也可看出,《通用规范汉字表》选字和定量的资料是优化的,方法是科学的,程序是合理的。
十、三级字表设立的原因及其性质
《通用规范汉字表》三级字表的设立,主要是为了满足专门领域的用字在通用层面上的需要。由于信息化带来的用字量扩大,《通用规范汉字表》如果只局限在基本通用字的范围,虽然可以满足日常生活用字的需要,却无法解决计算机存储和专门领域的用字问题。因此,有必要补充一些与大众生活密切相关的专门领域用字。《通用规范汉字表》在基本通用字之外,增设三级字表,适当增加姓氏人名用字、地名用字、科技术语用字以及中小学教材文言文用字,以便有效地解决这四个领域中信息处理的缺字问题。
虽然三级字不能在平衡语料库里依照字频和覆盖率收集到,但仍旧属于通用层面上的用字。这个问题需要从两个方面解释:
第一,需要全面理解“通用”这个概念。“通用”包括两个层面:一个是印刷的层面,一个是阅读的层面。能够进入平衡语料库的汉字,兼有这两个方面的通行度。但是也有一些汉字,印刷的频度并不高,阅读的频度却很高。例如医药名称、饮食营养学中的专业用字,虽然仅仅专业领域用来打印,但阅读人群却可以达到千家万户。再如,基础教育语文教材的文言用字,也有少部分不属于社会通用字,但是每年的教材印刷必须使用,历届教师、学生、家长必须面对,阅读人群几乎也达到千家万户。这些字也是需要统一字形而进入规范的。
第二,在信息时代,“通用”的概念发生了实质性的变化。除了人的使用外,还必须考虑到计算机的存储与使用。在汉字主要是手写的时代,这些特定领域的用字即使不定标准也不会有太大的问题,而在计算机和互联网时代,那些在一般语料库里凭借字频难以找到的字,在人民的日常生活中却不失其通用性。以汉字为载体的信息,一部分是在流通领域通行的,还有一部分是储备领域必需的。例如姓名,除了知名人士,一般的姓名在社会通用层面上使用度不会太高;地名,除了大城市、著名景点,一般的地名在社会通用层面上使用度也比较有限,根据字频和使用度不能将它们收集到。但是,无所不往的邮政、金融、交通等事业,无人不用的身份证、学历证书、医疗保险、产权证明等证件,必须储备可能用到的汉字。如果在信息处理上不对这些字进行规范,也会引起社会信息储备和使用的混乱。完全依据使用频率和语料覆盖率来确定字表的收字,这些特定领域的用字就难以收集到,所以要从专门领域提供的专用字中收集。专业领域通用字是对一般社会通用字的必不可少的补充。
十一、三级字表的收字原则、范围
在确定《通用规范汉字表》三级字表的收字时,坚持以下三条原则:(1)从汉字应用的具体事实出发,必须字字有来历,或有文献出处,或由相关职能部门提供用例和出处;(2)必须音义俱全,人名用字应适合于起名;(3)必须保证其通用的性质,不收用处不大的生僻字。收字范围具体包括:姓氏人名用字、地名用字、科技术语用字、中小学教材文言文用字。
(1)姓氏人名用字。中国是一个多民族的国家,姓氏不但稽留着民族和血缘的传承关系,还成为每个公民的称谓符号,其用字不能随便更改。字表对当用的姓氏用字要尽可能收集齐全,以保证信息传播的信度。至于名字所用的汉字,现在已经相当混乱,有些名字的用字甚至在已经扩充到7万余字的计算机国际编码字符集中都难以找到,致使第二代身份证由于字库用字不全而无法制作,给一些人的生活带来极大不便。《通用规范汉字表》无法改变已有人名用字的混乱状况和使用上的麻烦,但可以对今后的命名(主要是新生儿起名)和更名提供一些便于使用的字,可以引导人们减少使用生僻字、避免使用错讹字起名。这就需要尽量将姓氏用字收全,并在已有的人名用字中选择足够的、适合于起名的汉字进行规范,以保证个人姓名有效地在社会上流通。
(2)地名用字。地名用字往往不是在全国范围内普遍通行,但对当地居民来说却属于常用字,在省级区划范围内,乡以上地名用字是不可缺少的。由于方言的关系,经常会产生各种各样的“方言字”或自造字,造成用字的混乱。当今,户籍、邮政、金融等行业的信息贮存和检索已经全面数字化,地球卫星定位系统广泛应用,地名用字的混乱,会给有关行业带来信息阻塞的后果,这是不言自明的。
(3)科技术语用字。由于科学技术的发展、教育水平的提高和科学知识的普及,很多科学技术的用语快速进入人民的日常生活。仅仅拿记录化学元素的汉字来说,它们很多要用在药品名上,当药方不再手写而用计算机输录时,这些字就成为医生、药师、病人、家属交流的载体。农药、化肥、室内装修材料也有不少是要用它们的学名来宣传、普及的。至于化妆品、清洁剂的使用,饮食健康的讲解,气象的采集和预报等,一旦进入科学普及领域,都会受到普遍关注。特别是各专业的教科书的编写和印刷,更会用到这些字。
(4)中小学教材文言文用字。规范汉字主要是书写现代汉语文本的,但是,传统、历史与现代不是绝缘的,现代文本中会引用文言作品,中小学语文教材中也都会收一部分优秀的文言作品。前者可以在一般的平衡语料库中收集到,而为了保证教材印刷的规范,需要在语文教材中专门收集文言文的用字。
这四个方面,既是信息时代用字的重要领域,又是信息传播容易缺字的领域。具体收字数量如下:
姓氏人名用字930字,主要来源于1982年18省市抽样人口普查资料和公安部提供的姓氏用字及部分人名用字,并适当补收一些古代姓氏用字和有影响的古代人名用字。
地名用字465字,主要来源于民政部提供的乡镇以上地名用字、国家测绘局提供的部分村级地名和部分自然实体名称的用字、常用汉语工具书中标明为“地名”的用字。
科技术语用字276字,主要来源于全国科学技术名词审定委员会提供的中医药学、植物学、遗传学、冶金学、微生物学、土壤学等56个门类的术语用字,以及中国社会科学院语言研究所提供的天文、气象、地理、动物、植物、工业、农业、政治、经济、文化、历史等33个门类的科学技术与人文社会科学的术语用字。
中小学教材的文言文用字362字,主要从字表研制工作组建立的“中小学语文教材文言文语料库”(收1949-2007年中小学语文及普及文言文语料,560万汉字)中提取。
以上四个方面的用字合并去重后,去除已经进入一、二级字表的字,再去除疑难字、错讹字和异体字等,共为1800字。由于三级字是四个方面的用字合并去重后得出的,所以,三级字的属性并不都是单一的,有些字可能兼有多个领域的不同属性。
十二、《通用规范汉字表》对异体字的处理
严格异体字的定义应当是:音义全同、记词职能完全一样、仅仅字形不同,它们在任何语境下都能互相替代而不影响表达的意义的一组字。可以看出,从功能来看,异体字是汉字的冗余,徒增记忆的负担,需要加以规范。1955年12月22日发布的《第一批异体字整理表》的说明中指出:“从实施日起,全国出版的报纸、杂志、图书一律停止使用表中括号内的异体字。但翻印古书须用原文原字的,可作例外。”这个说明明确了异体字属于“不规范的字”的范围,异体字在通用层面上书写现代汉语文本时,不能使用。但是,在该异体字整理表中确定的“异体字”,有些并不是严格意义上的异体字。把这些字都列入“不规范的字”的范围而取消,有时不利于意义的精确表达。
《通用规范汉字表》对《第一批异体字整理表》进行整理时,采用了科学的原则、稳定的原则和求实的原则,形音义并重,对各组字的关系进行了重新认定,并规定今后对这类字,不再采用简单的“取消”“废除”而要采取“认同”和“辨析”的处理方法。
《第一批异体字整理表》在1955年12月发布后,有些相关的文件曾对其进行过改动,主要是:(1)1956年3月发布的《修正〈第一批异体字整理表〉内“阪”“挫”二字的通知》;(2)《简化字总表》(1986年10月10日重新发表)和《关于发布〈现代汉语通用字表〉的联合通知》(1988年3月25日发布)中重新认定了26个字;(3)1993年《关于“镕”字使用问题的批复》。上述3个文件总共恢复了29字,分别是:阪、挫、、、晔、詟、诃、、、刬、鲙、诓、雠、翦、邱、於、澹、骼、彷、菰、溷、徼、熏、黏、桉、愣、晖、凋、镕。此次制定《新订异体字整理表》时,根据现有原则对这29个字重新审核,审核后的处理结果为:“ 、、、刬”4字仍按异体字处理,其余25字收入《通用规范汉字表》。此外,根据群众的意见,《通用规范汉字表》还将51个异体字恢复为规范字,并在各级字表中相应的字下增加注释,说明这些字恢复为规范字后的使用范围:
恢复到二级字表中共6字,其中只恢复其部分音项的1字,即“袷”;完全恢复不再作为异体字的5字,分别是“噘、栗、蹚、皙、瞋”。
恢复到三级字表中共45字,其中只恢复其部分音项的5字,分别是氾、、叚、絜、釐;恢复其部分义项的36字,分别是仝、邨、扞、吒、飏、升、并、迳、乃、钜、秘、升、、桠、赀、、脩、砦、堃、喆、蒐、椀、苏、淼、犇、肴、、甯、缐、札、、麹、溪、瓌、、龢;完全恢复不再作为异体字的4字,分别是凓、勠、菉、曏。
十三、《字表》对类推简化问题的处理
1964年5月,中国文字改革委员会根据当年3月文改会、文化部、教育部联合发布的《关于简化字的联合通知》而编印出版了《简化字总表》,在《〈简化字总表〉说明》中有这样的表述:“本表收录1956年国务院公布的《汉字简化方案》中的全部简化字。关于简化偏旁的应用范围,本表遵照1956年方案中的规定以及1964年3月7日中国文字改革委员会、文化部、教育部《关于简化字的联合通知》的规定,用简化字和简化偏旁作为偏旁得出来的简化字,也收录本表内。”“用简化字和简化偏旁作为偏旁得出来的简化字”就是类推简化,比如“严”“龙”简化为“严”“龙”,“俨”“垄”可以类推简化为“俨”“垄”;“车”简化为“车”,则以“车”为偏旁的“轨、军、库、载”可以类推简化为“轨、军、库、载”,等等。《〈简化字总表〉说明》还列出了132个可作偏旁用的简化字和14个简化偏旁,作为类推简化的依据。这132个简化字和14个不能独用的偏旁,可以用在当时《新华字典》所收8000多个汉字的范围内没有简化的字上,这些字形成了《简化字总表》的第三表,一共收字1753个, 它们都是类推简化来的简化字。虽然文件中没有明确规定这种类推简化的范围,但实际上只应用于当时最常见的汉语工具书《新华字典》的收字范围内,所以被称作“有限类推”。
实行类推的初衷是为了保持简化汉字的系统,易于识别;总体减少笔画,书写方便。这个原则在有限的范围内进行,对保持汉字构形的体系不能说没有积极的作用。但是,由于类推简化没有明确限制范围,当一系列大中型字词书相继问世、大型计算机字库相继建立、简体版的古籍纷纷出版时,类推简化的范围便无限扩大,远远超出了原来的《新华字典》8000个字的范围,问题也就逐渐显露:字数大量增多后,产生了一批同形字;有些繁体字类推简化后,原字的结构被破坏,影响了构字的理据,也破坏了字形的美观;类推出了一大批完全没有使用过的字形,实际上使汉字的总体系统繁化甚至混乱;有些辞书对贮存领域的汉字不限部位、不限层次、不限功能地无限类推,在汉字本来数量繁多的情况下,又人为地造出大量历史上从来没有使用过的“人造字”,违背了辞书存储汉字的历史真实性原则;造成了一个新的“简化系统”,拉大了汉字应用的古今距离和两岸距离。
《通用规范汉字表》对类推简化采用了尊重现实和严格限制的原则。所谓尊重现实,是对在《现代汉语通用字表》范围内已经有限类推的字仍然保留。由于姓氏人名、科技用字和用简化字印刷的语文课本中的文言文用字多数也已经类推,因此,三级字表也采用有限类推的办法,实行类推简化,与一、二级字表保持一致。其具体细则是:(1)按《简化字总表》第二表规定的132字与14个偏旁的范围类推,不扩大范围。(2)尽量只在第一层次构字时类推,以保持原字的结构不受影响。(3)采用以上原则产生难以识别的怪异字或产生同形字时,为保持字与字的区别,作个别变通处理。不予类推简化。
《通用规范汉字表》以外的字,根据国务院1986年“今后,对汉字的简化应持谨慎态度,使汉字的形体在一个时期内保持相对稳定”的指示精神,不再类推简化;个别领域确需类推简化的,需报国家语言文字工作主管部门批准。
十四、《字表》对宋体字形调整的原则与结果
《通用规范汉字表》对宋体字的字形进行了微调,主要是取得宋体字笔形变异上的一致。其他主用字体(仿宋体、黑体、楷体)与非主用字体,以后再逐步进行调整。
1965年发布的《印刷通用汉字字形表》,对宋体字的字形进行了有规则的处理,1988年发布的《现代汉语通用字表》继承了其字形规定。但其中还有少部分字,在同样条件下笔形变异处理不一致。这次制定《通用规范汉字表》,根据群众和专家意见,按照字形处理原则,对所收《印刷通用汉字字形表》的字进行了微调,也对新收的字进行了统一处理。
字形调整需要制定一些统一的规则,这样,借此次字形调整,检验、总结和完善过去已经建立的规则,以便在今后扩大字量时仍然有章可循,不再出现新的字形不统一现象。这次字形调整的总原则是:
①尊重汉字结构:字形调整虽是笔形层面的问题,但笔形的变异也会影响汉字的结构;在规定笔形变异规则时,必须尊重汉字结构,不因笔形调整使字的结构模式发生错乱或因调整笔形产生同形字、易混字等。
②考虑宋体风格:宋体字来源于雕版印刷字体,经过工艺美术处理,其笔形及笔画交接有自身的特点,总体风格讲求平直方正、对称均衡。新的《通用规范汉字表》的宋体字字形,应尽量符合宋体字的风格特点。
③遵循统一规则:调整字体,必须遵循统一规则。一切规则是在条件的控制下确立的,为了减少随意性,条件相同的字应按统一规则处理,条件有变化时规则才能变化。印刷字形的美化属于工艺美术层面,也应考虑规则的一致性。
④严格控制特例:在按规则处理字形时,会出现一些特殊情况,完全不允许对个别字进行特殊处理是很难做到的;但在处理特例时应阐明充分的理由,尽量减少规则之外的特殊处理字形。
在总的原则控制下,宋体字的笔画变异需要有进一步的理性规定。在这次字形调整中,制定了横变提,竖变撇,捺变点,竖弯钩变竖提,竖钩、横折钩去钩等五类笔形规则,这些规则是从原有字形规范中总结出来的,同时用来复查新的规范字是否符合这些规则。经过对字形的调整和美化,进一步取得了宋体字笔形的一致,使字形更趋于规律性、系统性。
《通用规范汉字表》以笔形变异规则为标准,对所收的8300字全部进行了复查,在统一笔形规则的前提下,生成了《通用规范汉字表》的宋体字形表,其中包括对《印刷通用汉字字形表》中与规则不一致的44个字的字形进行了调整,约占《印刷通用汉字字形表》总字数的0.57%。具体是:
①“琴、瑟、琵、琶”的上左和“徵”的中下部件“王”最后一笔横变提
②“魅”的右部件和“籴、汆、褰、衾”的下部件的末笔捺变点
③“巽(撰、馔、噀同)”的上左部件“巳”的最后一笔竖弯钩变竖提
④“亲(榇同)、杀(刹、脎、铩、弑同)、条(涤、绦、鲦同)、茶(搽同)、新(薪同)、杂、寨”下部件“木”的竖钩变竖
⑤“恿”的上部件和“瞥(弊、憋同)”的上左部件中横折钩变横折
⑥“蓐、溽、缛、褥、耨、薅”中的部件“”以及“唇、蜃”由半包围结构改为上下结构
⑦“毂”的左下部件“车”上添加一短横,与从“”诸字的字形取得一致。
十五、《字表》中微调的44个汉字字型
44个微调的汉字字形
十六、《字表》发布后公众的反应情况
《通用规范汉字表(征求意见稿)》发布之后引起了较大的反应,据《字表》公开征求意见工作领导小组2009年9月2日公告,从8月12日到8月31日的二十天公开征求意见期间中,《字表》意见收集组共收到社会各界人士发来的电子邮件2688件、信函157件、传真67件,总计2912件。另外还有许多人士通过报纸、广播、电视、网络等媒体提出了大量的意见和建议。从公开征求意见情况来看,一是对字表公开征求意见的方式予以充分肯定;二是肯定字表的意义和作用;三是从不同角度提出了许多针对性强、富有建设性的主要集中在字形、补充用字和异体字三个方面的问题的意见和建议:
1,关于字形问题,44个汉字字形微调引起了社会广泛关注。大多数意见认为字形微调会改变长期以来形成的使用习惯,将给大众用字造成麻烦,担心影响学生学习、考试和增加社会成本,认为不宜轻易改动。
2,关于补充用字问题,要求补充用字的意见和建议占有很大比例,要求补充的字主要是姓氏、人名、地名、科技术语等方面的用字,大都是在语料库和许多渠道中难以收集到的社会用字。比如“外‘门’内‘合'、上‘亠’下‘思’、上‘比’下‘干’”等字。
3,关于异体字问题,多数意见赞成字表恢复51个异体字,认为这符合社会用字实际需要,比如“喆、淼、仝”等字。
另据报道,教育部语言文字应用研究所所长姚喜双在接受采访时透露:“据我们统计的数字,绝大多数公众是反对44个汉字微调的,这和网上的调查数据吻合。”对于此前有媒体所报道的教育部称67%的公众支持汉字微调与网上的八九成的不支持形成了鲜明的反差所引发了网友的质疑,姚喜双指出:“说67%的公众支持44个字的微调,是误传误报。据我们统计的数字,绝大多数公众是反对44个汉字微调的。这和网上的调查数据吻合。我们会把这个数据反映给专家组,请大家放心。”
虽然公众主要是对44个汉字字形微调的反对意见比较强烈,但大多是即兴式的情绪型呼吁,这在网络和报纸中是很明显的,而极少从理性上进行的认真研究讨论。我认为这主要有以下几个原因:
一是给公众征求意见的时间太短(从发布会到截止之日实际上不到二十天)、刊载的报纸普及面太窄(仅在发布次日即2009年8月13日的《中国教育报》上刊登),公众中的语言文字研究和爱好者根本来不及细致地潜心分析研究,且这些人大都是中老年人,都习惯于使用传统的纸质文本(如笔者,得知该消息后只有在网络上阅读《字表》及其说明等,得用好几天的时间,其后的分析思考中就来不及再仔细查阅核对相关纸质资料,而快捷方便的网络资料是不具有准确性的);
二是没有把微调的具体理由和有待讨论解决的问题向公众说明白;
三是专家等的意见似乎没有达成完全的一致(这在不少媒体采访的消息中是可以看出来的),有的专家等解释得十分勉强,特别是对公众的即兴质疑的答复使人感觉似乎是回避式的托词;
四是发布之前没先行向地方各级语言文字主管部门和媒体下发通知,各地方必须做的宣传引导工作阙如;
五是一些媒体特别是网站从自身人气的考虑而致使应有的公众智慧资源没能得以充分发掘采纳;
六是《字表》本身还存有一些问题,甚至出现了自相矛盾之处。
七是近些年中社会用字的不规范现象、“复繁”争议等问题使公众对汉字改动十分敏感甚至心存芥蒂。