不支持Flash
|
新浪教育 > 正文
四、语言文字使用的若干数据
报纸、广播电视、网络(新闻)用字用词用语调查,是每年语言实态调查的基本项目。2007年调查语料10.07亿汉字、12.36亿字符次。重点进行了2005年、2006年、2007年三年数据的比较。
(一)汉字使用情况
对汉字使用情况的调查结果显示:
1.高频字(覆盖率达到80%,90%,99%)数量稳定。低频字(频次低于10次)随机偶然出现。
2005年、2006年、2007年的数据调查分别是在7.32亿、9.79亿、10.07亿字的语料上进行的,三年数据调查的语料量不同,总字种数也不同。2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595;达到90%的字种数分别是943、958、964;达到99%的字种数分别是2314、2377、2394。从高频字占总字种数的比例来看,随着总字种数的增加,高频字的比例呈减小的趋势。这些数据表明高频字并不会随语料规模或字种的增加而增多,而是趋于保持稳态。这说明高频字的使用具有很强的稳定性,当语料规模达到一定的值之后,高频字的分布总是比较均匀,语料中所增加的字种数多为偶然使用,对高频常用字的分布影响不大。
对比三年的前600(覆盖率达到80%以上)最高频率用字,可以很好地看出社会语言生活的变化。如:“涨、季、盘、楼、均”等字在2007年进入前600,而这些字在2006年、2005年均在600位之后。
2005年、2006年、2007年低频字的数量分别是1650、2362、3147,从低频字占总字种数的比例来看,总字种数越少,低频字的比例越低。表明低频字的出现会随着语料规模的增大,随机偶然出现。
2.与现行规范字表对比:每年的用字总表与现行规范字表之间的差异大于年度字表之间的差异。
2005年、2006年、2007年用字总表都与现行规范字表之间存在着差异。取三年用字总表的前2500字与一级常用字比较,有差异的字数分别是357、331、334字;取三年用字总表的前3500字与《现代汉语常用字表》比较,差异字数分别是398、388、396;取三年用字总表的前7000字与《现代汉语通用字表》相比,差异字数分别是506、517、654。将每一年用字总表与现行规范字表之间的差异字进行比较,年度用字总表与现行规范字表之间的差异大于年度用字总表之间的差异。