不支持Flash
|
新浪教育 > 正文
(二)词语使用情况
对词语使用情况的调查结果显示:
1.年度之间词语的使用变化很大,但高频词语的使用稳定,词语覆盖率的分布稳定
年度之间的相同词种数平均占到年度词种数的22.1%。无论全部语料还是各媒体语料,年度之间的用词用语差别较大,每年都有大量的独用词语出现。这些独用词语记录着年度词语使用的变化情况。
高频词语(覆盖率达到90%的词语)使用具有很强的稳定性。年度间词种数的变化很大,但年度间高频词语的差别不足1000条,年度间共同使用的高频词语平均占高频词语的85.76%。《中国语言生活状况报告》(2007)下编列出了2007年度高频词语表。
高频词语中的年度独用词语,多反映了当年的社会热点。如2007年排在前面的高频独用词语“减排、炒股、嫦娥、生猪”等,与年度流行语十分类似,反映了当年的社会生活和重要事件;排在2006年高频独用词语前面的“荣辱观、馒头、核试验”等词则与当年的社会主义荣辱观教育、娱乐界的“一个馒头引发的血案”、朝鲜核武器试验等事件密切相关。
每年的词种数无论在数量还是词形上,都有很大的差别,但从词语覆盖率的分布来看,三年表现出很强的一致性,三年不同覆盖率下的词语分布,只在覆盖率达到99%以上时略有差异。
2.成语习用语的使用
2007年尝试性地对语料中的成语和习语进行了调查。从调查结果来看,自动分词语标注软件还需进一步提高对成语和习语的识别。成语习语的使用无论在词种上还是词次上,比例都小于1%。
3.流行语
2007年度流行语的提取首次融合了报纸、广播电视、网络(新闻)三种媒体语料,三个分中心采用统一的技术路线,分别自动提取各媒体上的候选流行语后,再进行整合,最终得到“2007年度中国媒体十大流行语”。2008年1月14日,年度流行语由国家语言资源监测与研究中心、北京语言大学、中国传媒大学、华中师范大学、中国新闻技术工作者联合会、中国中文信息学会六家机构联合发布。这是流行语的第十一次发布。
流行语记录了年度的社会生活,2007年的“中国媒体十大流行语”在常规的“综合类、国内时政类、国际时政类、经济类、教育类、科技类、社会生活类、文化娱乐类”外,新增了“奥运专题、金融专题、构建和谐社会专题、民生专题”等,凸显了2007年度社会生活的主题和特色。
4.新词语
新词语是语言对社会变化表现最敏感的部分,它凸显了语言的动态变化,是语言监测的重要内容之一,也是人们关注的焦点。2007年的新词语监测工作,是在国家语言资源监测语料库中2007年度10.07亿字语料的基础上做的,采用先机器提取、后人工干预的方法,并通过网上公布、听取群众意见,最终采集了254条新词语。
这些新词语表现出的特点有:第一,多字词语占优势。其中三字词语36.61%,四字词语28.35%,两者合计近65%。第二,大量使用词语模类推构词,词族化表现明显,运用较多的类后缀有“~族、~客、~奴、~友、~门、~吧、~日”等。词族化的新词语占27.55%。第三,名词性词语最多,占91.33%。第四,构成材料以汉字为主,兼有别样。254个新词语中有13个字母词。第五,新词语来源于多个渠道,分布在不同领域,反映了社会生活的方方面面。其中生活、文化、科技和经济领域产生的新词语较多,占67.32%。