新浪首页 > 新浪教育 > 英语辅导报社专栏 > 英语辅导报大学教师版:英语语料库与词典编纂

英语辅导报大学教师版:英语语料库与词典编纂
http://www.sina.com.cn 2004/11/30 12:46  英语辅导报

  语料库(corpus)是指在随机采样的基础上收集的有代表性的语言材料的总汇,是语言运用的样本。用语料库进行语言研究,如编写词典、编写语法书等,可追溯到19世纪末。当时以制作卡片和人工检索为主要手段,建库速度慢,容量有限,而且检索也不方便。近二三十年来,语言学家开始用计算机对大量的语料进行取样、储存、分类和统计分析。如英国伯明翰大学的柯伯国际语言数据库(COBUILD)早在1980年就开始运转。该语料库就是著名的"英语库"(Bank of English)的前身。计算机语料库的最大优势就在于它的巨大容量:英语库收词已达到4.5亿个;英语国家语料库(The British National Corpus)收词1亿左右;世界英语语料库(World English Corpus)收录了2亿词;美国的蓝登书屋动态词典数据库(Random House Living Dictionary Database)收词1.4亿个。随着社会的发展,各语料库的容量仍在持续膨胀。计算机语料库的另外一个优点就是资料真实(authentic),可信度强。语料库里存储的数据来自现实世界的方方面面:报刊杂志、小说、戏剧、广播、电视等等。不仅有各种文体的书面语,还有各种场合的口语体。一般说来,语料库收集的书面语材料要比口语材料多。如"英国国家语料库"的1亿词中,书面材料占80%,口语材料仅占20%。语料库还有一个特点是信息提取快而准。大型语料库的收词动辄上亿,但搜寻需要的信息并不会很麻烦。因为计算机已给每个词加注了各种标记(tagging)。检索者通过特殊的标记就可轻松地获得需要的信息。

  语料库的语料输入先后经历了手工抄写、打字输入、计算机键盘输入、光电扫描/语音输入四个阶段。前两种输入法用于早期建立规模较小的卡片式语料库。由于计算机技术的飞速发展和日益普及,光电扫描已经成为书面语输入的标准手段,对于口语材料则可采用语音识别加人工校正的方法进行输入,因此建立大规模语料库在技术上已经不成问题。但是语料多少并不是决定语料库质量的唯一标准。现在,互联网日益普及、电子出版物已成时尚,从各媒体获取大量语料已是举手之劳。关键是语料库中的语料都被分类整理过,并被加上了各种标记,这样语料库就成了机器可读的形式(machine-readable form),经操作员在计算机终端上的编辑和修改,最终提供给语言学家做各种研究。不加标记的语料很难用于语言研究。加注标记的工作可以由专门的软件来完成。ICE(国际英语语料库)中口语资料的标记例子:<$A\>:speaker identification (说话者身份),<#\>: sentence boundary(句界限), <,>: short pause(短停顿), <,,>: longer pause (长停顿)等。

  计算机语料库的诞生给现代语言学和语言教学注入了新的活力。语料库可以从多方面、多层次描述语言并且验证各种语言理论和假设,甚至建立新的语言模式和语言观。对语料的研究又被称为语料库语言学。语料库语言学已经迅速发展成为一门跨世纪的语言研究学科。语料库研究通常包括三个部分:1. 收集大量语言信息以建立语料库;2. 用计算机程序对语料库资料进行语音、句法或词性等各种特征的注释;

  3. 设计与语料库配套使用的电脑检索软件。

  语料库的使用也给词典编纂带来了一场革命。词典编纂可以充分利用计算机语料库容量大、资料可信度强、信息提取快而准的优势。柯伯国际语言数据库一马当先将语料库资料运用于词典编纂,于1987年出版了《柯林斯英语词典》(Collins COBUILD English Language Dictionary)。此后,牛津、朗文、剑桥、麦克米伦(Macmillan)等跨国大出版社在编纂学习词典时也都群起效法。计算机语料库在词典编纂上广泛地受到了重用,形成了一股势不可挡的潮流,以至现在几乎所有的英国和美国大型英语词典都以若干语料库为编纂基础,并引以为时尚。1998年出版的《新牛津英语词典》(The New Oxford Dictionary of English)的编纂以"英语国家语料库"为主要依据,同时还参考了其他几个语料库,包括美国英语的语料库。

  具体来说,语料库在词典编纂中起着以下几个主要作用:1. 作为选词和撰写释义的依据。依靠庞大的语库信息和计算机统计技术的使用,词目和义项选择的科学性大为提高。精确的计算机统计可以使每个单词及义项的出现率等问题找到具体可靠的科学答案,因而词语释义也更为精准。2. 提供大量词的用法和搭配资料。大型语料库里储存的数据来源广泛,包括了各种文体的言语和各种各样的具体语境。经整合筛选,词的用法和搭配更具代表性和普遍性,从而也更加科学、可靠。3. 提供大量真实的例证。具体语境中的词语,会给词典使用者提供附加的理解词语和运用词语的信息。基于大型语料库,词典编纂者提供的例证选自现实世界,使用"活生生"的语言,真实可信。最后,计算机技术的应用也使各类词典的修订周期越来越短。原来学生词典的修订周期一般要十年左右,今后可能只需要一年半时间。这对我们千千万万的词典使用者来说又何尝不是个好消息?

  (文/孟 臻 邵星华 英语辅导报大学教师版04~05学年第9、10期;版权归英语辅导报社所有,独家网络合作伙伴新浪教育,未经许可,不得以任何形式进行转载。)


评论英语学习论坛】【 】【打印】【关闭



Annotation


新闻查询帮助

热 点 专 题
深圳健力宝获中超冠军
意甲德比言和
2005中国国际时装周
男人为什么喜欢车
女人与车的美丽约会
家居家装实用图库
北京打折楼盘信息汇总
娱乐风月图鉴
刘翔自传:我是刘翔



教育频道意见反馈留言板 电话:010-62630930-5178 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2004 SINA Inc. All Rights Reserved

版权所有 新浪网
北京市通信公司提供网络带宽