近年来,运用语料库来对语言现象进行更加深入和可靠的研究已经得到了越来越多的学者们的重视。语料库(corpus)通常指为语言研究收集的、用电子形式保存的经过赋码的语言材料的集合。它由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源和研究工具(傅爱平,“语料库研究与应用综述”)。
语料库的研究和运用曾经有过曲折。1950年代以前,在西方学术界,本质上是经验主义的语料库研究方法并不被以乔姆斯基为代表的理性主义的形式语言学家们重视,加上传统的语言材料的搜集、整理和加工完全是靠手工进行的,是一件枯燥无味、费力费时的工作,难于坚持下去,而且那些不是基于现代计算机技术的语料库其功能并不强大,使用也并不方便,故客观上造成难于普及开来的局面。
大约从1960年代起,由于语言学中的经验主义方法的东山再起,注重语言事实的传统重新抬头,大多数西方学者认为,语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。随着现代计算机功能的逐渐完善和强大,原先完全靠手工操作的工作开始交由计算机去做,这就大大地减轻了人们的劳动强度。这样,功能强大并且实用的语言语料库就建立起来了。后来,在这种工作中人们逐渐创造了一些独特的方法,提出了一些初步的理论,形成了一门新的学科――语料库语言学(corpus linguistics),它其实是语言学和计算机科学交叉形成的一门边缘学科(冯志伟,导读)。
目前,语料库语言学主要研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注和句法语义分析,以及语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编纂、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解和机器翻译等领域中的应用(冯志伟,导读)。
中国的学术研究在1970年代末打开国门后再次受到西方先进学术理论和方法的影响,研究者开始系统地介绍和运用西方学术界流行的学术理论和研究方法,并且取得了十分丰硕的成果。其中,得益于现代计算机科学和技术的加速发展和普及,中国的语言学家们和计算机专家并肩合作,建立起了数量众多的语料库,如现代汉语通用语料库、《人民日报》标注语料库、北京语言大学汉语中介语语料库和现代汉语研究语料库、中国社会科学院语言研究所北京地区现场即席话语语料库、台湾中央研究院历史语言研究所的现代汉语平衡语料库(简称Sinica Corpus)、清华大学现代汉语语料库和TH通用语料库、山西大学专有名词标注语料库和分词与词性标注语料库、哈尔滨工业大学和中国科学院计算技术研究所汉英双语语料库等(傅爱平,“语料库研究与应用综述”)。
广东外语外贸大学以杜金榜教授为首的法律语言学研究团队近年也建立起了一个法律语言语料库。这是广东省哲学社会科学“十五”规划中的一个研究项目,叫做“基于语料库的法律语篇信息结构汉英对比研究”。该研究课题的一项中心任务就是要把该语料库建设成为一个强大的法律语言信息库的核心子库,具有兼容性,允许与其他相关信息子库对接。该语料库主要分为法律汉语子库和法律英语子库。各库之间建立对接机制,并同时能与其他信息子库如音像子库通过网络连接(见杜金榜撰写的广东省哲学社会科学“十五”规划一般项目申请书“基于基于语料库的法律语篇信息结构汉英对比研究”)。该研究团队经过近两年艰苦细致的语料标注已经将大量的各类语料处理并入库,库中的语料已经能被包括该校研究生在内的研究者使用。该校研究生的学位论文选题可以出自该语料库包含的课题,论文中所用的语料可以全部和部分地来源于该语料库。使用者抽取里面的语料,对语料加以分析、统计、综合和归纳,佐证自己的研究假设,使自己的研究更具可靠性和说服力。
由上可见,语料库的建设和使用以及由此而产生的语料库语言学在学术界方兴未艾,语料库以其强大的实用性和研究资料的可靠性赢得了众多研究者的青睐。语料库完全应该成为包括法律语言学研究者在内的语言学家的一个有效和可靠的研究工具,因为“人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法不仅效率极低,而且带有很大的主观性和片面性”(冯志伟,导读)。而且,从研究方法上来讲,研究者应该是理性主义和经验主义的研究方法并重,不应偏废。语料库可以是定量研究中得力的工具。
语料库是语言知识的宝库,是最重要的语言资源,同时也是语言学家有力的研究工具。语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言“直觉”和“内省”判断,从而克服研究者本人的主观性和片面性。语言学家利用语料库来研究语言学,正如天文学家利用望远镜来研究天文学和生物学家利用显微镜来研究生物学一样,能够使他们的研究如虎添翼,其意义是非常重大的(冯志伟,导读)。在语言研究中,语料库方法是一种经验主义的方法,它能给研究者提供大量的自然语言材料,有助于研究者根据语言实际得出客观的结论,这种结论同时也是可观测和可验证的(傅爱平,“语料库研究与应用综述”)。在计算机技术的支持下,语料库方法对语言研究的许多领域产生了越来越多的影响,“有可能引起语言学理论和方法的重要变革”(潘永梁,导读)。而且在发展语料库研究方法的同时,并不排除乔姆斯基的学派的内省的演绎方法(同上)。
语料库的应用可以十分广泛。英国伯明翰大学教授霍斯顿(Hunstom)(2006)在其著作《应用语言学中的语料库》(Corpora in Applied Linguistics)的第五章“语料库在应用语言学中的应用”专门论述到了语料库在法律语言学中的运用问题,我们可以将其看作语料库在法律语言学中的应用的一个方面。霍斯顿指出,语料库可以帮助研究者迅速地鉴定可疑磁带录音的语音,确定犯罪嫌疑人在被捕时是否理解了向他们提出的问题,判断两个不同的文件是否为同一个人所写,判断一个文件是一个人写的还是两个不同的人写的。语料库技术可以用来确定文件的内容是说什么的,或者用来分析文件中语言的性质以便区分其中哪些是真实的,哪些是不真实的(见冯志伟,导读)。
除了现成的语料库之外,研究者可以自己针对性地收集资料,建立自己的小型语料库。一般小型语料库包含的文本不宜少于15篇。这种方法近年来已经被许多中外学者采用。
需要指出的是,语料库并不是全部的研究方法和手段,它不能取代其他有效的研究方法。语料库的局限性在于,语料库只能提供语言事实的例证,但是不能对它进行解释,不能进行推理,也不能为文本数据直接地提供文化和社会背景等方面的信息。所以,它在辅助人们的语言“直觉”和“内省”判断的同时,离不开研究者本人的语言“直觉”和“内省”,因为科学研究中的客观知识离不开主观知识,就像主观知识离不开客观知识一样(冯志伟,导读)。因此研究者在拿到语料后,应该对其进行分析、统计、归纳和综合,发现其内在的意义,来支持自己的研究假设和结论。
参考书目和网页
傅爱平.“语料库研究与应用综述”(http://ling.cass.cn/yingyong/courses/corpusbase.htm). 冯志伟.“导读”.应用语言学中的语料库.北京:世界图书出版公司,2006. 杜金榜.广东省哲学社会科学“十五”规划一般项目申请书“基于基于语料库的法律语篇信息结构汉英对比研究”,2005. 潘永梁.“导读”.语料库语言学.北京:外语教学与研究出版社,2000. 霍斯顿·苏.应用语言学中的语料库.北京:世界图书出版公司,2006.
|