按照“首届语料库翻译学暑期讲习班”的培训安排,7月9-10日两天,《当代语言学》杂志主编顾曰国教授以其多年构建的多模态语料库为例,对语料库研制与开发所涉及的理论以及实际操作中潜在的问题进行了详细论证和介绍。
在7月9日的讲座中,顾教授主要论述了多模态语料库构建的理论基础。他首先明确了其所言及的多模态是指包括感官以及处理由此感官产生的感觉信息的神经系统,采取的是以多模态充盈亲历和多模态充盈信息为指导思想的研究思路。他旗帜鲜明创造性地提出亲历是语言的本源,亲历与语言是互生互长的,并构建了基于亲历的语言研究三E模型。他采用生动鲜活的例证论说了从亲历入手是研究语言的新视角,极有可能为语言研究带来新的革命性变化,这也是他创造现场即席话语多模态语料库的动因。
接着,顾教授详细介绍了现场即席话语多模态语料库的创建,直接把大家带到国际语料库建设的前沿。他指出任何语料库的建设必须要有明确的建库目的,并对区分了四类不同的语料库建库目标,现场即席话语多模态语料库的创建旨在进行探索性数据采录和分析,其次用于辞典编撰和口语教材开发。该语料库的构建基于人们日常生活的活动轨迹网及其规律,采用层次范畴化取样方法进行语料采集。顾教授还述说了场景和活动两个切分范畴以及任务和插曲的区别。此外,顾教授还结合自己建库的经验教训,给予了学员许多建库提醒,如:声频视频存储格式、语料物理储存、录音卡填写等等。最后他指出,对语言的深入研究有赖于计算语言学和语料库语言学的共同努力,但目前计算机技术对自然语言处理,包括机器翻译,仍面临相当大的困难,近年内难有重大突破,而语料库语言学有其独特的优势,具有广阔的发展前景。
7月10日,顾教授主要介绍了多模态语料库的切分与标注,并详细演示了Praat和Elan两个音频视频切分标注软件的使用。他首先介绍了目前计算机技术处理文字语料库、音频流、视频流的能力,并提出了切分与标注的四个必备条件:1)切分和标注的目的,即通过切分与标注你想得到什么样的信息;2)根据这个目的构建切分与标注的数据模型;3)编辑好需要进行切分标注的音频视频材料;4)有用于切分与标注的工具。针对学员缺乏数据模型构建意识,他还特别强调了数据模型构建的重要性,并以例证对数据模型构建进行了说明,他指出数据模型不仅使得自己的研究具有更强的操作性,也使得研究数据可被再验证。
紧接着,顾教授详细演示了Praat和Elan两个语料库处理软件的使用,他一步一步带领各位学员进行软件操作,十分耐心细致,对于不熟悉的学员,他走下讲台,手把手教学。其后,结合他所做的研究——语力与韵律和情感之间的互动关系,他向各位学员展示了如何利用两个软件实现多模态语料库的切分和标注并进行深入研究。在对数据处理的过程中,顾教授特别指出研究数据必须真实,不可违背学术研究道德。他还介绍了利用Praat以及双屏或多屏显示进行同声传译涉及的语言对比研究以及同声传译所传达的情感研究。
在提问环节,山东农业大学尚延延提出标注的分类标准问题。顾教授认为不同视角显然存在不同的分类标准,但科学的研究必须遵循两个点:1)在研究中申明自己的分类标准;2)必须在整个研究中一以贯之。淮北师范大学孟留军提出如何存储处理好的音频视频文件。顾教授建议在大型的语料库建设中必须构建project,以便于后续管理。同时还指出Elan软件可以进行Excel等格式导出保存。顾教授还针对面对角色的建模问题进行了解释,并指出软件的应用有待于大家进一步操作,所谓“师傅领进门,学艺靠个人”。 最后讲座在热烈的掌声中落下帷幕。
顾教授学识渊博,兼取众家所长,深奥的道理能以极其浅显的语言或日常生活中的例子进行表述,使之十分明了。讲座旁征博引,幽默风趣,例证精彩纷呈,课堂笑声不断。所涉内容丰富多彩,引领国际前沿,让人耳目一新。讲座中所体现出来的批判及创新精神让各位学员为之折服,展现了一代学者风范。
地址:中国上海东川路800号304永利集团官网入口闵行校区杨咏曼楼
邮编:200240 网址:http:
电话:021-34205664 (党政办公室) 021-34204723(教学科研办公室)
Copyright @ 2017 All Rights Reserved 3044am永利(集团)官方网站-Official Platform