当前位置: HOME >> CORPORA >> 正文

“TED英汉平行演讲语料库”简介

发布者: [发表时间]:2019-09-24 [来源]: [浏览次数]:

      “TED英汉平行演讲语料库(TED English Chinese Parallel Corpus of Speech)”所收文本源自TED.com网站演讲视频英文转写及相应中文翻译。TED是英文Technology(科技)、Entertainment(娱乐)、Design(设计)三个单词的首字母缩写。从1984年开始,TED每年召开TED年会,邀请上述三个领域的精英在会上做简短讲演,原则上最长不超过18分钟。后来,演讲内容的范围远远超出科技、娱乐、设计三大领域,涉及自然科学、建筑学、商业、国际问题、医学等各个领域。2007年以后,精选的TED会议演讲视频、英文转写及多种语言的翻译通过TED.com网站上向公众免费开放。这正是TED会议的理念——传播启人心智的思想(spread inspiring ideas)。

      TED演讲的英文转写由TED公司内部人员完成,其翻译则是通过“众包(crowdsourcing)”的形式,由世界各地的翻译志愿者协作完成。TED为志愿译员提供交互式的在线翻译平台—Amara。世界各地的译员可在这一平台上协同完成翻译工作。为保证翻译质量,译员们完成的译稿都要由另一名译审审校。译员和审译在翻译上产生分歧时,可通过Amara平台及时沟通。TED网站还提供了翻译论坛,便于同种语言的译员探讨翻译难题。TED网站上每部翻译过的视频旁边都会注有译员和译审的名字,以表彰他们做出的贡献。为保证翻译风格的相对一致,TED网站在译者指南里规定TED演讲的语言风格为:正式中伴有随性、传统中蕴含现代、普适而兼有个性、立足区域涵盖全球(informal over formal, modern over traditional, personal over generic, and global over regional)。这样的风格概括也是TED演讲语言的特点写照。

     TED英文演讲被译成多种语言,人们据此可以创建双语或多语平行语料库,以作语言研究之用。“TED英汉平行演讲语料库”取自M. Cettolo, C. Girardi & M. Federico(2012)收集TED文本并整理对齐的WIT3语料库(23中语言*22语言的翻译语料库)。本研究所使用的语料库来自其中的英汉平行语料。

     “TED英汉平行演讲语料库”由英汉两个句级对齐文本组成,分别命名为EN_TED.txt和CN_TED.txt。从WIT3语料库取得的英汉语料存在数万行不对齐的情况,我们对语料做了逐行校对,并删去了一些背景介绍、表情手势等非语言注释文字,从而得到6,187,849字词的英汉语语料。语料的初步收集、整理和后期校对由许家金完成,英汉文本对齐校对由乔伟完成。

语料库容量的具体信息,详见下表。

              英文文本; 中文文本

字(词)数 2,479,377;3,708,472

行数   314,873;314,873

总字(词)数  6,187,849

注:用于确定英文单词数量的正则表达式为:[a-zA-Z0-9-]+;汉语字数是用表达式[\u4e00-\u9fa5]|[a-zA-Za-zA-Z0-90-9\.%%]+检索获得。

许家金(整理),2012,TED English Chinese Parallel Corpus of Speeches 1.0(TED英汉平行演讲语料库1.0)。

参考文献及相关网站

Cettolo, M., C. Girardi, & M. Federico. 2012. WIT3: Web Inventory of Transcribed and Translated Talks. In Proc. of EAMT, pp. 261-268, Trento, Italy.

WIT3: Web Inventory of Transcribed and Translated Talks网站:https://wit3.fbk.eu/

www.TED.com

http://en.wikipedia.org/wiki/TED_%28conference%29

Publications based on TED parallel corpus

  • 杨京鹏、吴红云,2017,英汉虚构运动事件词汇化模式对比研究——以toward(s)为例,《外语教学与研究》(1):15-25。

  • 杨京鹏、吴红云,2017,空间界态的句法语义接口研究——以运动事件的英汉词汇化模式对比为例,《外语学刊》(4):45-50。

  • 陈树坤,2015,投射语义辖域视角下附加语功能句法分析,《外语研究》(3):36-41。

  • 刘婧、李福印,2017,致使义视角下的“使”字句及其英语表达形式——一项基于平行语料库的调查,《西安外国语大学学报》(1):39-45。