当前位置: HOME >> FLERIC News >> Content

燚炎英汉平行语料库免费下载

发布者: [发表时间]:2021-04-15 [来源]: [浏览次数]:

      “燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)规模为260万字/词(100万单词英语原文,160万汉字译文)。该语料库可通过“北外CQPweb多语种语料库平台”(http://114.251.154.212/cqp/,账号:test;密码:test)在线检索。在线版燚炎语料库文本经spaCy进行标注,中文模型为“zh_core_web_sm”,英文模型为“en_core_web_sm”,标注集如下:

POSDESCRIPTION

ADJadjective

ADPadposition

ADVadverb

AUXauxiliary

CCONJcoordinatingconjunction

DETdeterminer

INTJinterjection

NOUNnoun

NUMnumeral

PARTparticle

PRONpronoun

PROPNpropernoun

PUNCTpunctuation

SCONJsubordinatingconjunction

SYMsymbol

VERBverb

Xother

SPACEspace

      可从以下链接下载该语料库:

http://corpus.bfsu.edu.cn/Yiyan_Corpus.zip

      语料库可用以下软件检索:

      或

http://corpus.bfsu.edu.cn/SDAU-ParaConc.zip

     “燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)是按布朗语料库模式(Brown Corpus)创建的百万词级的平衡英汉平行语料库。该语料库取名为“燚炎通用英汉平行语料库”,从语音上,“燚炎”与“译言”谐音,表示库中所收为翻译语言;这一命名也是对“译言网”作为主要语料来源的鸣谢。从造字形态上,“燚炎”二字也暗示该语料库平行对齐的特点,以及倡导“众人拾柴火焰高”的众源翻译(crowd-sourced translation)之意。希望该语料库能对各位的英汉翻译研究有所助益。

      燚炎语料库由北京外国语大学许家金教授统筹设计。语料的采集、整理、对齐工作多半由徐秀玲博士完成。

      该语料库为免费语料库,各位可与其他同行分享。

      引用该语料库请注明: