“燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)规模为260万字/词(100万单词英语原文,160万汉字译文)。该语料库可通过“北外CQPweb多语种语料库平台”(http://114.251.154.212/cqp/,账号:test;密码:test)在线检索。在线版燚炎语料库文本经spaCy进行标注,中文模型为“zh_core_web_sm”,英文模型为“en_core_web_sm”,标注集如下:
POS:DESCRIPTION
ADJ:adjective
ADP:adposition
ADV:adverb
AUX:auxiliary
CCONJ:coordinating:conjunction
DET:determiner
INTJ:interjection
NOUN:noun
NUM:numeral
PART:particle
PRON:pronoun
PROPN:proper:noun
PUNCT:punctuation
SCONJ:subordinating:conjunction
SYM:symbol
VERB:verb
X:other
SPACE:space
可从以下链接下载该语料库:
http://corpus.bfsu.edu.cn/Yiyan_Corpus.zip
语料库可用以下软件检索:
或
http://corpus.bfsu.edu.cn/SDAU-ParaConc.zip
“燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)是按布朗语料库模式(Brown Corpus)创建的百万词级的平衡英汉平行语料库。该语料库取名为“燚炎通用英汉平行语料库”,从语音上,“燚炎”与“译言”谐音,表示库中所收为翻译语言;这一命名也是对“译言网”作为主要语料来源的鸣谢。从造字形态上,“燚炎”二字也暗示该语料库平行对齐的特点,以及倡导“众人拾柴火焰高”的众源翻译(crowd-sourced translation)之意。希望该语料库能对各位的英汉翻译研究有所助益。
燚炎语料库由北京外国语大学许家金教授统筹设计。语料的采集、整理、对齐工作多半由徐秀玲博士完成。
该语料库为免费语料库,各位可与其他同行分享。
引用该语料库请注明: