当前位置: HOME >> CORPORA >> 正文

Yiyan corpus

发布者: [发表时间]:2020-03-07 [来源]: [浏览次数]:

“燚炎通用英汉平行语料库”新闻和小说子库发布

北京外国语大学  许家金、徐秀玲

“燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)是按布朗语料库模式(Brown Corpus)创建的百万词级的平衡英汉平行语料库。该语料库取名为“燚炎通用英汉平行语料库”,从语音上,“燚炎”与“译言”谐音,表示库中所收为翻译语言;这一命名也是对“译言网”作为主要语料来源的鸣谢。从造字形态上,“燚炎”二字也暗示该语料库平行对齐的特点,以及倡导“众人拾柴火焰高”的众源翻译(crowd-sourced translation)之意。燚炎语料库由北京外国语大学许家金教授统筹设计。

现对外发布燚炎语料库的新闻和小说部分。用户可通过BSFU CQPweb语料库在线检索平台(http://114.251.154.212/cqp/)进行检索。

其中,新闻部分(A-C)包括新闻报道、社论、报刊评论等3个子类体裁,共计88个文本,英语原文规模为176,487个单词,对应的汉语译文规模为305,27个汉字。小说部分(K-R)包括一般小说、侦探小说、科幻小说、历险悬疑小说、言情小说、幽默等6个子类体裁,共计126个文本,英语原文规模为254,727个单词,对应的汉语译文规模为399,215个汉字。具体子类所收文本情况见下表。


体裁

类型

文类

代码

子类体裁

类型

文本

数量

英语原文

字数

汉语译文

字数

新闻

A

新闻报道

44

88,284

14,9388

B

社论

27

54,181

91,713

C

报刊评论

17

34,022

64,173

共计


88

176,487

305,274

小说

K

一般小说

50

100,739

159,330

L

侦探小说

12

24,101

37,021

M

科幻小说

12

24,317

38,838

N

历险悬疑小说

13

26,443

42,394

P

言情小说

30

60,976

94,352

R

幽默

9

18,151

27,280

共计


126

254,727

399,215


新闻和小说语料全部采集自“译言网”(http://yeeyan.org),绝大多数文本的产出时间为2010年前后。

燚炎语料库既可以用于原文-译文的转换策略和对应关系研究,又可与原创汉语语料库(如ToRCH2009、ToRCH2014、ToRCH2019、LCMC、The UCLA Corpus of Written Chinese等)进行对比,考察翻译汉语的译语特征。

该部分语料的采集、整理、对齐工作多半由徐秀玲博士完成。在语料库的收集整理过程中得到熊文新教授、聂平俊老师等大力协助。