“燚炎通用英汉平行语料库”新闻和小说子库发布
北京外国语大学 许家金、徐秀玲
燚炎语料库完整版可从这里下载:http://corpus.bfsu.edu.cn/info/1082/1693.htm
“燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)是按布朗语料库模式(Brown Corpus)创建的百万词级的平衡英汉平行语料库。该语料库取名为“燚炎通用英汉平行语料库”,从语音上,“燚炎”与“译言”谐音,表示库中所收为翻译语言;这一命名也是对“译言网”作为主要语料来源的鸣谢。从造字形态上,“燚炎”二字也暗示该语料库平行对齐的特点,以及倡导“众人拾柴火焰高”的众源翻译(crowd-sourced translation)之意。燚炎语料库由北京外国语大学许家金教授统筹设计。
现对外发布燚炎语料库的新闻和小说部分。用户可通过BSFU CQPweb语料库在线检索平台(http://114.251.154.212/cqp/)进行检索。
其中,新闻部分(A-C)包括新闻报道、社论、报刊评论等3个子类体裁,共计88个文本,英语原文规模为176,487个单词,对应的汉语译文规模为305,27个汉字。小说部分(K-R)包括一般小说、侦探小说、科幻小说、历险悬疑小说、言情小说、幽默等6个子类体裁,共计126个文本,英语原文规模为254,727个单词,对应的汉语译文规模为399,215个汉字。具体子类所收文本情况见下表。
体裁 类型 |
文类 代码 |
子类体裁 类型 |
文本 数量 |
英语原文 字数 |
汉语译文 字数 |
新闻 |
A |
新闻报道 |
44 |
88,284 |
14,9388 |
B |
社论 |
27 |
54,181 |
91,713 |
C |
报刊评论 |
17 |
34,022 |
64,173 |
共计 |
|
88 |
176,487 |
305,274 |
小说 |
K |
一般小说 |
50 |
100,739 |
159,330 |
L |
侦探小说 |
12 |
24,101 |
37,021 |
M |
科幻小说 |
12 |
24,317 |
38,838 |
N |
历险悬疑小说 |
13 |
26,443 |
42,394 |
P |
言情小说 |
30 |
60,976 |
94,352 |
R |
幽默 |
9 |
18,151 |
27,280 |
共计 |
|
126 |
254,727 |
399,215 |
新闻和小说语料全部采集自“译言网”(http://yeeyan.org),绝大多数文本的产出时间为2010年前后。
燚炎语料库既可以用于原文-译文的转换策略和对应关系研究,又可与原创汉语语料库(如ToRCH2009、ToRCH2014、ToRCH2019、LCMC、The UCLA Corpus of Written Chinese等)进行对比,考察翻译汉语的译语特征。
该部分语料的采集、整理、对齐工作多半由徐秀玲博士完成。在语料库的收集整理过程中得到熊文新教授、聂平俊老师等大力协助。