CECPC-Core语料库简介
CECPC (China English-Chinese Parallel Corpus)即“中国英汉平行语料库”,是国家社科基金重大项目“大规模英汉平行语料库的建立与加工”(10zd&127)的研究成果,由北京外国语大学王克非教授主持搭建。CECPC语料涵盖文学、新闻、政论、科技、应用文等5大类和18个子类,按照英汉2/3、汉英1/3的原则收集语料,总体量超过1亿字/词。该语料库是已建成的世界上最大的英汉双语双向平行语料库,可用于各类英汉语言与翻译的比较研究和其他相关研究,开展相关的语言与翻译教学和双语词典的研编,推进自动翻译的研究,可以为社会提供在线语料检索,方便学习者、研究者和翻译者使用。CECPC的特点和要点可以归纳为:超大规模、深度加工、多项检索、软件兼容、语料平衡、双语双向、共时历时、通用专门、笔译口译。
CECPC-Core语料库顾名思义,是对CECPC各文体随机抽样后组成的核心子库,继承了前者的优势与特点,分为文学与非文学两大文类,涵盖科技、科普、社会科学、新闻报道、贸易、法律、文学等体裁,总字/词数近1800万,文本已经过句对齐与分词赋码处理,可实现在线双语检索。语料库体裁分布及字词数统计如下:
CECPC-Core语料库信息统计表