当前位置: HOME >> CORPORA >> 正文

中国英语学习者梨子故事综合语料库建成

发布者: [发表时间]:2019-09-24 [来源]: [浏览次数]:

“中国英语学习者梨子故事综合语料库”(中文简称“梨子故事语料库”。语料库英文名称为Chinese Learners’ Integrated Pear Stories,简称CLIPS语料库)。

注:CLIPS语料库标识含义说明。这种金属扣英文称为pear clip,即“梨形扣”。另外,CLIPS语料库中的所有语料源自学习者对“梨子故事”视频短片(video clip)复述。

CLIPS语料库中共包含5种类型梨子故事叙事话语,合计2,728个文本。其有635个中国学习者英语口头梨子故事文本,581个汉语口头梨子故事,1,146个英语书面语梨子故事文本,166个汉语书面语梨子故事文本,以及32个英语本族语口头梨子故事文本。另有两个班级的实验语料(一个班,即语料库SPECIAL文件夹中的Class_1_CNB4EN,按先汉语口语,再英语口语,最后英语书面语的顺序收集梨子故事;另一个班,即语料库SPECIAL文件夹中的Class_2_ENB4CN,按先英语口语,再汉语口语,最后英语书面语的顺序收集梨子故事)168个文本。

CLIPS语料库包含英语梨子故事500,996词(英语词次统计正则式为:[a-z0-9]+)和中文梨子故事315,136字(汉语字数统计正则式为:[\u4e00-\u9fa5]|[a-z0-9]+),两者合计816,132字/词。

The CLIPS corpus (Chinese Learners’ Integrated Pear Stories corpus): a corpus of spoken and written English/Chinese narrative discourse produced by EFL college students based on the video prompt 'The Pear Stories' film. The corpus was designed and developed by Jiajin Xu. The CLIPS corpus is composed of 500,996 English words (word definition regex: [a-z0-9]+) and 315,136 Chinese characters (Chinese character definition regex: [\u4e00-\u9fa5]|[a-z0-9]+), totalling 816,132 English words and Chinese characters.