CONE简介
规模5000万词的CONE语料库(The CONE Corpus: A Corpus of Oral, Network, and Edited Chinese)采用"口头汉语(Oral)—网络汉语(Network)—书面汉语(Edited)"三位一体的建库理念,旨在反映当代汉语在不同媒介和不同语域中的使用情况。
| 子库 | 中文名称 | 参照框架 | 语料规模 |
|---|---|---|---|
| OralCONE | 口头汉语子库 | ICE(Greenbaum & Nelson, 1996) | 约1700万词 |
| NetworkCONE | 网络汉语子库 | CORE(Biber & Egbert, 2018) | 约1700万词 |
| EditedCONE | 书面汉语子库 | Brown(Francis & Kučera, 1964) | 约1700万词 |
CONE的设计分别借鉴了英语语料库建设中三项代表性成果:ICE(国际英语语料库)、CORE(网络语域英语语料库)与Brown Corpus(现代标准美式英语书面语料库)。
建库原则
平衡性
三个子库规模基本相当,避免单一语域占据主导地位。
代表性
各子库均采用国际成熟语料库框架作为参照标准,确保采样方案具有较高的代表性和可比性。
前大模型原则
NetworkCONE与EditedCONE全部选取2022年及以前的文本,以规避生成式人工智能内容对语料真实性的影响。
OralCONE:口头汉语子库
建库背景
既往汉语口语语料库建设成果包括:北京口语调查项目(宋孝才,1987)、北京地区现场即席话语语料库(顾曰国,2002)、城市青少年汉语口语语料库(许家金,2009)、BCC语料库口语子库(荀恩东等,2016)、CCL语料库口语子库(詹卫东等,2019)以及DiSCUSS语料库(许家金等,2022)。OralCONE在继承上述成果的基础上,进一步构建大规模、系统化的现代汉语口语语料资源。
建库框架
OralCONE采用国际英语语料库(ICE)的口语采样框架。ICE项目由Sidney Greenbaum于1988年发起,其口语部分继承了伦敦大学学院"英语用法调查"(Survey of English Usage)项目的丰富经验,被广泛认为是国际口语语料库建设的重要标准。
时间分布
OralCONE的语料主要来自近5至10年的真实口语材料,重点反映当代汉语口语的最新发展状况。
NetworkCONE:网络汉语子库
建库背景
随着互联网,特别是移动互联网的发展,网络语料已成为现代语言研究的重要对象。然而,相较于英语,汉语仍缺少一个覆盖各类网络语域的大规模平衡语料库。CORE框架已扩展至多种语言,包括FinCORE(芬兰语)、FreCORE(法语)、SweCORE(瑞典语)等。NetworkCONE是该框架在汉语领域的重要实践。
框架调整
在借鉴CORE架构的基础上,NetworkCONE根据汉语语料建设需求进行了相应调整:
明确性原则——删除分类边界不够清晰的类别,仅保留能够稳定识别和准确归类的网络语域。
互补性原则——删除与其他两个子库高度重叠的类别(口语类、小说类、回忆录类、学术论文类、杂志文章类、社论类),确保三个子库形成互补结构:OralCONE体现真实口语,NetworkCONE体现网络交际,EditedCONE体现正式书面语。
时间分布
NetworkCONE主要集中于2018—2022年,所有文本均为2022年及以前发表的网络内容,从时间上尽可能规避人工智能生成文本的影响。
EditedCONE:书面汉语子库
建库背景
EditedCONE采用经典Brown Corpus模式建设,是面向现代标准书面汉语的大型平衡语料库,语料规模约1700万词。Brown Corpus(Francis & Kučera, 1964)是现代平衡语料库建设的重要里程碑,其分类体系已广泛应用于多种语言。
Brown框架传统
EditedCONE所继承的Brown框架系列语料库项目:
汉语语料库:
汉语译文语料库:
英语语料库:
多语种语料库:
时间分布
EditedCONE全部选取2022年及以前出版的书面文本,不包含2022年之后的内容,从时间上规避生成式人工智能文本的影响。
MiniCONE计划
CONE团队将进一步建设精简版MiniCONE语料库,总规模约300万词。
语料库引用方式
使用CONE语料库开展研究时,请引用以下文献:
语料库访问
致谢
CONE语料库的建设得到了多位硕博士生的大力支持。