Section I

CONE简介

规模5000万词的CONE语料库(The CONE Corpus: A Corpus of Oral, Network, and Edited Chinese)采用"口头汉语(Oral)—网络汉语(Network)—书面汉语(Edited)"三位一体的建库理念,旨在反映当代汉语在不同媒介和不同语域中的使用情况。

子库 中文名称 参照框架 语料规模
OralCONE 口头汉语子库 ICE(Greenbaum & Nelson, 1996) 约1700万词
NetworkCONE 网络汉语子库 CORE(Biber & Egbert, 2018) 约1700万词
EditedCONE 书面汉语子库 Brown(Francis & Kučera, 1964) 约1700万词

CONE的设计分别借鉴了英语语料库建设中三项代表性成果:ICE(国际英语语料库)、CORE(网络语域英语语料库)与Brown Corpus(现代标准美式英语书面语料库)。

Section II

建库原则

平衡性

三个子库规模基本相当,避免单一语域占据主导地位。

代表性

各子库均采用国际成熟语料库框架作为参照标准,确保采样方案具有较高的代表性和可比性。

前大模型原则

NetworkCONE与EditedCONE全部选取2022年及以前的文本,以规避生成式人工智能内容对语料真实性的影响。

Section III
OralCONE · 口头汉语子库

OralCONE:口头汉语子库

ICE — International Corpus of English(Greenbaum & Nelson, 1996)

建库背景

既往汉语口语语料库建设成果包括:北京口语调查项目(宋孝才,1987)、北京地区现场即席话语语料库(顾曰国,2002)、城市青少年汉语口语语料库(许家金,2009)、BCC语料库口语子库(荀恩东等,2016)、CCL语料库口语子库(詹卫东等,2019)以及DiSCUSS语料库(许家金等,2022)。OralCONE在继承上述成果的基础上,进一步构建大规模、系统化的现代汉语口语语料资源。

建库框架

OralCONE采用国际英语语料库(ICE)的口语采样框架。ICE项目由Sidney Greenbaum于1988年发起,其口语部分继承了伦敦大学学院"英语用法调查"(Survey of English Usage)项目的丰富经验,被广泛认为是国际口语语料库建设的重要标准。

时间分布

OralCONE的语料主要来自近5至10年的真实口语材料,重点反映当代汉语口语的最新发展状况。

Section IV
NetworkCONE · 网络汉语子库

NetworkCONE:网络汉语子库

CORE — Corpus of Online Registers of English(Biber & Egbert, 2018)

建库背景

随着互联网,特别是移动互联网的发展,网络语料已成为现代语言研究的重要对象。然而,相较于英语,汉语仍缺少一个覆盖各类网络语域的大规模平衡语料库。CORE框架已扩展至多种语言,包括FinCORE(芬兰语)、FreCORE(法语)、SweCORE(瑞典语)等。NetworkCONE是该框架在汉语领域的重要实践。

框架调整

在借鉴CORE架构的基础上,NetworkCONE根据汉语语料建设需求进行了相应调整:

明确性原则——删除分类边界不够清晰的类别,仅保留能够稳定识别和准确归类的网络语域。

互补性原则——删除与其他两个子库高度重叠的类别(口语类、小说类、回忆录类、学术论文类、杂志文章类、社论类),确保三个子库形成互补结构:OralCONE体现真实口语,NetworkCONE体现网络交际,EditedCONE体现正式书面语。

时间分布

NetworkCONE主要集中于2018—2022年,所有文本均为2022年及以前发表的网络内容,从时间上尽可能规避人工智能生成文本的影响。

Section V
EditedCONE · 书面汉语子库

EditedCONE:书面汉语子库

Brown Corpus(Francis & Kučera, 1964)

建库背景

EditedCONE采用经典Brown Corpus模式建设,是面向现代标准书面汉语的大型平衡语料库,语料规模约1700万词。Brown Corpus(Francis & Kučera, 1964)是现代平衡语料库建设的重要里程碑,其分类体系已广泛应用于多种语言。

Brown框架传统

EditedCONE所继承的Brown框架系列语料库项目:

汉语语料库:

ToRCH2009 ToRCH2014 ToRCH2019 LCMC UCLA Written Chinese

汉语译文语料库:

ZCTC Yiyan Corpus

英语语料库:

Brown Frown AmE06 Crown Crown2021 LOB FLOB CLOB

多语种语料库:

GLOBE系列语料库

时间分布

EditedCONE全部选取2022年及以前出版的书面文本,不包含2022年之后的内容,从时间上规避生成式人工智能文本的影响。

Section VI

MiniCONE计划

CONE团队将进一步建设精简版MiniCONE语料库,总规模约300万词。

MiniOralCONE
100万
MiniNetworkCONE
100万
MiniEditedCONE
100万
Section VII

语料库引用方式

使用CONE语料库开展研究时,请引用以下文献:

Xu, Jiajin & Mingchen Sun (forthcoming). A Frequency Dictionary of Mandarin Chinese: Core Vocabulary for Learners (2nd Edition). Routledge.
Section VIII

语料库访问

访问地址 http://114.251.154.212/cqp/ 账号
用户名test
密码test
Section X

致谢

CONE语料库的建设得到了多位硕博士生的大力支持。

特别感谢孙铭辰同学在语料库建设中的核心贡献,以及任卓璇、宋瑛明、杨宇航、殷俪恺等几位同学协助完成部分语料的收集工作。