CONE现代汉语平衡语料库：The CONE Corpus: A Corpus of Oral, Network, and Edited Chinese

Section I

CONE简介

规模5000万词的CONE语料库（The CONE Corpus: A Corpus of Oral, Network, and Edited Chinese）采用"口头汉语（Oral）—网络汉语（Network）—书面汉语（Edited）"三位一体的建库理念，旨在反映当代汉语在不同媒介和不同语域中的使用情况。

子库	中文名称	参照框架	语料规模
OralCONE	口头汉语子库	ICE（Greenbaum & Nelson, 1996）	约1700万词
NetworkCONE	网络汉语子库	CORE（Biber & Egbert, 2018）	约1700万词
EditedCONE	书面汉语子库	Brown（Francis & Kučera, 1964）	约1700万词

CONE的设计分别借鉴了英语语料库建设中三项代表性成果：ICE（国际英语语料库）、CORE（网络语域英语语料库）与Brown Corpus（现代标准美式英语书面语料库）。

Section II

建库原则

平衡性

三个子库规模基本相当，避免单一语域占据主导地位。

代表性

各子库均采用国际成熟语料库框架作为参照标准，确保采样方案具有较高的代表性和可比性。

前大模型原则

NetworkCONE与EditedCONE全部选取2022年及以前的文本，以规避生成式人工智能内容对语料真实性的影响。

Section III

OralCONE · 口头汉语子库

OralCONE：口头汉语子库

ICE — International Corpus of English（Greenbaum & Nelson, 1996）

建库背景

既往汉语口语语料库建设成果包括：北京口语调查项目（宋孝才，1987）、北京地区现场即席话语语料库（顾曰国，2002）、城市青少年汉语口语语料库（许家金，2009）、BCC语料库口语子库（荀恩东等，2016）、CCL语料库口语子库（詹卫东等，2019）以及DiSCUSS语料库（许家金等，2022）。OralCONE在继承上述成果的基础上，进一步构建大规模、系统化的现代汉语口语语料资源。

建库框架

OralCONE采用国际英语语料库（ICE）的口语采样框架。ICE项目由Sidney Greenbaum于1988年发起，其口语部分继承了伦敦大学学院"英语用法调查"（Survey of English Usage）项目的丰富经验，被广泛认为是国际口语语料库建设的重要标准。

时间分布

OralCONE的语料主要来自近5至10年的真实口语材料，重点反映当代汉语口语的最新发展状况。

Section IV

NetworkCONE · 网络汉语子库

NetworkCONE：网络汉语子库

CORE — Corpus of Online Registers of English（Biber & Egbert, 2018）

建库背景

随着互联网，特别是移动互联网的发展，网络语料已成为现代语言研究的重要对象。然而，相较于英语，汉语仍缺少一个覆盖各类网络语域的大规模平衡语料库。CORE框架已扩展至多种语言，包括FinCORE（芬兰语）、FreCORE（法语）、SweCORE（瑞典语）等。NetworkCONE是该框架在汉语领域的重要实践。

框架调整

在借鉴CORE架构的基础上，NetworkCONE根据汉语语料建设需求进行了相应调整：

明确性原则——删除分类边界不够清晰的类别，仅保留能够稳定识别和准确归类的网络语域。

互补性原则——删除与其他两个子库高度重叠的类别（口语类、小说类、回忆录类、学术论文类、杂志文章类、社论类），确保三个子库形成互补结构：OralCONE体现真实口语，NetworkCONE体现网络交际，EditedCONE体现正式书面语。

时间分布

NetworkCONE主要集中于2018—2022年，所有文本均为2022年及以前发表的网络内容，从时间上尽可能规避人工智能生成文本的影响。

Section V

EditedCONE · 书面汉语子库

EditedCONE：书面汉语子库

Brown Corpus（Francis & Kučera, 1964）

建库背景

EditedCONE采用经典Brown Corpus模式建设，是面向现代标准书面汉语的大型平衡语料库，语料规模约1700万词。Brown Corpus（Francis & Kučera, 1964）是现代平衡语料库建设的重要里程碑，其分类体系已广泛应用于多种语言。

Brown框架传统

EditedCONE所继承的Brown框架系列语料库项目：

汉语语料库：

ToRCH2009 ToRCH2014 ToRCH2019 LCMC UCLA Written Chinese

汉语译文语料库：

ZCTC Yiyan Corpus

英语语料库：

Brown Frown AmE06 Crown Crown2021 LOB FLOB CLOB

多语种语料库：

GLOBE系列语料库

时间分布

EditedCONE全部选取2022年及以前出版的书面文本，不包含2022年之后的内容，从时间上规避生成式人工智能文本的影响。

Section VI

MiniCONE计划

CONE团队将进一步建设精简版MiniCONE语料库，总规模约300万词。

MiniOralCONE

100万

词

MiniNetworkCONE

100万

词

MiniEditedCONE

100万

词

Section VII

语料库引用方式

使用CONE语料库开展研究时，请引用以下文献：

Xu, Jiajin & Mingchen Sun (forthcoming). A Frequency Dictionary of Mandarin Chinese: Core Vocabulary for Learners (2nd Edition). Routledge.

Section VIII

语料库访问

访问地址 http://114.251.154.212/cqp/ 账号

用户名test

密码test

Section X

致谢

CONE语料库的建设得到了多位硕博士生的大力支持。

特别感谢孙铭辰同学在语料库建设中的核心贡献，以及任卓璇、宋瑛明、杨宇航、殷俪恺等几位同学协助完成部分语料的收集工作。