当前位置: HOME >> FLERIC News >> Content

【新鲜出炉】ToRCH2019现代汉语平衡语料库

发布者: [发表时间]:2022-02-26 [来源]: [浏览次数]:

ToRCH2019现代汉语平衡语料库简介


下载链接


     ToRCH语料库的名称为Texts of Recent CHinese的英文缩略,意为“火炬”。语料库的命名寓意该语料库系列可以薪火相传。后续该系列语料库都会以ToRCH加年份的方式命名。按照规划,该系列汉语语料库每隔5年会推出新版,从而可以用于考察现代汉语的发展。我们2010年开始建设的ToRCH2009(http://corpus.bfsu.edu.cn/ToRCH2009.zip)为该系列的第一个语料库。2014年最终建成,其中所收文本绝大部分为2009年出版。ToRCH2014语料库(http://corpus.bfsu.edu.cn/ToRCH2014.zip),2015年开始创建,2017年夏正式发布,其中所收文本绝大部分为2014年出版。ToRCH2009与ToRCH2014中的文本完全不重复。加之,两者取样方案完全一致,因此,可以合并使用,形成一个200万词的汉语平衡语料库。同类汉语语料库,如LCMC,也可与ToRCH2009和ToRCH2014一并使用。


     此次发布的ToRCH2019语料库库容为1,008,681词(或1,659,951字)。


引用该库,可采用:

李佳蕾、孙铭辰、许家金,2022,ToRCH2019现代汉语平衡语料库。北京外国语大学中国外语与教育研究中心。


      该语料库的取样方案与布朗语料库相同。即包含15个小的文类,可合并为新闻(Press)、通用(General)、学术(Learned)、小说(Fiction)四大体裁。ToRCH系列语料库文件名中的字母A-R的含义如下:


文类代码及体裁类型

A 新闻报道

B 社论

C 报刊评论

D 宗教

E 日常技艺及消遣爱好

F 通俗读物

G 传记、回忆录等

H 政府或机构公文及文宣

J 学术、科技

K 普通小说

L 侦探小说

M 科幻小说

N 历险悬疑小说

P 言情小说

R 喜剧幽默


其他重要信息

ToRCH2019中的文本97%出版/发表于2019年(2019年487个文本,2020年13个文本,2021年1个文本。H17号文本由两个短文本组成,其中一个发布于2019年,一个发布于2020年。)


共有158位老师和同学参与了ToRCH2019的文本收集工作(人名左侧数字为文本收集数量。例如,孙铭辰同学负责收集了83个文本)。

83 孙铭辰

8 李佳蕾

8 胡悦

5 邹文鑫

5 朱玉犇

5 郑思铭

5 张子嬿

5 张晓丹

5 张蕾

5 张荷瑶

5 袁夕涵

5 杨冰玉

5 许晨琛

5 王楠

5 屈梅娟

5 马宸

5 吕兴克

5 刘立勇

5 刘佳雨

5 刘朝霞

5 李琴

5 李梦飞

5 李驰

5 姜则思

5 贾茹

5 郭鑫伟

5 杜非凡

5 邓舒娟

5 程铭

5 陈天歆

5 陈玲玲

4 张瓅

4 张静

4 邢博凯

4 田嘉茜

4 董通

4 陈松云

3 赵世玲

3 赵冲

3 张蒙蒙

3 张坤

3 张晶明

3 张健

3 杨玉琼

3 王连柱

3 王嘉宜

3 汪婷婷

3 秦金红

3 牛雅婷

3 卢晓凤

3 刘一宁

3 李楚菡

3 康卉

3 范媛媛

3 杜锋

2 朱慧芳

2 郑海晓

2 赵萤

2 赵伊濛

2 赵姝巍

2 赵景熙

2 赵嘉一

2 张泽

2 张雪

2 张文婷

2 张泰如

2 张梦娇

2 张丽霞

2 张杰

2 臧懿英

2 袁定宇

2 姚松

2 杨帅

2 杨琳

2 杨静

2 闫佳丽

2 薛洁

2 许家金

2 武彦红

2 巫蓉

2 温家骏

2 王雅娜

2 王晓彤

2 王巧

2 王倩颖

2 王倩

2 王莉

2 王柯苹

2 王菁

2 王瀚勋

2 孙静

2 史吏

2 沈悦

2 申晶

2 任芳芳

2 秦臻

2 裴晓敏

2 庞涛

2 庞丹

2 聂宁

2 莫凡

2 孟晓芳

2 鲁碧丹

2 刘旭达

2 刘旭

2 刘双双

2 刘洁

2 林馨

2 李洋

2 李梦

2 李励

2 李丽稳

2 李岚

2 李慧梅

2 康莉娜

2 姜玉馨

2 姜霄霄

2 江尚谕

2 黄媛

2 黄艳红

2 黄欣欣

2 黄美芳

2 胡娟娟

2 胡吉平

2 何建友

2 高坤

2 冯妍旎

2 房立杰

2 方全林

2 杜诗兵

2 翟羽燕

2 翟秀芝

2 陈丽

2 陈铖

2 常钧

1 宗策

1 赵婷

1 章永娇

1 张予婷

1 张睿

1 张宁

1 袁天美

1 余亚美

1 谢敏

1 王义军

1 王文轩

1 王烁

1 李艳

1 李晓云

1 李倩如

1 李金钗

1 李慧颖

1 蒋雪

1 黄婷

1 樊洋

1 段岩

1 陈曦

1 陈方远


注释:

汉语字数正则表达式

(Regular expression for Chinese characters)

[\u4e00-\u9fa5]|[A-Za-zA-Za-z0-90-9\.%%]+

或者

[一-龥]|[A-Za-zA-Za-z0-90-9\.%%]+


汉语词数正则表达式

(Regular expression for tokenised Chinese words)

[\u4e00-\u9fa5A-ZA-Za-za-z0-90-9\.%%]+

或者

[一-龥A-ZA-Za-za-z0-90-9\.%%]+