ToRCH2019现代汉语平衡语料库简介
下载链接
ToRCH语料库的名称为Texts of Recent CHinese的英文缩略,意为“火炬”。语料库的命名寓意该语料库系列可以薪火相传。后续该系列语料库都会以ToRCH加年份的方式命名。按照规划,该系列汉语语料库每隔5年会推出新版,从而可以用于考察现代汉语的发展。我们2010年开始建设的ToRCH2009(http://corpus.bfsu.edu.cn/ToRCH2009.zip)为该系列的第一个语料库。2014年最终建成,其中所收文本绝大部分为2009年出版。ToRCH2014语料库(http://corpus.bfsu.edu.cn/ToRCH2014.zip),2015年开始创建,2017年夏正式发布,其中所收文本绝大部分为2014年出版。ToRCH2009与ToRCH2014中的文本完全不重复。加之,两者取样方案完全一致,因此,可以合并使用,形成一个200万词的汉语平衡语料库。同类汉语语料库,如LCMC,也可与ToRCH2009和ToRCH2014一并使用。
此次发布的ToRCH2019语料库库容为1,008,681词(或1,659,951字)。
引用该库,可采用:
李佳蕾、孙铭辰、许家金,2022,ToRCH2019现代汉语平衡语料库。北京外国语大学中国外语与教育研究中心。
该语料库的取样方案与布朗语料库相同。即包含15个小的文类,可合并为新闻(Press)、通用(General)、学术(Learned)、小说(Fiction)四大体裁。ToRCH系列语料库文件名中的字母A-R的含义如下:
文类代码及体裁类型
A 新闻报道
B 社论
C 报刊评论
D 宗教
E 日常技艺及消遣爱好
F 通俗读物
G 传记、回忆录等
H 政府或机构公文及文宣
J 学术、科技
K 普通小说
L 侦探小说
M 科幻小说
N 历险悬疑小说
P 言情小说
R 喜剧幽默
其他重要信息
ToRCH2019中的文本97%出版/发表于2019年(2019年487个文本,2020年13个文本,2021年1个文本。H17号文本由两个短文本组成,其中一个发布于2019年,一个发布于2020年。)
共有158位老师和同学参与了ToRCH2019的文本收集工作(人名左侧数字为文本收集数量。例如,孙铭辰同学负责收集了83个文本)。
83 孙铭辰
8 李佳蕾
8 胡悦
5 邹文鑫
5 朱玉犇
5 郑思铭
5 张子嬿
5 张晓丹
5 张蕾
5 张荷瑶
5 袁夕涵
5 杨冰玉
5 许晨琛
5 王楠
5 屈梅娟
5 马宸
5 吕兴克
5 刘立勇
5 刘佳雨
5 刘朝霞
5 李琴
5 李梦飞
5 李驰
5 姜则思
5 贾茹
5 郭鑫伟
5 杜非凡
5 邓舒娟
5 程铭
5 陈天歆
5 陈玲玲
4 张瓅
4 张静
4 邢博凯
4 田嘉茜
4 董通
4 陈松云
3 赵世玲
3 赵冲
3 张蒙蒙
3 张坤
3 张晶明
3 张健
3 杨玉琼
3 王连柱
3 王嘉宜
3 汪婷婷
3 秦金红
3 牛雅婷
3 卢晓凤
3 刘一宁
3 李楚菡
3 康卉
3 范媛媛
3 杜锋
2 朱慧芳
2 郑海晓
2 赵萤
2 赵伊濛
2 赵姝巍
2 赵景熙
2 赵嘉一
2 张泽
2 张雪
2 张文婷
2 张泰如
2 张梦娇
2 张丽霞
2 张杰
2 臧懿英
2 袁定宇
2 姚松
2 杨帅
2 杨琳
2 杨静
2 闫佳丽
2 薛洁
2 许家金
2 武彦红
2 巫蓉
2 温家骏
2 王雅娜
2 王晓彤
2 王巧
2 王倩颖
2 王倩
2 王莉
2 王柯苹
2 王菁
2 王瀚勋
2 孙静
2 史吏
2 沈悦
2 申晶
2 任芳芳
2 秦臻
2 裴晓敏
2 庞涛
2 庞丹
2 聂宁
2 莫凡
2 孟晓芳
2 鲁碧丹
2 刘旭达
2 刘旭
2 刘双双
2 刘洁
2 林馨
2 李洋
2 李梦
2 李励
2 李丽稳
2 李岚
2 李慧梅
2 康莉娜
2 姜玉馨
2 姜霄霄
2 江尚谕
2 黄媛
2 黄艳红
2 黄欣欣
2 黄美芳
2 胡娟娟
2 胡吉平
2 何建友
2 高坤
2 冯妍旎
2 房立杰
2 方全林
2 杜诗兵
2 翟羽燕
2 翟秀芝
2 陈丽
2 陈铖
2 常钧
1 宗策
1 赵婷
1 章永娇
1 张予婷
1 张睿
1 张宁
1 袁天美
1 余亚美
1 谢敏
1 王义军
1 王文轩
1 王烁
1 李艳
1 李晓云
1 李倩如
1 李金钗
1 李慧颖
1 蒋雪
1 黄婷
1 樊洋
1 段岩
1 陈曦
1 陈方远
注释:
汉语字数正则表达式
(Regular expression for Chinese characters)
[\u4e00-\u9fa5]|[A-Za-zA-Za-z0-90-9\.%%]+
或者
[一-龥]|[A-Za-zA-Za-z0-90-9\.%%]+
汉语词数正则表达式
(Regular expression for tokenised Chinese words)
[\u4e00-\u9fa5A-ZA-Za-za-z0-90-9\.%%]+
或者
[一-龥A-ZA-Za-za-z0-90-9\.%%]+