Corpus Linguistics Timeline 语料库语言学大事年表

🌱 早期探索 (1583-1949)

1583年

拉丁语单词corpus用于指代"大量文本"。

1897年

Friedrich Kaeding出版《德语频率词典》（Häufigkeitswörterbuch der Deutschen Sprache）。

1921年

Edward Thorndike出版教师1万词词频表（The Teachers' Word Book）。

1922年

• 蔡廷干出版我国第一部逐字索引《老解老》。

• 陈鹤琴主持完成《语体文应用字汇》，为我国第一部基于真实语料的白话文字频表。

• Charles Carpenter Fries的博士论文较早系统采用语料库数据和统计方法对英语语法范畴（shall和will）的演变进行了深入的计量研究。

1933年

Harold Palmer编制英语常用搭配表《有关英语搭配的阶段性报告二》（Second Interim Report on English Collocations）。

1940年

Charles Carpenter Fries出版《美国英语语法》（American English Grammar），基于真实语料，采用计量方法，系统描写了英语语法范畴的总体使用、语体变异和历时演变。

1947年

结构主义语言学家Zellig Harris较早将corpus一词单独使用，用以表示语言研究素材库这一含义。

1949年

Roberto Busa利用计算机将1,100万拉丁词Saint Thomas Aquinas作品编制成《托马斯著述索引》（Index Thomisticus）。该成果被视为数字人文的典籍之作。

🏗️ 理实奠基 (1950-1979)

1951年

J. R. Firth在"意义的多重模式"（modes of meaning）一文中，借由meaning by "collocation"（"搭配"生义）的观念，确立了词语搭配的理论语言学地位。

1953年

Michael West出版《通用词表》（A General Service List）。该词表的实际完成时间为1936年。

1954年

Zellig Harris发表《分布结构》（Distributional structure）一文。这成为大语言模型的语言学基础，也是分布语义学的重要源头之一。

1957年

乔姆斯基在《句法结构》（Syntactic Structures）一书及同时期其他论著中明确批评利用语料库开展研究。这在一定程度上影响到其后20年左右的语料库语言学发展。

1959年

• Randolph Quirk主持的"英语用法调查"（Survey of English Usage，简称SEU）项目在伦敦大学学院启动。

• Charles Voegelin较早使用corpus linguistics这一英文表述。

1959-1960年

H. P. Luhn等人设计出自动生成带语境的索引技术，即"带语境的关键词技术"（Key Word in Context，简称KWIC）。

1962年

C. L. Barber有关《现代科技语篇的可测量特征》（Some measurable characteristics of modern scientific prose）的研究是较早对"学术英语"进行系统语言特征计量分析的论著之一，被认为是学术英语语料库研究的开端。

1964年

• 第一个电子化平衡英语语料库布朗语料库（Brown Corpus）建成。

• Alphonse Juilland和Eugene Chang-Rodriguez出版西班牙语词频表。其中所用西班牙语语料库为目前已知最早的电子化平衡语料库。

1970年

John Sinclair主持完成名为"英语词汇研究"（English lexical studies）的OSTI课题。该课题利用计算机技术，将Firth的搭配概念转变为语料库研究实践，奠定了短语学的基础。

1975年

Jan Svartvik主持开发伦敦―隆德语料库（The London-Lund Corpus of Spoken English，简称LLC），是较早设计建设的平衡英语口语语料库。

1977年

国际现代与中世纪英语计算机语料库研究会（The International Computer Archive of Modern and Medieval English，简称ICAME）成立。

1978年

布朗语料库的英国英语对应库LOB（Lancaster-Olso/Bergen）建成。

🚀 蓬勃发展 (1980-1999)

1980年

柯林斯出版社与伯明翰大学合作共建的COBUILD语料库项目启动。该项目由John Sinclair领导，主要用于支撑《柯林斯英语词典》的编纂。

1981年

杨惠中在中文文献中较早采用"语料库"这一术语指称英文概念corpus。

1983年

上海交通大学科技英语语料库JDEST建成。

1984年

Douglas Biber在其博士论文中首次系统提出"多维分析法"（multidimensional analysis）。

1987年

John Sinclair基于语料库主持编纂完成《柯林斯英语词典》（Collins COBUILD English Language Dictionary），引发词典编纂领域的数据驱动变革。

1988年

Douglas Biber出版《口语与书面语间的变异》（Variation across Speech and Writing），标志着多维分析语域变异研究路径的确立。

Sidney Greenbaum发起创建“国际英语语料库”（International Corpus of English，简称ICE）。

1989年

宾州树库（Penn Treebank）开始建设。

1990年

Dave Willis出版Lexical Syllabus（《词汇大纲》），将语料库发现转化为可操作的教学大纲。

1991年

• John Sinclair出版Corpus, Concordance, Collocation（《语料库、索引分析、词语搭配》）一书，初步阐述了其语料库语言学思想。

• Tim Johns提出"数据驱动学习"（data-driven learning）的概念和做法。

1993年

• Benjamin Tsou（邹嘉彦）开始建设LIVAC汉语共时语料库（Linguistic Variation in Chinese Speech Communities，简称LIVAC）。

• Bill Louw提出"语义韵"（semantic prosody）这一表述。

• 储诚志、陈小荷在北京语言学院（今北京语言大学）主持建立“汉语中介语语料库系统”。

• Julia Hirschberg主编的《计算语言学》（Computational Linguistics）专刊《运用大型语料库》（Using Large Corpora）被视为自然语言处理领域由基于规则向数据和概率驱动的研究范式转变。

• Malcolm Coulthard开始从事基于语料库的法律语言学研究。

• Maurice Gross提出"局部语法"（Local Grammar）研究路径。

• Michael Lewis提出"词汇中心教学法"（the Lexical Approach）。

• Michael Stubbs和Andrea Gerbig开始从事基于语料库的批评话语分析。

• Mona Baker提出应将语料库语言学与翻译研究结合，并整理出语料库翻译研究的若干翻译共性假说。

• Stig Johansson主持建成的“英语―挪威语平行语料库”（English-Norwegian Parallel Corpus，简称ENPC），成为对比语言学和翻译研究领域的重要数据集和代表性建库模式。

• Sylviane Granger创建“国际学习者英语语料库”（International Corpus of Learner English，简称ICLE）。

• 英国国家语料库（British National Corpus，简称BNC）建成。

1995年

Gerlinde Hardt-Mautner较早明确提出将语料库语言学与批评话语分析结合。

1996年

• 《国际语料库语言学学刊》（International Journal of Corpus Linguistics，简称IJCL）创刊。

• Sylviane Granger提出"中介语对比分析法"（Contrastive Interlanguage Analysis）。

• Mike Scott推出Windows版本WordSmith Tools语料库分析工具。其前身是Tim Johns和Mike Scott上世纪80年代末和90年代初开发的MicroConcord软件。

1999年

Douglas Biber等人出版《朗文口笔语语法》（Longman Grammar of Spoken and Written English）。该语法书对所有语法特征的使用情况，特别是在口语、新闻、小说、学术等语域中的分布，进行了量化和可视化呈现。

💡 星火燎原 (2000-至今)

2000年

Averil Coxhead基于语料库编制完成学术英语词表（Academic Word List，简称AWL）。该词表包含570个词族。

2002年

Laurence Anthony发布免费语料库分析工具AntConc。

2003年

桂诗春、杨惠中主编的《中国学习者英语语料库》（Chinese Learner English Corpus，简称CLEC）出版。

2004年

• 语料库管理和分析平台Sketch Engine（文擎）上线。

• 北京大学CCL语料库上线。

• 王克非主持开发的北京外国语大学英汉平行语料库（英文简称CECPC）建成。

2005年

《语料库语言学与语言学理论》（Corpus Linguistics and Linguistic Theory，简称CLLT）杂志创刊。

2006年

• 《语料库》（Corpora）杂志创刊。

• 北京语言大学HSK动态作文语料库上线。

2008年

• 语料库语言学专业邮件列表Corpora List中展开有关语料库语言学学科属性的"训练营大讨论"（Bootcamp debate）。《国际语料库语言学学刊》2010年第3期以专刊形式刊发了论战双方核心学者的系列观点文章。

• 当代美国英语语料库（The Corpus of Contemporary American English，简称COCA）上线。

• CQPweb在线语料库分析系统上线。

2009年

"中国语料库语言学研究会"成立，后改称"中国英汉语比较研究会语料库语言学专业委员会"。

2010年

北京外国语大学CQPweb多语种语料库平台上线。

2012年

北京语言大学BCC语料库上线。

2013年

• 英国兰卡斯特大学成立“社会科学的语料库路径”（Corpus Approaches to Social Science，简称CASS）研究中心。

• Vaclav Brezina和Dana Gablasova推出《新通用词表》（New General Service List）。

• Charles Browne、Brent Culligan、Joseph Phillips推出《新通用词表》（New General Service List）。

2014年

北京外国语大学创立《语料库语言学》集刊。2017年成为中国英汉语比较研究会语料库语言学专业委员会会刊，2025年同时成为中国英汉语比较研究会语料库翻译学专业委员会会刊。

2015年

• Sylviane Granger提出新版"中介语对比分析法"（new version of Contrastive Interlanguage Analysis，简称CIA2）。

• "全国语料库翻译学研究会"成立，后改称"中国英汉语比较研究会语料库翻译学专业委员会"。

2019年

• 上海外国语大学语料库研究院成立。2024年并入新成立的上海外国语大学语言科学研究院。

• 张宝林、崔希亮主持建设的“全球汉语中介语语料库”对外发布。

2022年

OpenAI推出基于大语言模型的聊天机器人ChatGPT。随着大语言模型的广泛应用，语料库语言学也进入了融合生成式人工智能的新发展阶段。