🌱 早期探索 (1583-1949)
拉丁语单词corpus用于指代"大量文本"。
Friedrich Kaeding出版《德语频率词典》(Häufigkeitswörterbuch der Deutschen Sprache)。
Edward Thorndike出版教师1万词词频表(The Teachers' Word Book)。
• 蔡廷干出版我国第一部逐字索引《老解老》。
• 陈鹤琴主持完成《语体文应用字汇》,为我国第一部基于真实语料的白话文字频表。
• 陶知行、朱经农基于《语体文应用字汇》词表编写出版语文教材《平民千字课》。
• Charles Fries的博士论文较早系统采用语料库数据和统计方法对英语语法范畴(shall和will)的演变进行了深入的实证研究。
Harold Palmer编制英语常用搭配表《有关英语搭配的阶段性报告二》(Second Interim Report on English Collocations)。
Charles Fries出版《美国英语语法》(American English Grammar),基于真实语料,采用计量方法,系统描写了英语语法范畴的总体使用、语体变异和历时演变。
结构主义语言学家Zellig Harris较早将corpus一词单独使用,用以表示语言研究素材库这一含义。
Roberto Busa利用计算机将1,100万拉丁词Saint Thomas Aquinas作品编制成《托马斯著述索引》(Index Thomisticus)。
🏗️ 理实奠基 (1950-1979)
J. R. Firth在"意义的多重模式"(modes of meaning)一文中,借由meaning by "collocation"("搭配"生义)的观念,确立了词语搭配的理论语言学地位。
Michael West出版《通用词表》(A General Service List)。该词表的实际完成时间为1936年。
Zellig Harris发表《分布结构》(Distributional structure)一文。这成为大语言模型的语言学基础,也是分布语义学的重要源头之一。
乔姆斯基在《句法结构》(Syntactic Structures)一书及同时期其他论著中明确批评利用语料库开展研究。这在一定程度上影响到其后20年左右的语料库语言学发展。
• Randolph Quirk主持的"英语用法调查"(Survey of English Usage)项目在伦敦大学学院启动。
• Charles Voegelin较早使用corpus linguistics这一英文表述。
H. P. Luhn等人设计出计算机自动编制带语境的索引行技术,即带语境的关键词技术(Key Word in Context,简称KWIC)。
C. L. Barber有关Some measurable characteristics of modern scientific prose的研究是较早对"学术英语"进行系统语言分析的论著之一,被认为是学术英语研究的开端。
• 第一个电子化平衡英语语料库布朗语料库(Brown Corpus)建成。
• Alphonse Juilland和Eugene Chang-Rodriguez出版西班牙语词频表。其中所用西班牙语语料库为目前已知最早的电子化平衡语料库。
John Sinclair主持完成名为"英语词汇研究"(English lexical studies)的OSTI课题。该课题利用计算机技术,将Firth的搭配概念转变为语料库研究实践,奠定了短语学的基础。
Jan Svartvik主持开发伦敦―隆德语料库(The London-Lund Corpus of Spoken English,简称LLC),是较早设计建设的平衡英语口语语料库。
国际现代与中世纪英语计算机语料库研究会(ICAME)成立。
🚀 蓬勃发展 (1980-1999)
柯林斯出版社与伯明翰大学合作共建的COBUILD语料库项目启动。该项目由John Sinclair领导,主要用于支撑《柯林斯英语词典》的编纂。
杨惠中在中文文献中较早采用"语料库"这一术语指称英文概念corpus。
上海交通大学科技英语语料库JDEST建成。
Douglas Biber在其博士论文中首次系统提出"多维分析法"(multidimensional analysis)。
John Sinclair基于语料库主持编纂完成《柯林斯英语词典》(Collins COBUILD English Language Dictionary),引发词典编纂领域的数据驱动变革。
Douglas Biber出版《口语与书面语间的变异》(Variation across Speech and Writing),标志着多维分析语域变异研究路径的确立。
宾州树库(Penn Treebank)开始建设。
Sidney Greenbaum推动“国际英语语料库”(International Corpus of English,简称ICE)家族的创建。
• John Sinclair出版Corpus, Concordance, Collocation(《语料库、索引分析、词语搭配》)一书,初步阐述了其语料库语言学思想。
• Tim Johns提出"数据驱动学习"(data-driven learning)的概念和做法。
• Benjamin Tsou(邹嘉彦)开始建设LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities,简称LIVAC)。
• Bill Louw提出"语义韵"(semantic prosody)这一表述。
• 储诚志、陈小荷在北京语言学院(今北京语言大学)主持建立“汉语中介语语料库系统”。
• Julia Hirschberg主编的《计算语言学》(Computational Linguistics)专刊《运用大型语料库》(Using Large Corpora)被视为自然语言处理领域由基于规则向数据和概率驱动的研究范式转变。
• Malcolm Coulthard开始从事基于语料库的法律语言学研究。
• Maurice Gross提出"局部语法"(Local Grammar)研究路径。
• Michael Lewis提出"词汇中心教学法"(the Lexical Approach)。
• Michael Stubbs和Andrea Gerbig开始从事基于语料库的批评话语分析。
• Mona Baker提出应将语料库语言学与翻译研究结合,并整理出语料库翻译研究的若干翻译共性假说。
• Stig Johansson主持建成的“英语―挪威语平行语料库”(English-Norwegian Parallel Corpus,简称ENPC),成为对比语言学和翻译研究领域的重要数据集和代表性建库模式。
• Sylviane Granger创建“国际学习者英语语料库”(International Corpus of Learner English,简称ICLE)。
英国国家语料库(British National Corpus,简称BNC)建成。
Gerlinde Hardt-Mautner较早明确提出将语料库语言学与批评话语分析结合。
• 《国际语料库语言学学刊》(International Journal of Corpus Linguistics)创刊。
• Sylviane Granger提出"中介语对比分析法"(Contrastive Interlanguage Analysis)。
• Mike Scott推出Windows版本WordSmith Tools语料库分析工具。其前身是Tim Johns和Mike Scott上世纪80年代末和90年代初开发的MicroConcord软件。
Douglas Biber等人出版《朗文口笔语语法》(Longman Grammar of Spoken and Written English)。该语法书对所有语法特征的使用情况,特别是在口语、新闻、小说、学术等语域中的分布,进行了量化和可视化呈现。
💡 现代时期 (2000-至今)
Averil Coxhead基于语料库编制完成学术英语词表(Academic Word List,简称AWL)。该词表包含570个词族。
Laurence Anthony发布免费语料库分析工具AntConc。
桂诗春、杨惠中主编的《中国学习者英语语料库》(Chinese Learner English Corpus,简称CLEC)出版。
• 语料库管理和分析平台Sketch Engine(文擎)上线。
• 北京大学CCL语料库上线。
• 王克非主持开发的北京外国语大学英汉平行语料库(英文简称CECPC)建成。
《语料库语言学与语言学理论》(Corpus Linguistics and Linguistic Theory)杂志创刊。
• 《语料库》(Corpora)杂志创刊。
• 北京语言大学HSK动态作文语料库上线。
• 语料库语言学专业邮件列表Corpora List中展开有关语料库语言学学科属性的"训练营大讨论"(Bootcamp debate)。《国际语料库语言学学刊》2010年第3期以专刊形式刊发了论战双方核心学者的系列观点文章。
• 当代美国英语语料库(The Corpus of Contemporary American English,简称COCA)上线。
• CQPweb在线语料库分析系统上线。
"中国语料库语言学研究会"成立,后改称"中国英汉语比较研究会语料库语言学专业委员会"。
北京外国语大学CQPweb多语种语料库平台上线。
北京语言大学BCC语料库上线。
• 英国兰卡斯特大学成立“社会科学的语料库路径”(Corpus Approaches to Social Science,简称CASS)研究中心。
• Vaclav Brezina和Dana Gablasova推出《新通用词表》(New General Service List)。
• Charles Browne、Brent Culligan、Joseph Phillips推出《新通用词表》(New General Service List)。
北京外国语大学创立《语料库语言学》集刊。2017年成为中国英汉语比较研究会语料库语言学专业委员会会刊,2025年同时成为中国英汉语比较研究会语料库翻译学专业委员会会刊。
• Sylviane Granger提出新版"中介语对比分析法"(new version of Contrastive Interlanguage Analysis,简称CIA2)。
• "全国语料库翻译学研究会"成立,后改称"中国英汉语比较研究会语料库翻译学专业委员会"。
• 上海外国语大学语料库研究院成立。2024年并入新成立的上海外国语大学语言科学研究院。
• 张宝林、崔希亮主持建设的“全球汉语中介语语料库”对外发布。
OpenAI推出聊天机器人ChatGPT。随着大语言模型的快速发展,语料库语言学进入了融合生成式人工智能的新阶段。