自2013年,我开始在北京外国语大学讲授“语料库研究方法”研究生课程,早有将教学内容编为教材的计划,但着实难有余暇。当前,语料库研究方法快速发展,本书既是对十年教学的整理,更是对前沿方法的学习和追赶。本书将语料库研究方法划分为“经典时代”和“后经典时代”两个阶段。前一个阶段主要包括索引、词表、搭配、主题词一类的方法,后一个阶段主要涵盖聚类、条件推断树、随机森林、逻辑斯蒂回归等多变量统计。本书重点关注后经典时代语料库研究方法,以充分反映本领域近十多年的新进展。另外,共选思维、建模思维、对比思维,是本书倡导的语料库方法论导向。特别是其中的“共选思维”,试图将全书涉及的语料库研究方法集于统一思路下,权作试水,留待读者斧正。 本书致力于从我国语言学及应用语言学研究者的实际问题出发。在研究方法实操环节,所用案例多为我国学者实际发表的成果。在选题定位上,我们特别关注汉语研究、英语研究、多语种研究、翻译研究、口语研究、中介语研究、话语研究等。在操作方法的介绍中,考虑到有不少使用macOS 操作系统的读者,我们在行文中,对于macOS版本的分析软件也作了一些特别介绍和说明。
第一章:绪论
语料库研究方法以2000年为界,其前后可粗略分为经典时代和后经典时代。这两个时期对语言的考察,从研究视野上呈现出从点到线、从线到面、从面到体的发展历程。这两个时期的语料库研究,在统计词汇和语法范畴频次的基础上,都注重从词汇语法特征的共选规律上探讨语义。进入后经典时代,语料库研究更加注重从全口径语境因素分析形义匹配机制。综合来看,语料库研究方法立足形义对应,聚焦意义研究。这些应成为语料库语言学理论建构的本体考虑。
语料库分析方法概览(简版)
第二章:语料库建设的一般方法
本章主要介绍语料库建设的一般方法,包括建库的原则、文本规格要求、元数据采集、语料版本管理、语料标注等内容。本章提出语料库建设需要遵循目的性原则、代表性原则和所属权原则,然后详细讲解了文本文件的格式、编码、命名等技术规格。本章还介绍了自动标注和手工标注两种语料标注方式。这些操作为语料库研究奠定了文本基础。
-NeatConverter: Any text format to txt.
-English Corpora maintained by Mark Davies: https://www.english-corpora.org
-DEAP语料库:http://114.251.154.212/cqp/ (账号:test;密码:test)
-MedDEAP语料库:http://114.251.154.212/cqp/ (账号:test;密码:test)
-deGLOBE语料库:http://114.251.154.212/cqp/ (账号:test;密码:test)
-CROWN2021: http://114.251.154.212/cqp/ (账号:test;密码:test)。下载CROWN2021语料库:https://corpus.bfsu.edu.cn/CROWN2021.zip
-Wynne, M. (ed.). 2005. Developing Linguistic Corpora—A Guide to Good Practice. Oxford: Oxbow Books for the Arts and Humanities Data Service.
-TECCL中国学生万篇英语作文语料库:https://corpus.bfsu.edu.cn/info/1070/1449.htm
-基于ChatGPT自动生成的aiTECCL参照语料库:https://corpus.bfsu.edu.cn/info/1082/1913.htm
-PowerGREP: https://www.powergrep.com
-Wcopyfind软件: https://plagiarism.bloomfieldmedia.com/software/wcopyfind/,以及可用于查重练习的文本。
-ISO 15836-1:2017 Information and documentation — The Dublin Core metadata element set, Part 1: Core elements, https://www.iso.org/standard/71339.html
-Lee, David. 2001. Genres, registers, text types, domain, and styles: Clarifying the concepts and navigating a path through the BNC jungle. Language Learning & Technology 5(3): 37-72.
-联合国教科文组织的“翻译索引”数据库(Index Translationum)
-燚炎英汉平行语料库:https://corpus.bfsu.edu.cn/Yiyan_Corpus.zip
-DEAP Baby语料库:https://corpus.bfsu.edu.cn/info/1082/1813.htm
-TreeTagger for Windows: https://corpus.bfsu.edu.cn/TreeTagger_Lite_English.zip
--部分读者的电脑上无法使用该TreeTagger版本,可改用Laurence Anthony的TagAnt: https://www.laurenceanthony.net/software/tagant/
-TreeTagger的tagset,请见: https://www.laurenceanthony.net/software/tagant/resources/treetagger_tagset.pdf
-TMXMall aligner: https://www.tmxmall.com/aligner/home
-中国英语学习者语料库常见错误分析平台:https://iwritecorpus.unipus.cn/iwrite-baby-client/#/
-许家金,2019, iWriteBaby中国学习者英语语料库的创建,《语料库语言学》(1):105-109。
-ATLAS.ti、BFSU Qualitative Coder、BRAT (Browser-Based Rapid Annotation Tool)、Excel、MAXQDA、MMAX2、NVivo、QDA Miner、Quirkos、UAM Corpus Tool
【说明】本中较多涉及R及RStudio软件,但鉴于两款软件版本更新频繁,下载网址也常有变化。加之,读者中有Windows和macOS等不同操作系统用户,若将R和RStudio的下载安装步骤写定,难保不会出现网址失效、界面不一等情况,因此两个软件的安装未在书中介绍,而是在配套网页上提供下载链接及操作视频。R: https://cran.r-project.org/mirrors.html; RStudio: https://posit.co/download/rstudio-desktop。
该视频由许家金录制。
第三章:语料库建设的网页爬取方法
本章主要介绍语料库建设中的网页爬取方法,包括基于R语言的静态和动态网页爬取、基于爬虫软件的爬取三个方面。文章以China Daily、微博等为例,详细讲解了如何通过R语言实现网页内容的爬取,包括读取和解析HTML代码,以及处理翻页、登录态和全文展开等问题。文章还介绍了八爪鱼采集器等爬虫软件的使用。
-八爪鱼采集器:https://www.bazhuayu.com/download/windows
-BootCat: 根据用户提供的特定主题词爬取网页建库的工具。
-HTTrack Website Copier
-WebCrawl R and Python codes (2024.03.26)
第四章:语料检索和语料清洗
本章主要介绍利用正则表达式进行语料检索和语料清洗的方法。在语料检索方面,文中通过具体案例详细介绍了如何构建正则表达式来匹配词汇的单复数形式、特定词缀、句式结构等语言现象。同时也讲解了正则表达式的语法细节,如字符组、量词、优先级、反向引用等。在语料清洗方面,文中给出了清理制表符、空格、空行、添加标点等具体操作的正则表达式。
-HTML网页批量转TXT文本工具html2text
-正则表达式助写工具:https://regex.ai(姚刚老师推荐)
-常用正则表达
第五章:语料数据可视化
本章主要介绍R语言在语言研究中的数据可视化方法,包含了数据分布、数据比较、数据演变、数据关系和其他数据五个方面。在数据分布方面,介绍了箱线图、小提琴图、密度图和峰峦图等的绘制方法。在数据比较方面,介绍了条形图、棒棒糖图和雷达图的绘制。在数据演变方面,重点介绍了折线图、面积图和动态图的制作。在数据关系方面,讲解了散点图、气泡图和热力图的制作。最后还介绍了饼图、网络图、词云图等其他可视化方法。
-Visualization data and codes (2023.05.06)(请注意R语言代码相关文件所在路径不应有汉字)。
第六章:短语学分析
本章主要介绍了语料库语言学中的短语学研究。首先,介绍了短语学研究的背景和发展,包括Firth对词汇的研究,Sinclair等人对短语学的早期研究,以及Sinclair后期对扩展意义单元和局部语法的研究。本章通过role和part两个案例,展示了如何利用语料库进行短语学描写,发现短语的构型模式,并实现对短语的自动识别。
-The naked eye文本
-AntConc下载链接
-The search for units of meaning
-在StringNet中获取role的构型(基于BNC语料库)
-StringNet中获取part的构型(基于BNC语料库)
-Gross, Maurice. 1993. Local grammars and their representation by finite automata. M. Hoey. Data, Description, Discourse. Papers on the English Language in honour of John McH Sinclair, Harper-Collins, pp.26-38.
-李文中,2021,接着做:扩展意义单位分析,《当代外语研究》(6):13-26。
第七章:搭配构式分析
本章介绍搭配构式分析的三种方法:1. 简单共现词分析,用于考察出现在某一构式中某一槽位上的典型词汇,以挖掘构式的原型语义。2. 显著共现词分析,用于比较两个(或多个)构式中某一槽位上搭配词的使用情况,找出其中显著多用的搭配词,从而区分两个(或多个)构式的搭配倾向。3. 共变共现词分析,用于考察同一构式中两个不同槽位的搭配词之间的依存和共变关系,以建立构式内不同槽位之间的联系。三种方法均使用语料库实证,计算观测频数与预期频数的偏差程度,得到搭配强度,并进行显著性检验。通过搭配构式分析可以更准确地描写构式的语义特征。
-Collostructional analysis data and codes (2023.05.04)
第八章:对应分析
本章介绍对应分析的两种方法:1. 简单对应分析,用于考察两个分类变量间的相关关系。通过卡方距离测算变量间频率的差异程度,并将其投射到二维平面,产生对应分析图。2. 多重对应分析,用于考察两个以上分类变量间的关系。将变量中的频率信息转换为对应分析图中数据点之间的距离,直观呈现变量间的关系。还可以同时呈现变量和数据点,揭示变量与数据点分布之间的关系。对应分析通过可视化有利于挖掘变量间的共现模式,但无法进行显著性检验。需要辅以其他统计方法验证结果。对应分析可作为降维方法,其维度可作为新变量投入统计模型。
-Simple and multiple correspondence analysis data and codes (2024.06.08)
简单对应分析操作视频。该视频由许家金录制。
第九章:主成分分析和因子分析
本章介绍主成分分析和因子分析的基本概念、在语言学研究中的应用,以及两者之间的区别:1. 主成分分析通过提取较少的主成分来解释变量之间的关系,侧重信息的浓缩。2. 因子分析在变量信息浓缩的基础上,还致力于找出不同变量之间的内在联系。3. 主成分分析不要求特定的数据结构,结果唯一;而因子分析需要满足模型条件,存在因子旋转。4. 如果只需变量信息浓缩,主成分分析更合适;如果要探索变量内部结构,则因子分析更好。通过案例分析,本章对比了两种方法在语言研究中的具体应用和编码操作。主成分分析侧重总体方差解释,因子分析侧重变量内部结构。
-Principal component analysis (PCA) and factor analysis (CA) data and codes (2024.06.08)
该视频由任俊强录制。
第十章:多维尺度分析
本章介绍多维尺度分析的概念,它可将高维数据投射到低维空间,直观展示不同研究对象之间的相似性和差异性。本章还比较了多维尺度分析与因子分析和聚类分析的异同。最后以现代汉语原创语料和翻译语料的历时变化为例,运用多维尺度分析和聚类分析勾勒了两者的发展轨迹,分析显示翻译汉语的变化幅度。
-Multidimensional Scaling (MDS) data and codes (2024.06.11)
该视频由殷俪恺录制。
第十一章:聚类分析
本章主要介绍聚类分析在语言研究中的应用。作者首先概述聚类分析的定义、研究流派和算法种类。然后详细介绍了层次聚类和划分聚类这两种主要方法,包括算法选择、距离度量选择、结果解读和验证等步骤。文章通过两个研究案例演示了层次聚类和划分聚类在处理数值型数据和分类型数据时的操作流程。
-Cluster analysis data and codes (2024.08.24)
注:该视频由陈雅刚录制。视频中RStudio的窗口布局有所不同,读者可根据个人偏好自行调整。操作方法为:Tools[工具]-Global Options[全局选项]-Pane Layout[窗口布局]。
第十二章:决策树和随机森林
本章介绍决策树和随机森林在语言研究中的应用,内容包括:1. 介绍决策树算法的两类代表:经典决策树和条件推断树,后者是前者的优化版本。2. 介绍随机森林算法,它通过集成学习的思想,构建多个决策树,以提高模型的稳定性和准确性。3. 分别介绍基于经典决策树的随机森林和基于条件推断树的条件随机森林,并通过案例详细展示了在R语言中进行建模和结果解读的过程,并探讨树形模型与其他统计模型的结合使用,以及运用树形模型时的注意事项。
-Decision tree and random forest data and code (2024.06.12)
注:视频中介绍的汉语回指研究信息如后:徐秀玲,2020,翻译汉语主语回指语显隐机制研究——条件推断树法,《外语与外语教学》(3):44-53。
第十三章:逻辑斯蒂回归
本章介绍逻辑斯蒂回归在语言研究中的应用,内容包括:1. 逻辑斯蒂回归模型的基本原理、前提假设和数据要求。2. 二分类逻辑斯蒂回归的固定效应模型和混合效应模型,以及如何对模型进行拟合、解读、评估和诊断。3. 将二分类模型推广到多分类逻辑斯蒂回归模型,介绍一对多比较和一对一比较两种拟合多分类模型的方法。通过英语与格交替和德语回指选择两个案例,详细展示了如何在R语言中实现逻辑斯蒂回归的拟合与模型评估。
-Logistic regression data and code (2024.06.08)
-另可参见任俊强开发的BFSU Logistic Regression Tool。
注:视频中介绍的德语回指研究文献信息如下:Zhou, Guying & Jing Li. (2023). die Frau – sie – ø: Eine korpusbasierte multifaktorielle Analyse zur Wahl anaphorischer Formen im Deutschen. Deutsche Sprache 21(3): 248-278.
第十四章:语料库研究方法展望
本章从语料库建设、分析技术和理论建设三个方面,展望了语料库研究的发展前景:1. 语料库建设将进入百亿级规模,语料类型更加细致和平衡,元数据更加丰富,语料共建共享将成主流。2. 语料库分析技术将继续发展,经典方法与机器学习相结合,多模态语料库分析前景广阔。3. 语料库理论建设可推动语法理论创新,历时语言研究持续升温,新媒体语言研究加强,多学科交叉应用拓宽。语料库研究仍将致力于语言本质的探索,通过从全局到局部再到全局的研究过程,揭示语言规律。
-KH Coder: http://khcoder.net/en
-T-Lab(商业软件): https://www.tlab.it
-Orange: https://orangedatamining.com
-Voyant Tools: https://voyant-tools.org
-CorpusExplorer(德文界面):
-https://notes.jan-oliver-ruediger.de/software/corpusexplorer-overview/
-有关ChatGPT等大语言模型用于语言学研究的部分例证可访问:PromptBank for Linguistics(语言学提示语库)
如有问题,您可在“语料库在线”发帖共同研讨:https://www.corpus4u.org/threads/10712/。您也可通过bfsucrg AT sina.com联系我们。
勘误
-P. 195 rownames(score)<data$篇章, 更正为rownames(score)<-data$篇章
-P. 200 “孟庆楠、李基安(2019)同样借助COHA语料库,探讨了dare(to)、need(to)和ought(to)等英语临界情态动词构式的历时演变规律。”这项研究采用的可视化方法是动态图,并未采用多维尺度分析。感谢孟庆楠老师提醒和指正。
-P. 203 倒数第6行,压力值3.16应改为3.61。倒数第3行,距离矩阵应改为频率矩阵。感谢汤慧桃老师指出。
-P. 234 pvrect(leixical.p, alpha=0.95)更正为pvrect(polysemy.pvc, alpha=0.95)
-P. 238 polusemy.pam更正为polysemy.pam
-P. 321 有关polytomous包的安装,请从https://cran.r-project.org/src/contrib/Archive/polytomous/下载polytomous_0.1.6.tar.gz包到本地电脑任何位置,然后使用代码install.packages(file.choose(), repos=NULL)。直接使用install.packages("polytomous")是无法正确安装的。感谢孟庆楠老师提醒我们注意polytomous本地安装方式的严谨性。
-P. 330 感谢黄宝荣老师指出以下问题:(1)RL通常译为“强化学习”,而不是“增强学习”。特别是在OpenAI采用了RLHF (Reinforcement Learning from Human Feedback,即“来自人类反馈的强化学习”后,“强化学习”这个术语变得更加为人所熟知。(2)生成型预训练变换模型又称大语言模型表述为:“生成型预训练变换模型”又称“大语言模型”。(3)当前的GPT算法应表述为:当前的大语言模型算法。
-P. 364 Bi-hapax的表述不正确,“两次词”对应的外文为dis legomena,是希腊文的拉丁转写。谢谢孟庆楠老师指正。
相关资源
《语料库与话语研究》配套网页
《大语言模型的外语教学与研究应用》配套网页
《语料库与中国学习者英语口语研究》配套网页
Research Methods in Corpus Linguistics Companion Website
Xu, Jiajin et al. (2023). Research Methods in Corpus Linguistics. Beijing: Foreign Language Teaching and Research Press.
许家金等,2023,《语料库研究方法》,北京:外语教学与研究出版社。
Last edited: 27 August, 2024