当前位置: HOME >> FLERIC research >> Content

《语料库研究方法》配套网页

发布者: [发表时间]:2023-01-08 [来源]: [浏览次数]:

Research Methods in Corpus Linguistics Companion Website

Xu, Jiajin et al. (forthcoming in 2023). Research Methods in Corpus Linguistics. Beijing: Foreign Language Teaching and Research Press.

许家金等,(2023待出),《语料库研究方法》,北京:外语教学与研究出版社。

书中涉及的语料文本、数据、统计代码、分析工具及文献将上传于此。

【说明】本书中较多涉及R语言软件及RStudio软件,但鉴于两款软件版本经常更新,下载网址也存在变化。加之,读者中有Windows和macOS等不同操作系统用户,若将R和RStudio的下载安装步骤写定的话,难保不会出现网址失效、界面不一等不确定因素,因此两个软件的安装便未在书中介绍,而是在配套网页上提供下载链接。

(1)下载R:https://cran.r-project.org/mirrors.html

(2)下载RStudio:https://posit.co/download/rstudio-desktop

书中涉及R语言的操作主要在(2)RStudio中实现,但需预装(1)R语言程序。

第一章:绪论

语料库分析方法概览(简版)

BC97

该图的绘制受到https://www.atmosera.com/blog/supervised-learning-with-k-nearest-neighbors/页面图片启发。

第二章:语料库建设的一般方法

-NeatConverter: Any text format to txt.

-English Corpora maintained by Mark Davies: https://www.english-corpora.org

-DEAP语料库:http://114.251.154.212/cqp/ (账号:test;密码:test)

-MedDEAP语料库:http://114.251.154.212/cqp/ (账号:test;密码:test)

-deGLOBE语料库:http://114.251.154.212/cqp/ (账号:test;密码:test)

-CROWN2021: http://114.251.154.212/cqp/ (账号:test;密码:test)。下载CROWN2021语料库:http://corpus.bfsu.edu.cn/CROWN2021.zip

-Wynne, M. (ed.). 2005. Developing Linguistic Corpora—A Guide to Good Practice. Oxford:  Oxbow Books for the Arts and Humanities Data Service.

-TECCL中国学生万篇英语作文语料库:http://corpus.bfsu.edu.cn/info/1070/1449.htm

-PowerGREP: https://www.powergrep.com

-Wcopyfind: https://plagiarism.bloomfieldmedia.com/software/wcopyfind/

-ISO 15836-1:2017 Information and documentation — The Dublin Core metadata element set, Part 1: Core elements, https://www.iso.org/standard/71339.html

-Lee, David. 2001. Genres, registers, text types, domain, and styles: Clarifying the concepts and navigating a path through the BNC jungle. Language Learning & Technology 5(3): 37-72.

-联合国教科文组织的“翻译索引”数据库(Index Translationum)

-燚炎英汉平行语料库:http://corpus.bfsu.edu.cn/Yiyan_Corpus.zip

-DEAP Baby语料库:http://corpus.bfsu.edu.cn/info/1082/1813.htm

-TreeTagger for Windows: http://corpus.bfsu.edu.cn/TreeTagger_Lite_English.zip

-TMXMall aligner: https://www.tmxmall.com/aligner/home

-中国英语学习者语料库常见错误分析平台:https://iwritecorpus.unipus.cn/iwrite-baby-client/#/

-许家金,2019, iWriteBaby中国学习者英语语料库的创建,《语料库语言学》(1):105-109

-ATLAS.ti、BFSU Qualitative Coder、BRAT (Browser-Based Rapid Annotation Tool)、Excel、MAXQDA、MMAX2、NVivo、QDA Miner、Quirkos、UAM Corpus Tool

第三章:语料库建设的网页爬取方法

-八爪鱼采集器:https://www.bazhuayu.com/download/windows

-BootCat: 根据用户提供的特定主题词爬取网页建库的工具

-HTTrack Website Copier

-WebCrawl R and Python codes (2023.05.04)

第四章:语料检索和语料清洗

-HTML网页批量转TXT文本工具(html2text)

-正则表达式助写工具:https://regex.ai(姚刚老师推荐)

-常用正则表达

第五章:语料数据可视化

-Visualization data and codes (2023.05.06)(请注意R语言代码相关文件所在路径不应有汉字)。

第六章:短语学分析

-The naked eye文本

-AntConc下载链接

-The search for units of meaning

-在StringNet中获取role的构型(基于BNC语料库)

-StringNet中获取part的构型(基于BNC语料库)

-Gross, Maurice. 1993. Local grammars and their representation by finite automata. M. Hoey. Data, Description, Discourse. Papers on the English Language in honour of John McH Sinclair, Harper-Collins, pp.26-38.

-李文中,2021,接着做:扩展意义单位分析[J],《当代外语研究》(6):13-26。

第七章:搭配构式分析

-Collostructional analysis data and codes (2023.05.04)

第八章:对应分析

第九章:主成分分析和因子分析

第十章:多维尺度分析

第十一章:聚类分析

第十二章:决策树和随机森林

第十三章:逻辑斯蒂回归

第十四章:语料库研究方法展望

-KH Coder: http://khcoder.net/en

-T-Lab(商业软件): https://www.tlab.it

-Orange: https://orangedatamining.com

-Voyant Tools: https://voyant-tools.org

-CorpusExplorer(德文界面):

-https://notes.jan-oliver-ruediger.de/software/corpusexplorer-overview/

-Hugging Face: https://huggingface.co


如有问题,您可在“语料库在线”发帖共同研讨:https://www.corpus4u.org/threads/10712/。您也可通过bfsucrg AT sina.com联系我们。

相关资源:

《语料库与话语研究》配套网页

《语料库与中国学习者英语口语研究》配套网页

>>>持续更新中<<<

Last update: 10 May, 2023