当前位置: HOME >> CL News >> Content

《语料库与话语研究》配套网页Corpora and Discourse Studies Companion Website

发布者:xujiajin [发表时间]:2019-06-28 [来源]: [浏览次数]:


许家金,2019,《语料库与话语研究》。北京:外语教学与研究出版社。截止2023年2月,该书已印刷7次。

第一章:概述 Chapter 1: Introduction

第二章:话语研究的语料库方法 Chapter 2: Employing Corpus Methods in Discourse Studies

本章概述了基于语料库的话语研究的理论基础、研究方法和分析步骤,具体包括:1. 介绍了服务于话语研究的语料库建设,包括确定研究目标、语料选择和获取、文本格式、元数据标注等。 2. 介绍了利用通用语料库工具如词表、主题词表、索引分析、搭配分析等进行话语研究的基本方法和步骤。3. 介绍了一些专门用于话语研究的专用工具,如衔接分析工具、体裁分析工具、语域研究工具、多模态话语研究工具等。4. 通过具体案例阐述了如何利用这些语料库工具开展话语研究,考察话语的结构、意义和社会属性特征。

[新发现文献]2019年7月3日新读到1993年Caldas-Coulthard基于语料库的批判话语研究文献,与《语料库与话语研究》第38-39页提到的Stubbs & Gerbig (1993) 都可视作早期代表性语料库话语研究成果。可见上世纪90年代初,基于语料库的批判话语研究已逐步兴起,而非个别现象。(Caldas-Coulthard, Carmen. 1993. From discourse analysis to critical discourse analysis: The differential re-presentation of women and men speaking in written news. In Gwyneth Fox, Michael Hoey, & John M. Sinclair (eds.). Techniques of Description: Spoken and Written Discourse. London: Routledge. 196-208.)

道歉案例语料下载

Trump-Clinton语料下载

第46页:Wynne, Martin (ed.). 2005. Developing Linguistic Corpora: A Guide to Good Practice. Oxford: Oxbow Books.

第48-50页:2.2.2节:MICUSP语料库在线检索网址:http://micusp.elicorpora.info,MICUSP语料库全文下载

第50-51页:PowerGREP软件网址:http://www.powergrep.com

第52页:BNC Web Indexer:http://ucrel.lancs.ac.uk/bncindex/form.html

第52-54页:Sub-corpora Creator下载地址:http://corpus.bfsu.edu.cn/Sub-corpus_creator.zip

第54页:Free CLAWS web tagger词性赋码工具:http://ucrel-api.lancaster.ac.uk/claws/free.html

第54-55页:TreeTagger for Windows:http://corpus.bfsu.edu.cn/TOOLS.htm

第56页:USAS Online English Tagger:http://ucrel.lancs.ac.uk/usas/

第57-85页所使用的BFSU PowerConc软件,可从http://corpus.bfsu.edu.cn/BFSU_PowerConc_1.0_beta_25b.zip下载。

第76页:GraphColl软件:可从http://www.extremetomato.com/projects/graphcoll/下载。该软件是一款索引分析工具(concordancer),与同类工具不同之处是可以生成可视化搭配网络(collocational network),因此该索引工具称为GraphColl,取graphical collocational tool之意。该软件支持多语言。

第93页:WordSkew软件网站

第93-96页:TextSmith Tools:可从http://corpus.bfsu.edu.cn/TextSmith.zip下载。所用120篇作文语料可从这里下载

第96-100页:MAT多维分析工具(Multidimensional Analysis Tagger):可从http://corpus.bfsu.edu.cn/TOOLS.htm下载。俄语的Python版MD分析工具可见:https://github.com/Askinkaty/MDRus_analyser。俄语语料需先经RFTagger(http://portal.clarin.nl/node/18486)标注。

第100-102页:ELAN多模态标注工具,可从https://tla.mpi.nl/tools/tla-tools/elan/download/下载。

第三章:语料库与话语建构研究 Chapter 3: Studying Discursive Construction Using Corpus Methods

本章利用SketchEngine考察1亿词次的BNC语料库中子女、夫妻、父母及祖父母4组家庭角色在话语中的典型搭配及上下文语境,从而揭示出英国英语中4组家庭角色及性别身份的话语建构。研究发现,英国英语中家庭角色总体呈现明显的性别差异。其中丈夫和父亲的角色在体力、财力、权力中处于强势,女性处于弱势地位。在家庭生活的大背景下,代际差异、性别差异相互作用,使得各亲属成员的话语形象形成异中有同、同中有异的对立统一格局。

Sketch Engine(文擎)网络语料库检索系统:https://www.sketchengine.eu

文擎免费语料库:https://app.sketchengine.eu/#open

话题建模工具:Topic Modeling Tool (需要预装Java Runtime Environment运行环境

相关研究1:Investigating the collocational behaviour of MAN and WOMAN in the BNC using Sketch Engine

相关研究2:Medical men and mad women - a study into the frequency of words through collocations

第四章:语料库与立场评价研究 Chapter 4: Investigating Stance Using Corpus Methods

本章将61名中国大学生的英、汉语同题议论文中的立场标记(stance marker)按四个类别(知识性、义务性、态度性、文本性)分别进行手工标注。基于对这些立场标记的定量分析及以立场标记为节点词的索引行分析得出的结果显示:61名学生所写的61篇英语议论文中的立场标记与61篇同题汉语议论文中的标记语总体呈现较高正相关(r=0.60)。其中,知识性、态度性和文本性这三类标记语在英、汉语议论文中存在显著相关,以态度性标记语相关性最高。同时,还发现中国英语学习者在语义层面上趋于运用类别相同的英、汉立场标记;所使用的标记语在词汇和短语层面呈现出英汉语高度对应的特点。

英汉同题作文语料下载

AnnoTool标注工具下载

BFSU Qualitative Coder质性标注工具:http://corpus.bfsu.edu.cn/BFSU_Qualitative_Coder_1.2.zip 网友自制操作视频

有豆瓣网友指出,本案例所用语料规模过小,结论可推广性有限,所言极是。另有更大规模的学习者同题口头叙事话语可用。

第五章:语料库与衔接连贯研究 Chapter 5: Exploring Cohesion and Coherence Using Corpus Methods

现有语料库翻译学研究,多数限于描述译文的词汇运用,少量涉及句法特征,对译文语篇特征的关注较少。本章介绍的研究案例借助在线文本分析工具Coh-Metrix,对比了汉译英翻译英语和原创英语中的25项语篇衔接特征。研究发现,翻译英语中有多项语法和词汇衔接特征与原创英语存在显著差异,呈现出衔接显化的特点。其中语法衔接突出表现为多用各类连词。词汇衔接方面,以语篇中句间实词重复现象为典型特征。英语译文的语法衔接显化,大致可从汉语重意合,英语重形合得到解释。而词汇衔接显化,可能与汉语源语特征以及英语译文中多用高频词和泛义词有关。本章还就衔接显化作为翻译普遍性特征进行了讨论。

Marco Polo translational English Corpus下载

Coh-Metrix网站:http://tool.cohmetrix.com(Coh-Metrix单机版:https://soletlab.asu.edu/coh-metrix/

可用于批量分析英文衔接特征的单机版软件TAACO

第六章:语料库与语域变异研究 Chapter 6: Analyzing Register Variation Using Corpus Methods

本章所介绍的研究运用多维分析(MF/MD)法,对商务英语和通用英语语域及相应的新闻、学术子语域进行语料库对比分析。研究表明:多维分析法能有效区分商务英语和通用英语。该方法可自动从6个话语功能维度(交互性/信息性表达、叙述性/非叙述性关切、指称明晰性/情境依赖型指称、显性劝说型表述、信息抽象与具体程度、即席信息组织精细度)解析商务英语与通用英语及子语域的差异,并能从67个词汇语法特征中挖掘出各语域间的区别性特征。从话语功能上看,商务英语表现出较强的交互性(如多用第一、二人称代词)和劝说性(如多用预期情态表达、动词不定式);而通用英语具有较强的信息性(如多用过去分词短语)和叙述性(如多用第三人称代词、动词过去时)。

Douglas Biber 1984年博士论文全文下载:A model of textual relations within the written and spoken modes

本章所用商务英语语料库因版权所限,无法提供全文,但可以通过http://114.251.154.212/cqp/平台找到Business English Corpus,免费在线使用。账号密码均为test。

MAT tagger多维分析工具可在http://corpus.bfsu.edu.cn/TOOLS.htm页面底部找到。

第七章:体裁短语学与词典研编 Chapter 7: Applying Genre Phraseology to Dictionary Compilation

本章基于100万词的医学英文国际期刊论文语料库,通过对医学英语词典宏观结构的确定,以及对自编医学英语词条delivery微观结构的详解,展示了体裁短语学方法的学术英语词典编纂价值。宏观结构方面,本研究利用"主题词法"甄选词目,同时确定词典规模;微观结构方面,我们针对不同短语结构揭示出的多重词义,按频率高低排定义项。同时,利用"整句释义法"概括出各义项最典型的短语结构和语义内涵。例证则采用高频搭配和真实例句两种形式呈现条首词的短语特性。上述释义、例证等还充分考虑到医学英语的子学科倾向和实证论文的语步分布信息,从而更适应学术英语学习的需求。

MedAca/MedDEAP学术英语语料库100万词版本,可通过http://114.251.154.212/cqp/找到MedAca (Medical English discourse of Academia) Corpus在线检索。

MedAca/MedDEAP学术英语语料库500万词版本,可在线检索:http://114.251.154.212/cqp/,账号密码都是test

第八章:语料库话语研究展望 Chapter 8: Future Directions in Corpus-Based Discourse Studies

本章概述了语料库话语研究的国际发展现状和我国的发展前景。主要内容包括:1)介绍了当前国际上主要的几个语料库话语研究团队,如兰卡斯特大学团队、伯明翰大学团队、北亚利桑那大学团队以及中国香港地区学术英语研究团队,概括了各团队的研究方向和特色。2)分析了当前国际语料库话语研究存在的一些问题,如研究取向单一、对话语内在机制关注不够等。 3)提出我国语料库话语研究的发展建议,包括本土化选题、理论深化和技术方法强化三个方面,以期我国学者能在国际语料库话语研究领域占有一席之地。

兰卡斯特大学语料库团队

伯明翰大学语料库团队

勘误(errata)

第24页:Martin评价系统原始框架中engagement(介入)系统包含monogloss和heterogloss两类。monogloss下又包括entertain、proclaim和disclaim子系统;heterogloss下的子系统包括contract、expand。我的这个表格源自我本人所做的叙事话语评价研究案例,因此只保留了monogloss下面的子系统,忽略了hetergloss下面的子系,未能完整呈现Martin的原始理论框架。谢谢李涛老师指出该问题(参见:Martin, J. & P. White. 2005. The Language of Evaluation: Appraisal in English. Basingstoke, Hampshire: Palgrave Macmillan. 该书38页有评价资源框架图。)

第45页:McEnery & Baker(2017)应改为钱毓芳、McEnery(2017),即:钱毓芳、T. McEnery. 2017. A corpus-based discourse study of Chinese medicine in UK national newspapers《外语教学与研究》(1):73-84。谢谢钱毓芳老师指出该问题。

第21页及193页:近日读Ken Hyland(2005)Metadiscourse一书,其中指出metadiscourse一词由Harris于1959年创制。其所引文献为Harris, Z. 1959. The Transformational Model of Language Structure. Anthropological Linguistics 1:1.27-29. 然而,通读该文,并检索metadiscourse,未见踪影。Hyland是metadiscourse领域的大家,我担心自己在《语料库与话语研究》一书21页所引用文献出处有误。现在看来,我的引文出处无误,应是Hyland的引文不实。不过,我在193页参考文献处的页码出现了错误,应为937-950。查证后发现我提供给出版社的Word文档中的相关文献条目为:Harris, Z. 1959. Linguistic transformations for information retrieval. In Proceedings of the International Conference on Scientific Information, Volume 2. Washington,  D.C.: National Academy of Sciences-National Research Council. 937-950。不知后来为何被改成了458-471。

195页:应删去文献(1)。

(1) Jiang, F. & K. Hyland. 2016. Nouns and academic interactions: A neglected feature of metadiscourse. Applied Linguistics 4: 1-25

正文82页Jiang & Hyland (2016: 24)也应相应更新为Jiang & Hyland (2018: 530)。感谢李健同学指正。

(2) Jiang, F. & K. Hyland. 2018. Nouns and academic interactions: A neglected feature of metadiscourse. Applied Linguistics 39(4): 508-531.

欢迎纠错,邮件请发至bfsucrg AT sina DOT com

说明

本书并未花篇幅介绍Alan Partington等人提出“语料库辅助的话语研究”(Corpus-assited Dicourse Studies, CADS),因为就各方面而言,我并没有看出CADS与基于语料库的话语研究(corpus-based discourse studies)有何不同。

**********

Title: Corpora and Discourse Studies

Author: Jiajin Xu

Year of Publication: 2019

Publisher: Foreign Language Teaching and Research Press, Beijing

As of April 2023, the book has gone through seven printings.

The fields of corpus linguistics and discourse studies share a focus on the examination of meaning derived from natural language data. Corpus linguistics lends valuable language evidence and robust analytical tools to discourse studies. Additionally, the co-selection and co-variance of linguistic features in relation to contextual variables in corpus analysis provide theoretical insights for discourse analysis.

Corpora and Discourse Studies, authored by Jiajin Xu, delivers a thorough exploration of the well-founded and burgeoning discipline of discourse studies. The first couple of chapters provide a clear explanation of the core concepts and methodologies pertinent to corpus linguistics and discourse studies. Chapters three to seven delve into specific topics with the support of detailed case studies, including discursive construction, linguistic evaluation, cohesion and coherence, register variation, and genre-informed dictionary compilation. The book encompasses various types of language data, such as media discourse, interlanguage, translated texts, business discourse, and academic discourse. The final chapter, chapter eight, provides predictions on the future trajectory of corpus-based discourse studies.

The book is presumably the first Chinese monograph that addresses corpus-based discourse studies in a programmatic fashion. Notably, unlike English titles published by international publishers, which tend to focus heavily on critical discourse analysis, this book maintains a balance between discourse organisation and discursive representation of socially pertinent topics.

Last updated: 7 August, 2023.


相关资源

《语料库研究方法》配套网页

《大语言模型的外语教学与研究应用》配套网页

《语料库与中国学习者英语口语研究》配套网页