当前位置: HOME >> FLERIC News >> Content

第119期“我来读文献”活动第二阶段文字稿

发布者: [发表时间]:2024-08-25 [来源]: [浏览次数]:

该读者问答于2024年5月10日19:00线上举行。


1. 书中介绍了哪些好用的智能学术文献梳理网站?

许老师:在有大语言模型之前,我们用搜索引擎,比如谷歌、百度、必应去找文献,同时用的比较多的是期刊数据库和电子文献数据库。除了大语言模型之外,书中还提及了几个学术文献梳理网站,例如ChatDOC、Consensus、Connected Papers、Elicit、ResearchRabbit、ScholarAI、Scispace、SearchSmart。这些平台借助现有的期刊数据库和文献库,再结合大语言模型,支持聊天互动,具有概述文献、解读归类分析的能力。

以Elicit(www.elicit.com)平台为例,网站支持查找文献,还可以上传文献后生成概述。网站是交互式界面,可以像使用大语言模型一样输入提示语来布置任务。

2. 大语言模型方法和语料库方法有什么异同?

许老师:这是当前语料库研究者面临的新议题,我近期也在思考这个问题。学界现在有不同的认识。我目前倡导试行“大语言模型辅助的语料库语言学”(LLM-assisted corpus linguistics)。换言之,我们拥有的大语言模型这一新的研究工具,有效地补强了我们原有的语料库工具箱(complementary corpus toolkit)。我们之前的积累并不会归零,不但不会归零,还会成为我们后续开展研究的坚实基础。

大语言模型给我们带来了更加“合手”的新型研究工具。之前很多做不了或做不好的事情,现在通过大语言模型都能实现。例如,在语料库研究中,有关语义和功能的自动标注借助大语言模型从而成为可能。

语料库研究多是基于形式特征(form-based)的,需要以检索词或检索表达式,得到所需语例。而大语言模型则有助于我们开展从功能到形式(from function to form)的研究,例如研究隐喻、反讽、言语行为等。

书中所举的会话结构分析、语步分析、叙事结构分析、文化呈现分析以前都是手工完成,而现在大语言模型可以自动化标注,准确率和召回率都很高。通过自然语言的表述,大语言模型就可以进行自动标注。

尽管大语言模型在语义的功能分析上表现出色,但对于词频分析、搭配分析、词性标注、句法标注等经典任务,语料库方法仍具有优势。因此,经典任务应继续由成熟的语料库方法处理,而大语言模型则适用于需要更复杂语义和功能分析的研究。相信未来基于大语言模型的语义功能和话语分析、语用学研究将会产出更多成果。

3. 我们如何保证大语言模型的分析结果正确可信?

许老师:大语言模型分析结果的可信程度,正确与否,目前来看还应谨慎视之。其生成结果存在一定的波动性,多次生成同一结果有时会存在差异。这对科学研究来说,违反了可重复性原则(reproducibility)。相信后续大模型的发展,这一问题会得到解决。

另外,尽管结果有时会有所波动,但很多情况下大语言模型的分析结果还是相对稳定的,只是呈现的样貌发生了变化。例如,用大语言模型对乔姆斯基的经典句子“Colorless green ideas sleep furiously.”作依存句法剖析,两次生成了不同的句法树结构,但其实大语言模型分析的句法关系是正确的,只是画图的形式有所不同。

因此,我们在使用大语言模型时,必须结合已有的语言学知识进行验证。即使大语言模型提高了生产力,它仍不能替代人的判断。在使用新工具时,我们需要通过抽样校对来验证其准确性。例如,可以让模型分析100个句子,抽取其中10%—20%进行人工校对,如果大部分结果都是正确的,则可以推断模型的分析大致是可信的。

大语言模型提高的是生产力,但并不能取代我们的判断,最终的结论和判断仍应由人类的知识和经验来主导。

4. 用大语言模型所做的统计分析和文本标注,学界认可吗?

许老师:关于用大语言模型所做的统计分析和文本标注,学界是否认可的问题,从我个人观点来看,现阶段学界的接受度还不高,因为采用这种方法发表的学术研究为数不多,但可以预见,未来此类研究将呈明显上升趋势。

要讨论学界的认可问题,首先需要有足够的研究案例和实践成果。只有在广泛应用和测试后,学界才能进行评判。当前阶段,我们会听到一些专家和学者质疑这种方法的有效性。要使这种方法获得广泛认可,还需要通过更多的实证研究来证明其价值。

因此,在现阶段,我们必须在大语言模型的统计分析和文本标注后,进行必要的人工核对和校验工作。虽然自动化工具可以处理大量机械性的工作,但最终的定稿和验收仍需人工进行,这仍然要求研究人员具有较高的理论知识和分析技能。

5. 大语言模型能分析图片、音频、视频并开展多模态话语分析吗?

许老师:在我们的书中,仅简要列举了几个关于图片生成和教学材料制作的案例,如对图片中元素和图片元素间关系的分析。随着大语言模型版本的迭代,大语言模型的多模态分析能力正显著增强。

如今,大语言模型不仅可以生成文本、图片、音乐和视频,还能够进行多模态话语分析。例如,你可以给它一张图片或视频,将文字和非语言因素进行整合分析。

传统的语言学研究更多集中于书面文字和文本上,而现在我们可以将视觉元素(如面部表情、身体语言等)结合起来进行分析。这使得我们能涵盖更多的非语言因素。视觉元素包括面部表情、手势动作、头部运动和姿态等,这些大语言模型都能通过提示语自动提取和描述,从而进行深入分析。

对于音频和视频的分析,目前还没有特别成熟的大语言模型平台和应用,但后续肯定会有。例如,Sora及国内的视频生成模型也在不断发展。由于视频是由许多帧图片组成的,因此现阶段我们可以通过抽取关键帧(keyframe)的方法进行分析,我们团队在现阶段正是这样进行多模态分析的。

读者提问

图片

1. 书中很多处提到了用LLM生成Python代码,请问生成代码后怎么操作?

孙老师:生成的Python代码可以复制到Python环境中。关于Python环境的安装,大家可以参考百度或CSDN论坛上的详细教程,包括如何配置路径、安装IDLE(代码编辑和运行的交互环境)等。一键复制生成的代码后,可以将其粘贴到预装的Python环境中并运行。

许老师:大语言模型为我们生成了代码,但是运行程序仍然需要在Python环境中进行。因此,掌握Python的基本操作仍然是必要的。虽然我们不再需要手动编写代码,但需要复制并粘贴到Python环境中。除了Python的安装外,还需进行基本的环境配置,比如安装PyCharm这样的集成开发环境。

每个人可能对Python的使用有不同的习惯,我个人较为熟悉的是Jupyter Notebook,它允许我们通过浏览器界面粘贴和运行代码。总体来说,大语言模型已能为我们生成大部分常见任务的代码,但在运行时可能会出现错误,还需要我们人工进行核对。

大语言模型并不能完全自动化所有工作,我们仍需具备一定的判断力和知识储备。首先,代码本身可能因版本或库的更新问题而出错,需要我们诊断和修正;其次,大语言模型可能无法完全理解我们的需求,因此需要我们判断它是否正确回答了我们的研究问题。这些都是人的价值所在。

2. 书中第123页给出了一个同类文献汇总的案例,这段文献汇总很像文献综述,但是文献综述讲究有述有评,而这段文字是有述无评,那么LLM能做到有述有评吗?

孙老师:目前大语言模型是可以进行评价的。书中3.1.3节例子主要涉及文献汇总,使用的是please summarize这个提示语,因此其结果主要是汇总。而在3.1.4节涉及研究趋势挖掘时,我们使用了could you analyze the overall research trend这样的提示语,就实现了内容有述有评。事实上,在篇幅有限的情况下,3.1.3节的部分评语被删减了。如果需要看到更多评价内容,可以通过调整提示语,例如“what is the research gap of the following literature?”,来实现对文献的评价。

许老师:能否进行评述,取决于我们编写的提示语。限于篇幅,3.1.3节中的某些评价内容被删减。但通过具体的提示语,例如Please analyze、Please evaluate、Please make critical comment或Compare the similarities and differences,可以实现有述有评的综述。

不过,需要提醒的是,尽管大语言模型可以提供评述,其内容正确性和有效性仍需人工判断和验证。研究者必须具备足够的常识和领域知识,以确保对文献评估的准确性。人依然是最重要的决策者,需具备独立的判断力和评估能力。

3. 过去我们用TreeTagger、StandfordNLP进行词性标注,而现在处理单个文本用LLM就可以了,本书在第135页说这为文本分析提供了灵活选择,那么到底选择哪个方法的依据或标准是什么呢?同样的问题也存在于量化统计工具上,最早我们用SPSS,接着是R语言,现在LLM统计得也很好,那么这些统计工具的选用标准又是什么呢?

赵老师:当前使用大语言模型(LLM)或基于LLM的聊天机器人进行文本分析确实提供了更多的灵活性。相较于传统工具,LLM能够更好地处理意义或功能方面的分析,这正是传统统计工具的短板。

当需要快速获得一个粗略结果,对准确性要求不高时,可直接使用LLM工具。其方便、快捷的特点非常适合此类应用场景。而在需要高精度和高可靠性的定量分析时,传统工具或经过LLM微调的专业工具则更为合适。这些工具在可重复性和可靠性方面具有固有优势。

在量化统计工具方面,LLM本身并不直接作为量化统计工具。真正的量化统计工具仍然是SPSS、R语言等。这些专业工具具备形式化表达及准确的计算方法,是进行定量分析的首选。LLM提供的自然语言理解和生成功能,更接近于人类的主观分析能力,适用于需要自然语言理解与生成的任务。然而,定量分析需要依赖于有特定公式和计算方法的专业工具,如SPSS和R语言。

许老师:对现在主流的语言大模型来说,文本分析是LLM最为擅长的领域,也是值得我们去尝试的。

LLM在统计分析方面稍显不足,这主要是因为在设计之初,LLM并没有特别针对统计分析进行优化。虽然随着需求的增加,LLM的训练中也包括了大量的Python代码和统计软件包,这使得LLM在统计分析上逐渐有所提高,甚至能够替代一些传统的统计工具。然而,传统的统计工具由于经典且可靠,且在学界内广泛接受,因此在目前阶段,使用这些经典工具进行统计分析依然是较为稳妥的选择。

正如前面进行的区分,在一些语料库不擅长的领域,如主题内容分析、语义隐含意义分析、隐喻研究和修辞分析等方面,LLM提供了更多的可能性,尤其是在多模态分析中,LLM展现出了巨大的潜力,相信会激发出很多创新性的研究。

4. 因为计算机技术发展太快,很多CALL理论还没有沉淀下来就又出了新的理论,我最早学Chapelle的CALL理论,后来又学Lamy & Hampel的技术赋能语言学习理论,本书中的问商理论也很棒。但是总感觉没有一个不断延续下来的稳定理论,不像社会文化理论那样百年繁盛,这也是我做CALL研究时总提不起兴趣的一个重要原因。

许老师:首先,需要明确的是“问商”并不是一个理论体系,只是一种提法,旨在提醒大家在学习和使用大语言模型时,注意学会如何提问。这种提法的核心在于通过提问来有效获取所需信息。要想问得好,就必须清楚自己需要什么,这就是需求提炼的能力。许多学生和老师在研究选题时感到困惑,往往是因为前期积累不足,缺乏常识性知识和领域知识。因此,掌握需求提炼和提示语的编写是关键。

问商的最重要目的是“以问促创”,希望通过提出好的问题,获得新的见解并开展创新研究。从这个角度看,问商本身并不是一个理论,而是一种认识。

关于理论更新的问题,新的理论不断出现是件好事,这不仅不会取代旧的理论,反而可以丰富我们已有的知识体系。旧的理论并没有过时,许多经典理论依然具有广泛的适用性。计算机辅助教学及教育技术领域的研究成果历久弥新,是学者们长期研究的结晶,这些成果都不是现有新理论可以完全替代的。

学术研究需要不断学习和更新理论,同时也要在已有的知识框架中深耕细作。当前我们的研究需求和出发点仍然是由人来决定的,而新技术和新理论则是我们实现研究目标的工具和助手。以开车为例,导航系统和自动驾驶功能可以帮助我们达到目的地,但目的地的设定和路径的选择仍然需要人为决策。即使在自动化程度较高的情况下,人仍要进行最终的判断和决策。

因此,无需担心人工智能的出现会威胁到人在学术研究中的主导地位,事实上,它只是帮助我们减轻一些机械性工作,让我们有更多的时间进行思考,开展更有价值的研究。这是希望与各位老师和同行们分享的心得。

5. 用大语言模型做视频的多模态分析如何确定并提取关键帧?

许老师:如何确定并提取关键帧是由研究者自己来决定的。关键帧从视频中筛选出来,可以借助现有的视频播放工具实现。关键帧的选择是人为操作的过程,需要研究者根据具体的研究问题进行选择。

视频分析不应完全依赖自动化技术,因为研究者在其中的作用至关重要。例如,如果研究者关注的是两个人面对面握手这一场景,那么就需要主动找到相关画面。关键帧的选择完全由研究目的和研究问题驱动,而不是由工具或技术来决定。

这一点反映了之前提到的“问商”概念中的一个重要方面,即明确研究需求。研究者需要明确自己的需求,以指导关键帧的选择和后续的分析工作。

6. 用大语言模型生成参考作文时,如何调整参考作文的词汇难度和语法复杂度?书中使用的标准都是欧框,如何针对高中阶段生成参考作文?

许老师:我们之前试过向模型提供四级、高中、高考的相关提示,最终生成的内容都会偏难。后来使用CEFR(Common European Framework of Reference for Languages,欧洲语言共同参考框架)来限定时,模型的表现较好。因此,我们尝试使用CEFR进行不同级别的区分。我见过一些外国网友的提示语,他们使用的是graders,比如第五年级、第九年级等,这类似于美国的K-12教育系统级别。因此,对于高中水平的内容,可以尝试使用具体的年级来进行区分,如第十、十一、十二年级。

至于词汇和语法复杂度的要求,可以因作文任务的不同而调整。如果希望包含特定的词汇和短语,可以在提示语中明确说明。例如,可以指明生成的作文要包含定语从句、名词性从句或独立主格结构等。明确教学目标和语言目标非常重要,可以将其具体化,直接在提示中告知模型所需的词汇要求等。所有这些方法都是通过尝试得出的,并没有固定的模式,需要根据实际情况进行调整。

7. 大语言模型如何应用于英汉对比研究?

许老师:我建议大家参考秦洪武老师、周霞老师最近在《外语教学与研究》上发表的一篇文章《大语言模型与语言对比研究》。秦洪武老师是国内用语料库进行英汉对比研究的代表性学者。过去的一年中,秦老师深入探索并尝试使用大语言模型进行英汉对比研究,取得了许多有价值的结论。同时,秦老师的研究和观点已经成文,非常值得参考。最近,秦老师及其团队仍在继续相关研究,并尝试从英汉对比扩展到更多语言的对比研究。这是因为大语言模型在多语言处理方面也展现出了显著优势。

8. 如何完善提示语?

许老师:关于提示语的完善,书中提到了几个思路,如细化、明确化、给出定义和例证等。这些技术方法在网上的一些帖子中被称为one-shot或few-shot提示,即提供一个或多个例子,以及一些定义,将任务拆解,通过不断地反问和纠正,最终形成一个更完善的提示语,解决任务中的问题。

在实践中,我们也是这样操作的,经过长时间的实践积累,我们形成了一些相对稳定且可靠的提示语,这些提示语已经被上传到一个名为PromptBank的开放性网站上。此外,我们还尝试了图片标注、概念隐喻标注和评价理论标注等内容。大家在使用过程中如果觉得某些提示语不合适,也可以反馈给我们,这些提示语是可以随时修改的,平台本身是开放式的,希望大家积极参与共建。

最后,我提供一下这个平台的网址:https://promptbank.unipus.cn。这个平台由外研社的技术人员制作,长期有效且免费开放,供大家共同学习、共享和交流。好的资源不应藏着掖着,我们希望通过这本书、这个平台和我们的网站,和大家一起共同学习交流。