2024年8月10日,第四届语料库建设与应用研讨会在京举办。本届研讨会主题为“语料库语言学前沿:数据驱动的语言研究,创新应用与未来展望”,由中国社会科学院语言研究所语料库暨计算机语言学研究中心、北京外国语大学中国外语与教育研究中心、国家社会科学基金重大项目(23&ZD314)主办,外语教学与研究出版社协办。中国社会科学院语言研究所顾曰国教授、北京航空航天大学卫乃兴教授和梁茂成教授以及中国社会科学院语言研究所张永伟研究员分别作了主旨发言。
开幕式上,中国社会科学院语言研究所所长、国家社会科学基金重大项目(23&ZD314)首席专家张伯江研究员代表主办单位向与会专家学者表示热烈欢迎和诚挚感谢。张伯江所长介绍了研讨会的发展历史及本届会议的新特点,并回顾了中国社会科学院语言研究所语料库暨计算语言学研究中心的发展历程,指出研究中心在语料库语言学和计算语言学领域的重要作用。他表示,研究中心高度重视语料库建设工作,希望与同行学者在语料库建设领域共同努力,汲取各家所长,建设分类合理、功能丰富、动态更新的语料库,推动语言研究的创新与发展。
北京外国语大学中国外语与教育研究中心副主任许家金教授在开幕致辞中表达了对于能够联合主办本次高规格研讨会的诚挚谢意,以及对发言专家和参会学者的热烈欢迎。许家金教授表示,本次会议是汉语学界与外语学界的盛大聚会,希望与会人员能够彼此分享和交流研究成果,包容吸纳、取长补短,引领语言学界的交流和融合,并预祝研讨会取得圆满成功。
中国社会科学院语言研究所顾曰国教授以“论老年人生历程多模态语料库建设”为题进行主旨发言,探讨语料库语言学的本质和发展方向。他指出,许多人生意义是通过语言创造的,语料库语言学应从鲜活体验出发,以人为中心进行研究。语料库语言学不仅是方法论,更是语言学的重要分支,其终极目标是通过语言研究来理解人。顾教授提出了两个奠基性命题:语言事实原则,即应将自然自发的语料作为语料库的基础;人为终极目的原则,即语料库的构建需服务于特定的研究目标。最后,顾教授以构建老年专门人群多模态语料库的研究实践为例,展示了语料库语言学在数字化重构人生历程方面的应用价值和潜力。
北京航空航天大学卫乃兴教授的报告以AI-assisted corpus-based studies of discourse: Significance and limitations of machine learning techniques为题,探讨了机器学习技术对语料库语言学研究的影响。卫教授重点分析了相关技术在话语分析领域的应用,数据规模的不断扩大带来诸多挑战,如:如何使用新计算技术处理大规模数据、如何挖掘局部语境暗藏的态度意义、如何精细分析精密细微组织等,因此,亟需改进当前的数据处理技术。随后,他通过量化和可视化方法展示了聚类分析、主题建模、向量建模等技术的优异性能,同时强调智能分析技术虽能带来便利,但也存在随机性和任意性等局限,因此要重视真实文本的阅读,结合具体研究问题对技术进行调试和干预。
北京航空航天大学梁茂成教授围绕“本地大语言模型与知识谱图构建”一题,首先回顾了搜索引擎的发展简史,介绍了Perplexity、SearchGPT等基于大模型的新一代搜索引擎,并通过实际操作展示其能够有效整合全网信息、提供个性化和可溯源的回复内容等优势,指出其将对传统搜索引擎构成极大挑战。随后,他介绍了检索增强生成(RAG)技术及其在信息提取领域的应用,展示了它将非结构化文本转化为结构化知识,并进行语义分析的功能。最后,梁教授分享了ChatPDF、Genspark等多个前沿信息检索工具,并展望了RAG技术和知识图谱技术在语言学领域的广泛应用前景。
中国社会科学院语言研究所张永伟研究员围绕“国家语料库的研制”一题进行发言,张伯江研究员为该报告的通讯作者。张永伟研究员介绍了国家语料库的项目背景、建设进展和未来展望,并指出其是一项由国家级机构建设的重大文化工程。目前,国家语料库数据规模已达30亿字,涵盖报刊、法律、教材等子库,同时,研究团队开发了支持检索、统计、搭配、对比等功能的在线分析工具,并对语料进行了分词、词性标注、句法分析及汉语拼音和词义标注的研究。他表示,未来将在项目中进一步融合人工智能技术,提升智能分析能力,并呼吁更多高质量中文语料库入驻,从而共同构建开放共享、规格统一、多元融合的中文资源联盟。
上午和下午的主旨发言分别由张永伟研究员和许家金教授主持。
主旨发言过后,研讨会的两场分组发言分上、下午进行,与会代表分为语料库建设、词典与词义研究、汉语研究、英语研究四组,基于本组主题从多学科角度探讨了语言研究与语料库及人工智能技术深度融合的有效途径,分享自己的真知灼见和研究成果。
北京外国语大学中国外语与教育研究中心刘鼎甲副教授在研讨会闭幕式上作总结发言,他用三个字来概括本次研讨会:“急”——象征着语料库语言学的理论、方法、技术和语言资源发展上的紧迫感;“广”——代表着语料库研究跨学科的本质;“久”——寓意着语料库研究在前沿理论和技术的推动下,展现出可持续发展的蓬勃生机。本次研讨会与会者共同探讨前沿问题,分享语料库建设最新成果,会议内容富有前沿性、启发性,为我国语料库语言学的建设和发展指明了创新方向。