当前位置: HOME >> FLERIC News >> Content

The deGLOBE German written corpus available deGLOBE德语平衡语料库发布

发布者: [发表时间]:2022-09-17 [来源]: [浏览次数]:

The deGLOBE Corpus (V1.0)

INTRODUCTION

The deGLOBE Corpus (Version 1.0) is a balanced collection of contemporary German written texts, totaling one million words.The text samples in the corpus were gathered and cleaned up by Guying Zhou and four students of German, namely, Zhe Shu, Yingming Song, Yu Sun and Liang Xu, at Beijing Foreign Studies University (BFSU), China.The online version of the deGLOBE Corpus is available at BFSU CQPweb Corpus Portal (http://114.251.154.212/cqp/). Both user ID and passcode are "test".

KEY INFORMATION

Project leader: Guying Zhou of the National Research Centre for Foreign Language Education (NRCFLE), BFSU

Text collectors: Yingming Song of the National Research Centre for Foreign Language Education (NRCFLE), BFSU; Zhe Shu , Yu Sun and Liang Xu of the School of German Studies, BFSU

Time of compilation: September 2021 – September 2022

Size: Approximately one million words

Language: Contemporary German

Number of texts/samples: 500 samples of 2000+ words each (Short texts are pieced together to form one 2000-word text, but saved separately and marked with A, B, C etc. in the filenames.)

Period: The texts were published between 2010 and 2022.

Released in: September 2022

BACKGROUND

On 29 December 2021, Jiajin Xu launched the GLOBE (Global Languages Out of BFSU Expertise) Corpus project, an initiative which aims to collect present-day written texts in all 101 languages that are taught at BFSU. The sampling frame of the Brown Corpus was followed to make the multilingual GLOBE corpus family comparable to the Brown family corpora. The immediate application of the GLOBE is meant to be corpus-based dictionary compilation. The first batch of the corpora covers about 30 languages.

Table 1. Text categories in the GLOBE Corpus.

(Adapted from https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html)


Genre group

Category

Content   of category

#. of texts

I.   Informative prose (374)

Press (88)

A

Reportage

44

B

Editorial

27

C

Review

17

General   prose (206)

D

Religion

17

E

Skills,   trades and hobbies

36

F

Popular lore

48

G

Belles   lettres, biographies, essays

75

H

Miscellaneous

30

Learned (80)

J

Science

80

II.   Imaginative prose (126)

Fiction (126)

K

General fiction

29

L

Mystery   and detective fiction

24

M

Science fiction

6

N

Adventure   and Western

29

P

Romance   and love story

29

R

Humour

9

Total




500


The deGLOBE Corpus is a sub-project of the BFSU-funded GLOBE Corpus projects (Ref. 2022SYLZD015 and 2022SYLPY004), whose principal investigator is Prof. Jiajin Xu at the National Research Centre for Foreign Language Education, BFSU.

Please cite: Zhou, Guying et al. 2022. The construction of the deGLOBE Corpus. Yuliaoku Yuyanxue (Corpus Linguistics) 9(2).

deGLOBE语料库(1.0版)

介绍

deGLOBE语料库(1.0版)为当代德语平衡语料库。该库总容量约为100万词。

deGLOBE中的语料样本由北京外国语大学中国外语与教育研究中心周顾盈及三位德语专业学生舒哲、孙昱、徐亮及德语二外学生宋瑛明共同采集、加工完成。

该库可通过“北外CQPweb多语种语料库平台”在线访问:http://114.251.154.212/cqp/。账号、密码皆为test。

关键信息

deGLOBE语料库负责人:周顾盈(北外中国外语与教育研究中心)

主要语料文本采集者:宋瑛明(北外中国外语与教育研究中心);舒哲、孙昱、徐亮(北外德语学院)

建库周期:2021年9月至2022年9月

库容:约100万词

语言:当代德语

文本数:500个2000词文本(少于2000词的多个文本会在文件名末尾标注A、B、C等,以标明同属一个2000词的文本。)

文本原始出版年份:所收集文本均发表/出版于2010-2022年间。

语料库发布时间:2022年9月

背景

2021年12月29日,北外启动了“北外全球语料库集群”项目,又称“GLOBE语料库”项目。GLOBE的英文全称为Corpus of Global Languages Out of BFSU Expertise。该语料库集群旨在建设北外开设的101个语种的当代书面语语料库。

北外全球语料库集群中的单语平衡库借鉴布朗语料库的采样方案,使之与现有布朗家族语料库具有可比性,从而可开展相关外英或外汉对比研究。建设该系列语料库的首要应用目的是开展基于语料库的多语种词典编纂。首批建设的GLOBE家族语料库约为30个语种。

表1. 语料类型及相应篇数

(改自https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html)

体裁大类

体裁

类型

子体裁代码

子体裁

类型说明

文本数量(篇)

信息类(374篇)

新闻

A

新闻报道

44

B

社论

27

C

报刊评论

17

通用

D

宗教

17

E

日常技艺及消遣爱好

36

F

通俗读物

48

G

传记、回忆录等

75

H

政府或机构公文及文宣

30

学术

J

学术

80

虚构类

126篇)

小说

K

一般小说

50

L

侦探小说

12

M

科幻小说

12

N

历险悬疑小说

13

P

言情小说

30

R

幽默

9

合计




500

deGLOBE德语平衡语料库是北外中国外语与教育研究中心许家金教授主持的北外双一流项目“北外全球语料库集群”(项目编号:2022SYLZD015及2022SYLPY004)的子课题。

deGLOBE德语平衡语料库的引用方法:周顾盈等,2022,deGLOBE德语平衡书面语语料库的创建,《语料库语言学》(2)。

Das deGLOBE-Korpus (V1.0)

Einleitung

Das deGLOBE-Korpus (Version 1.0) ist eine ausgewogene Sammlung von geschriebenen deutschsprachigen Texten aus der Gegenwart mit insgesamt einer Million Wörtern.

Die Textstücke im Korpus wurden von Guying Zhou und vier Studierenden des Fachs Germanistik, nämlich Yingming Song, Zhe Shu, Yu Sun und Liang Xu, der Beijing Foreign Studies University (BFSU), China, gesammelt.

Die Online-Version des deGLOBE-Korpus ist unter http://114.251.154.212/cqp/ verfügbar. Sowohl Benutzer-ID als auch Passcode sind „test".

SCHLÜSSELINFORMATION

Projektleiterin: Guying Zhou, National Research Centre for Foreign Language Education (NRCFLE), BFSU

Textsammler*innen: Yingming Song, National Research Centre for Foreign Language Education (NRCFLE), BFSU; Zhe Shu, Yu Sun und Liang Xu von der School of German Studies, BFSU

Erstellungszeitraum: September 2021 – September 2022

Umfang: Ungefähr eine Million Textwörter

Sprache: Zeitgenössisches Deutsch

Anzahl der Textsamples: 500 Textauszüge mit je 2000+ Wörtern (Kurztexte werden zu einem 2000-Wörter-Textsample zusammengesetzt, aber separat gespeichert und mit A, B, C etc. im Dateinamen gekennzeichnet.)

Erscheinungszeitraum der gesammelten Texte: 2010 – 2022

Veröffentlichung des Korpus: im September 2022

HINTERGRUND

Am 29. Dezember 2021 startete Prof. Dr. Jiajin Xu das Projekt GLOBE-Korpora (Global Languages Out of BFSU Expertise). Das Ziel der Initiative ist die Sammlung von zeitgenössischen, schriftlichen Texten in allen 101 Sprachen, die an der BFSU unterrichtet werden. Um die mehrsprachigen Korpora der GLOBE-Familie mit den Korpora der Brown-Familie vergleichbar zu machen, wurde das Stichprobenverfahren des Brown-Korpus übernommen. Die unmittelbare Anwendung von GLOBE-Korpora ist die korpusbasierte Wörterbucherstellung. Die erste Serie der GLOBE-Korpora umfasst etwa 30 Sprachen.

Tabelle 1. Textkategorien im GLOBE-Korpus.

(nach https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html adaptiert)


Textsorte

Kategorie

Inhalt der Kategorie

#. der Texte

I.

Gebrauchsprosa (374)

Zeitung (88)

A

Reportage

44

B

Editorial

27

C

Rezension

17

Gebrauchsliteratur (206)

D

Religiöser Text

17

E

Anweisung

36

F

Folklore

48

G

Biografie

75

H

Bericht   und offizielles Dokument

30

Wissenschaft (80)

J

Fachliteratur

80

II.

Literarische Prosa (126)

Belletristik (126)

K

Allgemeine Fiktion

29

L

Krimi und Thriller

24

M

Science-Fiction

6

N

Abenteuerroman

29

P

Liebesroman

29

R

Humor

9

Total




500

Das deGLOBE-Korpus ist ein Teilprojekt des von der BFSU finanzierten GLOBE-Korpus-Projekts (Ref. 2022SYLZD015 und 2022SYLPY004), dessen leitender Forscher Prof. Dr. Jiajin Xu am National Research Centre for Foreign Language Education (NRCFLE), BFSU ist.