The caGLOBE Corpus (V1.1)
INTRODUCTION
The caGLOBE Corpus (Version 1.1) is a balanced collection of contemporary Catalan written texts, totaling one million words.
The text samples in the corpus were gathered and cleaned up by Wei Sun, School of Hispanic and Portuguese Studies, Beijing Foreign Studies University (BFSU), China.
The online version of the caGLOBE Corpus is available at http://114.251.154.212/cqp/. Both user ID and passcode are ‘test’.
KEY INFORMATION
Project leader: Wei Sun, School of Hispanic and Portuguese Studies, BFSU
Text collector: Wei Sun, School of Hispanic and Portuguese Studies, BFSU
Time of compilation: January 2022 – August 2022
Size: Approximately one million words
Language: Contemporary Catalan
Number of texts/samples: 500 samples of 2000+ words each (Short texts are pieced together to form one 2000-word text, but saved separately and marked with A, B, C etc. in the filenames.)
Period: The bulk of the texts were published between 2010 and 2022.
Released in: August 2022
BACKGROUND
On 29 December 2021, Jiajin Xu launched the GLOBE (Global Languages Out of BFSU Expertise) Corpus project, an initiative which aims to collect present-day written texts in all 101 languages that are taught at BFSU. The sampling frame of the Brown Corpus was followed to make the multilingual GLOBE corpus family comparable to the Brown family corpora. The immediate application of the GLOBE is meant to be corpus-based dictionary compilation. The first batch of the corpora covers about 30 languages.
Table 1. Text categories in the Brown Corpus.
Adapted from https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html
|
Genre group |
Category |
Content of category |
#. of texts |
I. Informative prose (374) |
Press (88) |
A |
Reportage |
44 |
B |
Editorial |
27 |
C |
Review |
17 |
General prose (206) |
D |
Religion |
17 |
E |
Skills, trades and hobbies |
36 |
F |
Popular lore |
48 |
G |
Belles lettres, biographies, essays |
75 |
H |
Miscellaneous |
30 |
Learned (80) |
J |
Science |
80 |
II. Imaginative prose (126) |
Fiction (126) |
K |
General fiction |
29 |
L |
Mystery and detective fiction |
24 |
M |
Science fiction |
6 |
N |
Adventure and Western |
29 |
P |
Romance and love story |
29 |
R |
Humour |
9 |
Total |
|
|
|
500 |
The caGLOBE Corpus is a sub-project of the BFSU-funded GLOBE Corpus projects (Ref. 2022SYLZD015 and 2022SYLPY004), whose principal investigator is Prof. Jiajin Xu at the National Research Centre for Foreign Language Education, BFSU. Out of the projected corpora of 101 languages, the Catalan corpus is the second corpus made publicly available.
caGLOBE语料库(1.1版)
caGLOBE语料库1.1版是当代加泰罗尼亚语平衡语料库。该库总容量约为100万词。caGLOBE中的语料样本由北京外国语大学西葡语学院孙巍老师采集、加工完成。该库可通过北外多语种语料库平台BFSU CQPweb在线访问:http://114.251.154.212/cqp/。账号密码皆为test。
关键信息
caGLOBE语料库负责人:孙巍(北外西葡语学院)
语料文本采集者:孙巍(北外西葡语学院)
建库周期:2022年1月至2022年8月
库容:约100万词
语言:当代加泰罗尼亚语
文本数:500个2000词文本(少于2000词的多个文本会在文件名末尾标注A、B、C等,以标明同属一个2000词的文本。)
出版年份:绝大分部文本发表于2010-2022年间。
语料库发布时间:2022年8月
背景
2021年12月29日,北外启动了“北外全球语料库集群”项目,又称“GLOBE语料库”项目。GLOBE的英文全称为Corpus of Global Languages Out of BFSU Expertise。该语料库集群旨在建设北外开设的101个语种的当代书面语语料库。
北外全球语料库集群中的单语平衡库借鉴布朗语料库的采样方案,使之与现有布朗家族语料库具有可比性,从而可开展相关外英或外汉对比研究。建设该系列语料库的首要应用目的是开展基于语料库的多语种词典编纂。首批建设的GLOBE家族语料库约为30个语种。
表1. 语料类型及相应篇数(改自https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html)
体裁大类 |
体裁 类型 |
子体裁代码 |
子体裁 类型说明 |
文本数量(篇) |
信息类(374篇) |
新闻 |
A |
新闻报道 |
44 |
B |
社论 |
27 |
C |
报刊评论 |
17 |
通用 |
D |
宗教 |
17 |
E |
日常技艺及消遣爱好 |
36 |
F |
通俗读物 |
48 |
G |
传记、回忆录等 |
75 |
H |
政府或机构公文及文宣 |
30 |
学术 |
J |
学术 |
80 |
虚构类 (126篇) |
小说 |
K |
一般小说 |
50 |
L |
侦探小说 |
12 |
M |
科幻小说 |
12 |
N |
历险悬疑小说 |
13 |
P |
言情小说 |
30 |
R |
幽默 |
9 |
合计 |
|
|
|
500 |
caGLOBE加泰罗尼亚语平衡语料库是北外中国外语与教育研究中心许家金主持的北外双一流项目“北外全球语料库集群”(项目编号:2022SYLZD015及2022SYLPY004)的子课题。
caGLOBE加泰罗尼亚语平衡语料库是“北外全球语料库集群”中第二个建成的非通用语种语料库。
El corpus caGLOBE (V1.1)
INTRODUCCIÓN
El Corpus caGLOBE (Versión 1.1) es una colección equilibrada de textos escritos en catalán contemporáneo, que suman un millón de palabras.
Recopiló y limpió los textos del corpus Wei Sun, profesor de la Facultad de Estudios Hispánicos y Portugueses, Universidad de Estudios Extranjeros de Beijing (BFSU), China.
La versión en línea de caGLOBE Corpus está disponible en http://114.251.154.212/cqp/. Tanto el nombre de usuario como la contraseña son "test".
INFORMACIÓN CLAVE
Líder del proyecto: Wei Sun, Facultad de Estudios Hispánicos y Portugueses, BFSU
Recopilador de textos: Wei Sun, Facultad de Estudios Hispánicos y Portugueses, BFSU
Período de compilación: enero de 2022 – agosto de 2022
Tamaño: aproximadamente un millón de palabras
Idioma: catalán contemporáneo
Número de textos/muestras: 500 muestras de más de 2000 palabras cada una (los textos breves se juntan para formar un texto de 2000 palabras, pero se guardan por separado y se marcan con A, B, C, etc. en los nombres de archivo).
Fecha de publicación de los textos: La mayoría de los textos se publicaron entre 2010 y 2022.
Fecha de publicación del corpus: agosto de 2022
ANTECEDENTES
El 29 de diciembre de 2021, Jiajin Xu lanzó el proyecto Corpus GLOBE (Global Languages Out of BFSU Expertise), una iniciativa que tiene como objetivo recopilar textos actuales escritos en los 101 idiomas que se enseñan en BFSU. Se sigue el marco de muestreo del Corpus Brown para que la familia de corpus GLOBE multilingüe sea comparable con los corpus de la familia Brown. La aplicación inmediata de GLOBE consiste en la compilación de diccionarios basados en corpus. Los primeros corpus cubren alrededor de 30 idiomas.
Tabla 1. Categorías de texto en el Brown Corpus.
Adaptado de https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html
|
Género |
Categoría |
Contenido de la categoría |
Número de textos |
I. Prosa informativa (374) |
Prensa (88) |
A |
Reportaje |
44 |
B |
Editorial |
27 |
C |
Opinión |
17 |
Prosa general (206) |
D |
Religión |
17 |
E |
Habilidades, oficios y aficiones |
36 |
F |
Conocimiento popular |
48 |
G |
Biografías, ensayos |
75 |
H |
Misceláneos |
30 |
Textos académicos (80) |
J |
Ciencia |
80 |
II. Prosa imaginativa (126) |
Ficción (126) |
K |
Ficción general |
29 |
L |
Novela policiaca y de misterio |
24 |
M |
Ciencia ficción |
6 |
N |
Aventuras |
29 |
P |
Romance e historia de amor |
29 |
R |
Humor |
9 |
Total |
|
|
|
500 |
El corpus caGLOBE es un subproyecto de GLOBE Corpus financiado por la BFSU (Código de referencia. 2022SYLZD015 y 2022SYLPY004), cuyo investigador principal es el Prof. Jiajin Xu del Centro Nacional de Investigación para la Educación de Idiomas Extranjeros, BFSU. De todos los corpus componentes, el corpus catalán es el segundo puesto a disposición del público.
El corpus caGLOBE (V1.1)
INTRODUCCIÓ
El Corpus caGLOBE (Versió 1.1) és una col·lecció equilibrada de textos escrits en català contemporani, que sumen un milió de paraules.
Va recopilar i netejar els textos del corpus Wei Sun, professor de la Facultat d'Estudis Hispànics i Portuguesos, Universitat d'Estudis Estrangers de Beijing (BFSU), Xina.
La versió en línia de caGLOBE Corpus està disponible a http://114.251.154.212/cqp/. Tant el nom d'usuari com la contrasenya són “test”.
INFORMACIÓ CLAU
Líder del projecte: Wei Sun, Facultat d'Estudis Hispànics i Portuguesos, BFSU
Recull de textos: Wei Sun, Facultat d'Estudis Hispànics i Portuguesos, BFSU
Període de compilació: gener de 2022 – agost de 2022
Grandària: aproximadament un milió de paraules
Idioma: català contemporani
Nombre de textos/mostres: 500 mostres de més de 2000 paraules cadascuna (els textos breus s'ajunten per formar un text de 2000 paraules, però es guarden per separat i es marquen amb A, B, C, etc. en els noms de fitxer).
Data de publicació dels textos: La majoria dels textos es van publicar entre el 2010 i el 2022.
Data de publicació del corpus: agost de 2022
ANTECEDENTS
El 29 de desembre del 2021, Jiajin Xu va llançar el projecte Corpus GLOBE (Global Languages Out of BFSU Expertise), una iniciativa que té com a objectiu recopilar textos actuals escrits en els 101 idiomes que s'ensenyen a la BFSU. Es segueix el marc de mostreig del Corpus Brown perquè la família de corpus GLOBE multilingüe sigui comparable amb els corpus de la família Brown. L'aplicació immediata de GLOBE consisteix en la compilació de diccionaris basats en corpus. Els primers corpus cobreixen al voltant de 30 idiomes.
Taula 1. Categories de text al Brown Corpus.
(Adaptat de https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html)
|
Gènere |
Categoria |
Contingut de la categoria |
Nombre de texts |
I. Prosa informativa (374) |
Premsa (88) |
A |
reportatge |
44 |
B |
Editorial |
27 |
C |
Opinió |
17 |
Prosa general (206) |
D |
Religió |
17 |
E |
Habilitats, oficis i aficions |
36 |
F |
Coneixement popular |
48 |
G |
Biografies, assaigs |
75 |
H |
Miscel·lanis |
30 |
Textos acadèmics (80) |
J |
Ciència |
80 |
II. Prosa imaginativa (126) |
Ficció (126) |
K |
Ficció general |
29 |
L |
Novel·la policíaca y de misteri |
24 |
M |
Ciència ficció |
6 |
N |
Aventures |
29 |
P |
Romanç i història d’amor |
29 |
R |
Humor |
9 |
Total |
|
|
|
500 |
El corpus caGLOBE és un subprojecte de GLOBE Corpus finançat per la BFSU (Codi de referència. 2022SYLZD015 i 2022SYLPY004), l'investigador principal del qual és el Prof. Jiajin Xu del Centre Nacional de Recerca per a l'Educació d'Idiomes Estrangers, BFSU. De tots els corpus components, el corpus català és el segon posat a disposició del públic.