Catalan corpus available北外加泰罗尼亚语语料库建成-北外语料库语言学

当前位置: HOME >> FLERIC News >> Content

Catalan corpus available北外加泰罗尼亚语语料库建成

发布者： [发表时间]：2022-08-20 [来源]： [浏览次数]：

The caGLOBE Corpus (V1.1)

INTRODUCTION

The caGLOBE Corpus (Version 1.1) is a balanced collection of contemporary Catalan written texts, totaling one million words.

The text samples in the corpus were gathered and cleaned up by Wei Sun, School of Hispanic and Portuguese Studies, Beijing Foreign Studies University (BFSU), China.

The online version of the caGLOBE Corpus is available at http://114.251.154.212/cqp/. Both user ID and passcode are ‘test’.

KEY INFORMATION

Project leader: Wei Sun, School of Hispanic and Portuguese Studies, BFSU

Text collector: Wei Sun, School of Hispanic and Portuguese Studies, BFSU

Time of compilation: January 2022 – August 2022

Size: Approximately one million words

Language: Contemporary Catalan

Number of texts/samples: 500 samples of 2000+ words each (Short texts are pieced together to form one 2000-word text, but saved separately and marked with A, B, C etc. in the filenames.)

Period: The bulk of the texts were published between 2010 and 2022.

Released in: August 2022

BACKGROUND

On 29 December 2021, Jiajin Xu launched the GLOBE (Global Languages Out of BFSU Expertise) Corpus project, an initiative which aims to collect present-day written texts in all 101 languages that are taught at BFSU. The sampling frame of the Brown Corpus was followed to make the multilingual GLOBE corpus family comparable to the Brown family corpora. The immediate application of the GLOBE is meant to be corpus-based dictionary compilation. The first batch of the corpora covers about 30 languages.

Table 1. Text categories in the Brown Corpus.

Adapted from https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html

	Genre group	Category	Content of category	#. of texts
I. Informative prose (374)	Press (88)	A	Reportage	44
		B	Editorial	27
		C	Review	17
	General prose (206)	D	Religion	17
		E	Skills, trades and hobbies	36
		F	Popular lore	48
		G	Belles lettres, biographies, essays	75
		H	Miscellaneous	30
	Learned (80)	J	Science	80
II. Imaginative prose (126)	Fiction (126)	K	General fiction	29
		L	Mystery and detective fiction	24
		M	Science fiction	6
		N	Adventure and Western	29
		P	Romance and love story	29
		R	Humour	9
Total				500

The caGLOBE Corpus is a sub-project of the BFSU-funded GLOBE Corpus projects (Ref. 2022SYLZD015 and 2022SYLPY004), whose principal investigator is Prof. Jiajin Xu at the National Research Centre for Foreign Language Education, BFSU. Out of the projected corpora of 101 languages, the Catalan corpus is the second corpus made publicly available.

caGLOBE语料库（1.1版）

caGLOBE语料库1.1版是当代加泰罗尼亚语平衡语料库。该库总容量约为100万词。caGLOBE中的语料样本由北京外国语大学西葡语学院孙巍老师采集、加工完成。该库可通过北外多语种语料库平台BFSU CQPweb在线访问：http://114.251.154.212/cqp/。账号密码皆为test。

关键信息

caGLOBE语料库负责人：孙巍（北外西葡语学院）

语料文本采集者：孙巍（北外西葡语学院）

建库周期：2022年1月至2022年8月

库容：约100万词

语言：当代加泰罗尼亚语

文本数：500个2000词文本（少于2000词的多个文本会在文件名末尾标注A、B、C等，以标明同属一个2000词的文本。）

出版年份：绝大分部文本发表于2010-2022年间。

语料库发布时间：2022年8月

背景

2021年12月29日，北外启动了“北外全球语料库集群”项目，又称“GLOBE语料库”项目。GLOBE的英文全称为Corpus of Global Languages Out of BFSU Expertise。该语料库集群旨在建设北外开设的101个语种的当代书面语语料库。

北外全球语料库集群中的单语平衡库借鉴布朗语料库的采样方案，使之与现有布朗家族语料库具有可比性，从而可开展相关外英或外汉对比研究。建设该系列语料库的首要应用目的是开展基于语料库的多语种词典编纂。首批建设的GLOBE家族语料库约为30个语种。

表1. 语料类型及相应篇数（改自https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html）

体裁大类	体裁类型	子体裁代码	子体裁类型说明	文本数量（篇）
信息类（374篇）	新闻	A	新闻报道	44
		B	社论	27
		C	报刊评论	17
	通用	D	宗教	17
		E	日常技艺及消遣爱好	36
		F	通俗读物	48
		G	传记、回忆录等	75
		H	政府或机构公文及文宣	30
	学术	J	学术	80
虚构类（126篇）	小说	K	一般小说	50
		L	侦探小说	12
		M	科幻小说	12
		N	历险悬疑小说	13
		P	言情小说	30
		R	幽默	9
合计				500

caGLOBE加泰罗尼亚语平衡语料库是北外中国外语与教育研究中心许家金主持的北外双一流项目“北外全球语料库集群”（项目编号：2022SYLZD015及2022SYLPY004）的子课题。

caGLOBE加泰罗尼亚语平衡语料库是“北外全球语料库集群”中第二个建成的非通用语种语料库。

El corpus caGLOBE (V1.1)

INTRODUCCIÓN

El Corpus caGLOBE (Versión 1.1) es una colección equilibrada de textos escritos en catalán contemporáneo, que suman un millón de palabras.

Recopiló y limpió los textos del corpus Wei Sun, profesor de la Facultad de Estudios Hispánicos y Portugueses, Universidad de Estudios Extranjeros de Beijing (BFSU), China.

La versión en línea de caGLOBE Corpus está disponible en http://114.251.154.212/cqp/. Tanto el nombre de usuario como la contraseña son "test".

INFORMACIÓN CLAVE

Líder del proyecto: Wei Sun, Facultad de Estudios Hispánicos y Portugueses, BFSU

Recopilador de textos: Wei Sun, Facultad de Estudios Hispánicos y Portugueses, BFSU

Período de compilación: enero de 2022 – agosto de 2022

Tamaño: aproximadamente un millón de palabras

Idioma: catalán contemporáneo

Número de textos/muestras: 500 muestras de más de 2000 palabras cada una (los textos breves se juntan para formar un texto de 2000 palabras, pero se guardan por separado y se marcan con A, B, C, etc. en los nombres de archivo).

Fecha de publicación de los textos: La mayoría de los textos se publicaron entre 2010 y 2022.

Fecha de publicación del corpus: agosto de 2022

ANTECEDENTES

El 29 de diciembre de 2021, Jiajin Xu lanzó el proyecto Corpus GLOBE (Global Languages Out of BFSU Expertise), una iniciativa que tiene como objetivo recopilar textos actuales escritos en los 101 idiomas que se enseñan en BFSU. Se sigue el marco de muestreo del Corpus Brown para que la familia de corpus GLOBE multilingüe sea comparable con los corpus de la familia Brown. La aplicación inmediata de GLOBE consiste en la compilación de diccionarios basados en corpus. Los primeros corpus cubren alrededor de 30 idiomas.

Tabla 1. Categorías de texto en el Brown Corpus.

Adaptado de https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html

	Género	Categoría	Contenido de la categoría	Número de textos
I. Prosa informativa (374)	Prensa (88)	A	Reportaje	44
		B	Editorial	27
		C	Opinión	17
	Prosa general (206)	D	Religión	17
		E	Habilidades, oficios y aficiones	36
		F	Conocimiento popular	48
		G	Biografías, ensayos	75
		H	Misceláneos	30
	Textos académicos (80)	J	Ciencia	80
II. Prosa imaginativa (126)	Ficción (126)	K	Ficción general	29
		L	Novela policiaca y de misterio	24
		M	Ciencia ficción	6
		N	Aventuras	29
		P	Romance e historia de amor	29
		R	Humor	9
Total				500

El corpus caGLOBE es un subproyecto de GLOBE Corpus financiado por la BFSU (Código de referencia. 2022SYLZD015 y 2022SYLPY004), cuyo investigador principal es el Prof. Jiajin Xu del Centro Nacional de Investigación para la Educación de Idiomas Extranjeros, BFSU. De todos los corpus componentes, el corpus catalán es el segundo puesto a disposición del público.

El corpus caGLOBE (V1.1)

INTRODUCCIÓ

El Corpus caGLOBE (Versió 1.1) és una col·lecció equilibrada de textos escrits en català contemporani, que sumen un milió de paraules.

Va recopilar i netejar els textos del corpus Wei Sun, professor de la Facultat d'Estudis Hispànics i Portuguesos, Universitat d'Estudis Estrangers de Beijing (BFSU), Xina.

La versió en línia de caGLOBE Corpus està disponible a http://114.251.154.212/cqp/. Tant el nom d'usuari com la contrasenya són “test”.

INFORMACIÓ CLAU

Líder del projecte: Wei Sun, Facultat d'Estudis Hispànics i Portuguesos, BFSU

Recull de textos: Wei Sun, Facultat d'Estudis Hispànics i Portuguesos, BFSU

Període de compilació: gener de 2022 – agost de 2022

Grandària: aproximadament un milió de paraules

Idioma: català contemporani

Nombre de textos/mostres: 500 mostres de més de 2000 paraules cadascuna (els textos breus s'ajunten per formar un text de 2000 paraules, però es guarden per separat i es marquen amb A, B, C, etc. en els noms de fitxer).

Data de publicació dels textos: La majoria dels textos es van publicar entre el 2010 i el 2022.

Data de publicació del corpus: agost de 2022

ANTECEDENTS

El 29 de desembre del 2021, Jiajin Xu va llançar el projecte Corpus GLOBE (Global Languages Out of BFSU Expertise), una iniciativa que té com a objectiu recopilar textos actuals escrits en els 101 idiomes que s'ensenyen a la BFSU. Es segueix el marc de mostreig del Corpus Brown perquè la família de corpus GLOBE multilingüe sigui comparable amb els corpus de la família Brown. L'aplicació immediata de GLOBE consisteix en la compilació de diccionaris basats en corpus. Els primers corpus cobreixen al voltant de 30 idiomes.

Taula 1. Categories de text al Brown Corpus.

(Adaptat de https://varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html)

	Gènere	Categoria	Contingut de la categoria	Nombre de texts
I. Prosa informativa (374)	Premsa (88)	A	reportatge	44
		B	Editorial	27
		C	Opinió	17
	Prosa general (206)	D	Religió	17
		E	Habilitats, oficis i aficions	36
		F	Coneixement popular	48
		G	Biografies, assaigs	75
		H	Miscel·lanis	30
	Textos acadèmics (80)	J	Ciència	80
II. Prosa imaginativa (126)	Ficció (126)	K	Ficció general	29
		L	Novel·la policíaca y de misteri	24
		M	Ciència ficció	6
		N	Aventures	29
		P	Romanç i història d’amor	29
		R	Humor	9
Total				500

El corpus caGLOBE és un subprojecte de GLOBE Corpus finançat per la BFSU (Codi de referència. 2022SYLZD015 i 2022SYLPY004), l'investigador principal del qual és el Prof. Jiajin Xu del Centre Nacional de Recerca per a l'Educació d'Idiomes Estrangers, BFSU. De tots els corpus components, el corpus català és el segon posat a disposició del públic.