http://www.star404.com/archives/cqpweb%E8%AF%AD%E6%96%99%E5%BA%93%E6%90%AD%E5%BB%BA%E6%95%99%E7%A8%8B
CQPweb语料库搭建教程
大四的时候接受过老师一个任务,使用CQPweb搭建一个语料库并对其进行易用性改进。因为彼时还要忙于考研,所以并没有花太多时间在上 面,CQPweb虽然搭建起来了,进行了简单的开发,但并没有持续做下去,此事老师也没再提,后来不了了之。但因为国内还没有很多CQPweb的资料,连 官网都要翻墙才能上去,所以那时想写一个中文版的教程来介绍一下CQPweb,并给出一些安装和使用的心得。
我搭建的CQPweb:www.star404.com:8080,目前还没有什么语料库,这两天我会抽时间把能找到的语料库放上去。
文章基于官方资料和自己的理解写成,若有错误,请不吝指正。一.CQPweb概述1.CPQweb介绍CQPweb是由英国兰卡斯特大学一名教授开发的基于CWB的第四代语料库分析工具,免费开源。CQPweb的主要特点是:1、将语料库与分析工具合二为一;2、支持多语种语料库的分析;3、运用了索引技术,检索速度大大快于单机版语料库;4、充分利用语料库的元信息,提供更多呈现语料分析结果的呈现方式。(1)2.国内外相关应用因为本人不是语言学的专业人士,关于语料库的应用以及利用语料库进行研究的方法请自行寻找资料,本文不作叙述。(技术上只需要把语料库理解为一种特殊的数据库即可。)北京外国语大学的许家金副教授曾利用CPQweb搭建了北外的“BFSU CQPweb多语言在线语料库检索平台”(地址http://124.193.83.252/cqp/ ,用户名:test,密码:test)。国内大部分中文资料亦来源于他。3.相关的网站及资源:项目网站:http://cwb.sourceforge.net(需要翻Wall)兰卡斯特大学CQPweb: https://cqpweb.lancs.ac.ukBFSU CQPweb(北外): http://124.193.83.252/cqp/二.安装1.组成CQPweb语料库由三个部分组成,CWB(The IMS Corpus Workbench ),Perl API,CQPweb。其中CWB是语料库, Perl API是CWB提供的接口,CQPweb则是基于Web的图形界面和分析工具。前文所说的CQPweb语料库是方便称呼,事实上CQPweb并不包含语料库本身。但为了方便还是约定一下,在本文中提到的CQPweb语料库 是指整个语料库系统,包含CWB,Perl API,CQPweb三者,而CQPweb则是单指基于CWB的图形化界面的分析工具。2.安装环境CWB支持Windows,Mac OS X,Linux等多种平台,但CQPweb暂时只支持Linux,所以本文不讨论其他平台的使用。安装CWB-3.0需要以下软件支持autoconf bison flex gcc libc6-dev libncurses5-dev make,在ubuntu下可运行apt-get install autoconf bison flex gcc libc6-dev libncurses5-dev make一般的Linux都能安装运行CQPweb语料库,运行CQPweb需要在Linux下安装好以下组件:Apache,MySQL,PHP,Perl。到官网链接上直接下好CQPweb语料库安装所需要文件,若不方便也可以到sourceforge下载最新版的CWB和API PERL,地址为http://sourceforge.net/projects/cwb/files/?source=navbar。3.下载所需软件有多种方式下载所需的软件,这里推荐使用svn的方式下载,下面下载地址引用自官网。注意export后要将3.0重新命名,否则可能会将cwb-3.0和cqpweb放到同一个目录中。如果不想用svn或者地址打不开,可以下载我整理的压缩包,包含安装所需要的所有软件。
svn export http://svn.code.sf.net/p/cwb/code/cwb/branches/3.0 cwb-3.0 (IMS Open Corpus Workbench)
svn export http://svn.code.sf.net/p/cwb/code/perl/trunk/CWB Perl-CWB-3.0 (Perl CWB package)
svn export http://svn.code.sf.net/p/cwb/code/perl/branches/3.0/CWB-CL Perl-CWB-CL-3.0 (Perl CWB-CL package)
svn export http://svn.code.sf.net/p/cwb/code/perl/trunk/CWB-Web Perl-CWB-Web-3.0 (Perl CWB-Web package)
svn export http://svn.code.sf.net/p/cwb/code/perl/trunk/CWB-CQI Perl-CWB-CQI-3.0 (CQi reference implementation)
svn export http://svn.code.sf.net/p/cwb/code/gui/cqpweb/branches/3.0 CQPweb (CQPweb GUI) (stable version)
下载完成后将会得到6个文件夹。 我的百度云分享:http://pan.baidu.com/s/1nt7MyhV4.安装CWB先进入CWB-3.0所在的文件夹中,编辑config.mk, 修改参数,修改平台,PREFIX为想要的安装目录,默认为/usr/local5.安装Perl API6.安装CQPweb=======在CQPweb文件夹下有一个CQPweb-setup-manual.html的文件,用浏览器打开阅读安装说明,如果您英文足够好,建议直接参考该文档进行操作,以下操作只摘取重要的部分。首先需要对PHP进行设置。——–
因为需要上传语料库文件,所以推荐将php.ini中的upload_max_filesize设置为20M。
post_max_size需要至少和upload_max_filesize一样高。
memory_limit适量地调高,因为CQPweb有些操作是内存密集的(比如将一些实体文件载入到内存中);建议为25M,但是如果你的系统默认设置要更高,请保留更高的设置。
max_execution_time应该尽可能地调高,建议为60
如果PHP的版本是带Suhosin的,则需要增加一行
最后,PHP最好不要激活安全模式(safe-mode)的配置,否则你会发现一些CQPweb操作无法工作。
设置网页服务器,默认使用Apache。——–需要设置.htaccess能够在CQPweb的目录起作用,即需要设置CQPweb所在目录AllowOverride All,具体操作方法请搜索apache的配置方法。设置Perl——— 暂略设置MySQL——-
你需要创建一个新的用户和一个新的数据库来给CQPweb使用。
新的数据库应该以UTF-8为默认编码,新用户则需要这个新数据库的所有权限。
如果需要启用MySQL的文件访问功能(非必需,但能加速),新用户需要有全局的file权限,即grant file on *.* …
创建目录——-CQPweb本身源码需要放在一个apache配置文件中指定的web目录下面,默认情况下/var/www是web目录,这样只需要放到/var/www/CQPweb下就行了。CQPweb工作时需要额外创建几个目录,分别用于存放CQPweb的用户名和密码文件,临时文件,索引后的语料库,索引后语料库的注册文件,上传文件区域,总共五个文件夹。运行apache的用户,如_www需要能对所有这些目录都有可读可写可执行的权限。记下这几个目录的路径,以后会用到。创建配置文件——到CQPweb的源码目录下,使用php cqpweb-autoconfig.php来自动配置CQPweb。配置的详细操作请见我的下一篇博客。初始化操作(包括生成数据库)——假设CQPweb所对应的网址是localhost/CQPweb,则进入localhost/CQPweb/adm。如果一切正常,会弹出一个对话框让你输入帐号与密码。输入刚才设置的帐号,密码与帐号相同。确认进入后台。此时后台界面如图1.1所示。
(图1.1 CQPweb后台管理界面)完成以下初始化操作:1.点击Reset MySQL Database,并且完成操作。2.点击“manage users”,为superusers设置安全的密码。3.点击“System security”,然后点击”restore default security”(只有在Apache Web服务器下)4.点击“Skins and colours”,然后点击“Regenerate colour schemes”5.点击“Mapping tables”,然后点击Regenerate built-in mapping tables”
(图1.2 MySQL成功重建数据)如果您成功完成了以上操作,请进入打开CQPweb对应的网址,如localhost/CQPweb查看是否有报错信息,如果一切正常,那么恭喜您,CQPweb已经初步安装成功。此时应该如图1.3所示:
(图1.3 CQPweb初始正常界面)后续只需要将语料库加上去好,则界面会逐渐丰富起来。参考资料[1] 参考网上资料========================================星魂版权所有转载请注明作者个人网站:http://www.star404.com个人微博:http://www.weibo.com/stariit/