coreseek安装配置及调试(一)

发布时间:2016-03-22 17:08:59编辑:丝画阁阅读(828)

操作系统:CentOS 6.5

Web环境:Nginx+PHP+MySQL

站点根目录:/data0/www/omussh

目的:安装coreseek中文检索引擎,配置MySQL数据库访问接口,使用PHP程序实现中文检索。

CoreSeek官方网站:

http://www.coreseek.cn/

http://www.coreseek.cn/products/=%22/products-install/step_by_step/

http://www.coreseek.cn/products-install/mysql/



具体操作:

一、安装编译工具

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

二 、安装CoreSeek


1、下载CoreSeek

下载地址:http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

上传coreseek-3.2.14.tar.gz到/usr/local/src目录

2、安装mmseg

cd /usr/local/src

tar zxvf coreseek-3.2.14.tar.gz  #解压

cd coreseek-3.2.14

cd mmseg-3.2.14

./bootstrap    #输出的warning信息可以忽略,如果出现error则需要解决

./configure --prefix=/usr/local/mmseg3  #配置

make  #编译

make install  #安装

3、安装CoreSeek

cd /usr/local/src

cd coreseek-3.2.14

cd csft-3.2.14

sh buildconf.sh    #输出的warning信息可以忽略,如果出现error则需要解决

./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql  #配置

make  #编译

make install  #安装

三、测试mmseg分词、coreseek搜索、MySQL数据源

cd /usr/local/src

cd coreseek-3.2.14

cd testpack

cat /usr/local/src/coreseek-3.2.14/testpack/var/test/test.xml    #此时应该正确显示中文


测试MySQL数据源:

测试数据库下载:http://www.coreseek.cn/uploads/csft/test/documents.sql

上传documents.sql到/usr/local/src目录

导入数据库到MySQL从服务器:

mysql  -u root -p  #进入MySQL控制台

create database documents;   #创建数据库

use documents    #进入数据库

source  /usr/local/src/documents.sql  #导入备份文件到数据库

exit #退出MySQL控制台


参数配置

cp  /usr/local/src/coreseek-3.2.14/testpack/etc/csft_mysql.conf  /usr/local/coreseek/etc/csft_mysql.conf  #拷贝MySQL数据源配置文件

ln -s  /usr/local/coreseek/etc/csft_mysql.conf  /etc/csft_mysql.conf  #添加软连接

vi  /etc/csft_mysql.conf  #编辑,修改


#MySQL数据源配置,详情请查看:http://www.coreseek.cn/products-install/mysql/

#请先将var/test/documents.sql导入数据库,并配置好以下的MySQL用户密码数据库


#MySQL数据源配置,详情请查看:http://www.coreseek.cn/products-install/mysql/
#请先将var/test/documents.sql导入数据库,并配置好以下的MySQL用户密码数据库

#源定义
source mysql
{
    type                    = mysql #数据库类型 CoreSeek/Sphinx中包括MySQL和PostgreSQL数据源的驱动程序
    sql_host                = 127.0.0.1
    sql_user                = root
    sql_pass                = xxxx #数据库密码
    sql_db                  = omusshb #数据库
    sql_port                = 3306
    sql_query_pre            = SET NAMES utf8
    sql_sock                 =/tmp/mysql.sock #根据自己的mysql安装来设置,
    #sql_query                = SELECT id, title, content, ismulu, UNIX_TIMESTAMP(content_time) AS content_time,caijisetable,urlid FROM yzj_articlegudacontent

    //下面参数可以参考 http://www.coreseek.cn/docs/coreseek_4.0-sphinx_1.11-beta.html#indexing 进行设置

    //区段查询

    sql_query_range    = SELECT MIN(id),MAX(id) FROM yzj_articlegudacontent
    sql_range_step = 2000
    sql_query = SELECT id, title, content, ismulu, UNIX_TIMESTAMP(content_time) AS content_time,caijisetable,urlid FROM yzj_articlegudacontent WHERE id>=$start AND id<=$end

    #sql_query第一列id需为整数
    #title、content作为字符串/文本字段,被全文索引
    sql_attr_uint            = ismulu           #从SQL读取到的值必须为整数
    sql_attr_timestamp        = content_time #从SQL读取到的值必须为整数,作为时间属性


    sql_query_info_pre      = SET NAMES utf8                                        #命令行查询时,设置正确的字符集
    sql_query_info            = SELECT * FROM documents WHERE id=$id #命令行查询时,从数据库读取原始数据信息


}

#index定义
index omussh
{
    source            = mysql             #对应的source名称
    path              = /usr/local/coreseek/var/data/omusshb #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/... 可以设置自己想定义的位置
    docinfo           = extern
    mlock             = 0
    morphology        = none
    min_word_len      = 1
    html_strip        = 0
    ngram_len         = 1

    #中文分词配置,详情请查看:http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置,/符号结尾
    #charset_dictpath = etc/                             #Windows环境下设置,/符号结尾,最好给出绝对路径,例如:C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}

#全局index定义
indexer
{
    mem_limit            = 64M
}

#searchd服务定义
searchd
{
    listen                  =   9312
    #客户读的超时时间
    read_timeout            = 5
    #请求超时
    client_timeout          = 300
    #可以拓展的最多的子集个数
    max_children        = 30
    #查询后,最多匹配数
    max_matches            = 1000
    #获得索引后,是否预先打开索引(手册)
    seamless_rotate        = 0
    #是否预先打开所有索引,或者在每次查询时打开(手册)
    preopen_indexes        = 0
    #在索引旋转时是否解开旧的索引(手册)
    unlink_old            = 1
    #过滤器的最大数目。默认为256(手册)
    max_filters             = 256
    #每个过滤器的最大数目。默认为4096(手册)
    max_filter_values       = 4096
    # max allowed per-batch query count (aka multi-query count) (手册)
    max_batch_queries       = 32
    # 多处理模式。默认为fork。值有 none, fork, prefork, threads。
    workers                 = threads # for RT to work
    pid_file = /usr/local/mysql/var/iZ11jf4ht5gZ.pid  #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/... 这里填写的是数据库PID的位置,可以通过ps aux|grep mysql查看.
    log = /home/wwwlogs/searchd_mysql.log        #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
    query_log = /home/wwwlogs/query_mysql.log #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
    binlog_path =                                #关闭binlog日志
}

:wq!  #保存退出



编写测试文件

cp  /usr/local/src/coreseek-3.2.14/testpack/api/sphinxapi.php  /data0/www/omussh/sphinxapi.php  #拷贝测试文件到web站点根目录下

cp  /usr/local/src/coreseek-3.2.14/testpack/api/test_coreseek.php  /data0/www/omussh/test_coreseek.php  #拷贝测试文件到web站点根目录下

cd /data0/www/omussh #进入web站点根目录

vi test.php  #编辑,添加以下代码

<?php

//注意文件的编码格式需要保存为为UTF-8格式

require ( "sphinxapi.php" );

$cl = new SphinxClient ();

$cl->SetServer ( '127.0.0.1', 9312);

//以下设置用于返回数组形式的结果

$cl->SetArrayResult ( true );

/*

//ID的过滤

$cl->SetIDRange(3,4);

//sql_attr_uint等类型的属性字段,需要使用setFilter过滤,类似SQL的WHERE group_id=2

$cl->setFilter('group_id',array(2));

//sql_attr_uint等类型的属性字段,也可以设置过滤范围,类似SQL的WHERE group_id2>=6 AND group_id2<=8

$cl->SetFilterRange('group_id2',6,8);

*/

//取从头开始的前20条数据,0,20类似SQl语句的LIMIT 0,20

$cl->SetLimits(0,20);

//在做索引时,没有进行 sql_attr_类型 设置的字段,可以作为“搜索字符串”,进行全文搜索

$res = $cl->Query ( '搜索字符串', "*" );    //"*"表示在所有索引里面同时搜索,"索引名称(例如test或者test,test2)"则表示搜索指定的

//如果需要搜索指定全文字段的内容,可以使用扩展匹配模式:

//$cl->SetMatchMode(SPH_MATCH_EXTENDED);

//$res=cl->Query( '@title (测试)' , "*");

//$res=cl->Query( '@title (测试) @content ('网络')' , "*");

echo '<pre>';

print_r($res['matches']);

print_r($res);

print_r($cl->GetLastError());

print_r($cl->GetLastWarning());

echo '</pre>';

?>

:wq!  #保存退出


/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate  #建立索引服务

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf --console  #启动测试模式

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf   #后台启动模式

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf  --stop  #停止

/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate  #更新索引服务


http://www.homeforexchange.cn/test.php



四、设置coreseek开机自动后台运行

vi /etc/rc.d/rc.local #编辑,在最后一行添加下面的代码

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf

:wq!  #保存退出

vi /usr/local/coreseek/bin/build_index.sh  #添加以下更新索引脚本

#!/bin/sh

/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate

:wq!  #保存退出

chmod +x /usr/local/coreseek/bin/build_index.sh  #添加脚本执行权限

vi /etc/crontab    #编辑,在最后一行添加以下代码

*/30 * * * * root /usr/local/coreseek/bin/build_index.sh  #每隔30分钟执行一次

:wq!  #保存退出

service crond reload  #重新加载任务计划

至此,Linux下PHP+MySQL+CoreSeek中文检索引擎配置完成。



关键字