2009年5月8日 – i@laoer.com

应用越来越多的需要全文搜索技术来支撑，在Java中可以使用Lucene，一个非常优秀的引擎，在Hibernate中也整合了Lucene来做检索，但在使用PHP的过程中迫切需要找一个优秀的全文搜索引擎（虽然也可以把PHP和Lucene结合起来使用，但有些另类，有些生产环境也不能同时支持），以前在网上看到一些Sphinx的文章，一直没有实践，昨天我就花了一天的时间，配置测试了一下Sphinx。

由于我的PHP没有编译Sphinx模块，所以我主要是配置Sphinx+Mysql，在Mysql上测试全文搜索的效果，Mysql、Sphinx、中文分词的编译安装过程不详述，下面两篇文章挺好，安装时可以参考

Mysql+sphinx+中文分词简介

基于Sphinx+MySQL的千万级数据全文检索（搜索引擎）架构设计

我的编译安装过程没有遇到什么麻烦，就是编译Mysql的时候比较长，而且要注意把Innodb的引擎编译进去，我的Mysql编译参数如下

./configure –with-plugins=sphinx,innobase,heap –prefix=/usr/local/mysql –enable-assembler –with-charset=utf8 –with-extra-charsets=all –enable-thread-safe-client –with-big-tables –with-readline –with-ssl –with-embedded-server –enable-local-infile

比较奇怪的是innodb是支持了，heap不支持，这个问题下次再研究。

通过编译Mysql，使Mysql支持了Sphinx存储引擎，试了一下Sphinx的例子，成功搜索到了数据，如果我们要对自己的数据做索引，就要研究一下Sphinx的配置文件了。

Sphinx的配置文件在其安装目录下的etc目录下，你可以参考其例子的sphinx.conf创建自己的配置文件，在sphinx里有主要要配置的有两大块，一部分是source（数据源），另一部分是index（索引），source里面定义了连接数据库的参数，取得源数据的SQL，也就是你要索引的数据的取得 SQL（Sphinx是支持不同数据源的，我这里只测试SQL），source可以有继承关系，继承的source可以用来做取得增量数据，index里面定义了使用哪个source，index存放的路径、字符集、辞典等等，index也可以继承，继承的index用来做增量索引。由此可见source 和index都是根据你的需要配置的，可以取得多个数据源的数据，可以建立多个索引。

增量索引的小困惑，我在数据库中增加了2条记录，执行

/usr/local/sphinx/bin/indexer –rotate –config /usr/local/sphinx/etc/sphinx.conf test1stemmed

看到有两个文档被加入索引（增量部分），之后我执行

/usr/local/sphinx/bin/indexer –rotate –merge test1 test1stemmed –merge-dst-range deleted 0 0

将增量索引并入主索引，这是可以查询到新插入的数据，这时我再继续插入一条数据，执行

/usr/local/sphinx/bin/indexer –rotate –config /usr/local/sphinx/etc/sphinx.conf test1stemmed

提示信息是有3个文档被加入索引，让我非常奇怪，因为上两条纪录已经并入主索引了，这次怎么还会索引呢？之后我执行

/usr/local/sphinx/bin/indexer –rotate –config /usr/local/sphinx/etc/sphinx.conf test1

更新主索引，之后再执行/usr/local/sphinx/bin/indexer –rotate –config /usr/local/sphinx/etc/sphinx.conf test1stemmed提示没有索引加入，这样就正确了，如果按照测试的结果，增量索引和主索引更新执行的时间要计划好。

关于中文分词–LibMMSeg：LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包，其在GPL协议下发行的中文分词法，采用Chih-Hao Tsai的MMSEG算法。

同时Coreseek.com提供了一份Sphinx的中文文档，里面有比较详细的配置说明，是很好的参考资料，非常感谢开源人士做出的贡献。

日	一	二	三	四	五	六
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

日期: 2009年5月8日

Sphinx+Mysql初使用体验