<![CDATA[张宴的博客]]>

<![CDATA[张宴的博客]]> http://zyan.cc/index.php zh-cn http://zyan.cc/post/356/ <![CDATA[MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> 张宴 <net@s135.com> Tue, 01 Jul 2008 14:57:58 +0000 http://zyan.cc/post/356/ http://blog.zyan.cc/post/356/]

　　MySQL在高并发连接、数据库记录数较多的情况下，SELECT ... WHERE ... LIKE '%...%'的全文搜索方式不仅效率差，而且以通配符%和_开头作查询时，使用不到索引，需要全表扫描，对数据库的压力也很大。MySQL针对这一问题提供了一种全文索引解决方案，这不仅仅提高了性能和效率（因为MySQL对这些字段做了索引来优化搜索），而且实现了更高质量的搜索。但是，至今为止，MySQL对中文全文索引无法正确支持。

　　中文与西方文字如英文的一个重要区别在于，西方文字以单词为单位，单词与单词之间以空格分隔。而中文以字为单位，词由一个或多个字组成，词与词之间没有空格分隔。当试图在一个含有中文字符的字段中使用全文搜索时，不会得到正确的结果，原因在于中文中没有像英文空格那样对词定界，不能以空格作为分割，对中文词语进行索引。

　　引用《MySQL 5.1参考手册》中的一段话：

引用

12.7. 全文搜索功能（http://dev.mysql.com/doc/refman/5.1/zh/functions.html）
● MySQL支持全文索引和搜索功能。MySQL中的全文索引类型FULLTEXT的索引。FULLTEXT 索引仅可用于 MyISAM 表；他们可以从CHAR、 VARCHAR或TEXT列中作为CREATE TABLE语句的一部分被创建，或是随后使用ALTER TABLE 或 CREATE INDEX被添加。对于较大的数据集，将你的资料输入一个没有FULLTEXT索引的表中，然后创建索引，其速度比把资料输入现有FULLTEXT索引的速度更为快。

● FULLTEXT分析程序会通过寻找某些分隔符来确定单词的起始位置和结束位置，例如' ' (间隔符号)、 , (逗号)以及 . (句号 )。假如单词没有被分隔符分开，(例如在中文里 ), 则 FULLTEXT 分析程序不能确定一个词的起始位置和结束位置。为了能够在这样的语言中向FULLTEXT 索引添加单词或其它编入索引的术语，你必须对它们进行预处理，使其被一些诸如"之类的任意分隔符分隔开。

● 诸如汉语和日语这样的表意语言没有自定界符。因此， FULLTEXT分析程序不能确定在这些或其它的这类语言中词的起始和结束的位置。

　　国内已有的MySQL中文全文索引解决方案有两个：一是海量科技的MySQL5.0.37--LinuxX86-Chinese+，二是hightman开发的mysql-5.1.11-ft-hightman，两者都是基于中文分词技术，对中文语句进行拆分。但是，两者都有弊端，一是不支持64位操作系统；二是对修改了MySQL源码，只支持某一MySQL版本，不便于跟进新版本；三是词库不能做到很大很全，对于专业性质较强的数据库内容（例如搜索“颐和园路东口”、“清华东路西口”等公交站点，“莱镇香格里”、“碧海云天”等楼盘名称），基于中文分词的全文索引经常搜索不出来任何内容，即使添加分词词库，也不会很全面。

　　由于精准全文查询的需要，我借鉴了二元交叉切分算法的思想，用自创的“三字节交叉切分算法”，写出了这款“MySQL中文全文索引插件──mysqlcft 1.0.0”。由于开发时间仓促，难免存在未发现的问题，这将后续的版本中不断完善。对于百万条记录的MySQL表进行全文检索，mysqlcft已经够用。

　　Mysqlcft 网址：http://code.google.com/p/mysqlcft/

　　Mysqlcft 作者：张宴

　　一、MySQL中文全文索引插件mysqlcft的特点：
　　1、优点：
　　①、精准度很高：采用自创的“三字节交叉切分算法”，对中文语句进行分割，无中文分词词库，搜索精准度远比中文分词算法高，能达到LIKE '%...%"的准确率。
　　②、查询速度快：查询速度比LIKE '%...%"搜索快3～50倍，文章末尾有测试结果；
　　③、标准插件式：以MySQL 5.1全文索引的标准插件形式开发，不修改MySQL源代码，不影响MySQL的其他功能，可快速跟进MySQL新版本；
　　④、支持版本多：支持所有的MySQL 5.1 Release Candidate版本，即MySQL 5.1.22 RC～最新的MySQL 5.1.25 RC；
　　⑤、支持字符集：支持包括GBK、GB2312、UTF-8、Latin1、BIG5在内的MySQL字符集（其他字符集没有测试过）；
　　⑥、系统兼容好：具有i386和x86_64两个版本，支持32位（i386）和64位（x86_64）CPU及Linux系统；
　　⑦、适合分布式：非常适合MySQL Slave分布式系统架构，无词库维护成本，不存在词库同步问题。

　　2、缺点：
　　①、mysqlcft中文全文索引只适用于MyISAM表，因为MySQL只支持对MyISAM表建立FULLTEXT索引；
　　②、MySQL不能静态编译安装，否则无法安装mysqlcft插件；
　　③、基于“三字节交叉切分算法”的索引文件会比海量、ft-hightman等基于“中文分词算法”的索引文件稍大，但不是大很多。根据我的测试，mysqlcft全文索引的.MYI索引文件是.MYD数据文件的2～5倍。

　　二、mysqlcft的核心思想──“三字节交叉切分算法”

　　

点击在新窗口中浏览此图片

　　注：本文以0～7数字序号代表“英文”、“数字”和“半个汉字”，以便说明。
　　1、按三字节对中文语句进行切分，建立全文索引：
　　例如：“全文索引”或“1台x光机”四个字会被交叉分拆为6份，建立反向索引：
　　012　　123　　234　　345　　456　　567

　　2、按三字节对搜索的关键字进行切分，在全文索引中找出对应信息：
　　例①：搜索关键字“文索”，用数字序号表示就是“2～5”，那么它将被切分成：
　　234　　345
　　这样，就与全文索引对上了。

　　例②：搜索关键字“x光机”，用数字序号表示就是“3～7”，那么它将被切分成：
　　345　　456　　567
　　这样，也与全文索引对上了。

　　例③：搜索关键字“1台光机”，用数字序号表示就是“0～2”和“4～7”，那么它将被切分成：
　　012　　456　　567
　　这样，多关键字搜索也与全文索引对上了。

............
]]> http://zyan.cc/post/356/#blogcomment1272 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> 支持 <user@domain.com> Tue, 01 Jul 2008 15:19:15 +0000 http://zyan.cc/post/356/#blogcomment1272 http://zyan.cc/post/356/#blogcomment1274 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> 罐头 <tinnyliu@gmail.com> Wed, 02 Jul 2008 01:11:57 +0000 http://zyan.cc/post/356/#blogcomment1274 支持，向你学习。 ]]> http://zyan.cc/post/356/#blogcomment1276 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> outrace <user@domain.com> Wed, 02 Jul 2008 06:35:23 +0000 http://zyan.cc/post/356/#blogcomment1276 不知道是否比较过http://www.coreseek.com/（开源的）
这个公司基于Sphinx及libmmsg分词引擎提供的全文检索解决方案。

如果有比较结果，但愿可以共享出来

目前也在考察全文检索的解决方案
还不知道要怎么做。 ]]> http://zyan.cc/post/356/#blogcomment1278 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> yejr <user@domain.com> Wed, 02 Jul 2008 08:26:53 +0000 http://zyan.cc/post/356/#blogcomment1278 http://zyan.cc/post/356/#blogcomment1280 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> yejr <user@domain.com> Wed, 02 Jul 2008 08:39:26 +0000 http://zyan.cc/post/356/#blogcomment1280 dell 2950,16G mem,Red Hat Enterprise Linux AS release 4 (Nahant Update 6),mysql 5.1.24rc ]]> http://zyan.cc/post/356/#blogcomment1282 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> lphy <user@domain.com> Wed, 02 Jul 2008 14:31:14 +0000 http://zyan.cc/post/356/#blogcomment1282 http://zyan.cc/post/356/#blogcomment1283 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> dancebear <user@domain.com> Thu, 03 Jul 2008 01:43:40 +0000 http://zyan.cc/post/356/#blogcomment1283 首先他的索引是独立的，搜索进程也是独立的，同时由于他是可以做分布式处理的，因此在效率上要比使用mysql要高不少。
其次他不需要建立fulltext索引，因此在mysql数据库的索引上要小很多。
另外他可以使用sphinx来进行更多的操作，比如进行条件过滤等等。可以实现更多功能而无需对数据库进行查找；更加快速。
而coreseek的修改版的sphinx使用了python作为第三种数据源，因此通过python可以实现任意一种数据库甚至是文本的索引。同样也可以实现对GBK，UTF等字符集的索引，另外他的分词库也可以根据自己的需要进行修改和扩展。
博主有空可以研究下。

PS：楼上的你如果要选择的话我建议你选择sphinx而不是lucene，lucene太臃肿了，相对来说sphinx就轻便很多。而且有很多API接口提供比如php，java，python等都有相应的api可以使用。 ]]> http://zyan.cc/post/356/#blogcomment1285 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> snoopy <user@domain.com> Thu, 03 Jul 2008 02:48:29 +0000 http://zyan.cc/post/356/#blogcomment1285 http://zyan.cc/post/356/#blogcomment1288 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> chancey <user@domain.com> Thu, 03 Jul 2008 04:07:58 +0000 http://zyan.cc/post/356/#blogcomment1288 http://zyan.cc/post/356/#blogcomment1294 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> SD <user@domain.com> Thu, 03 Jul 2008 15:46:51 +0000 http://zyan.cc/post/356/#blogcomment1294 http://zyan.cc/post/356/#blogcomment1295 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> wienne <user@domain.com> Thu, 03 Jul 2008 23:22:40 +0000 http://zyan.cc/post/356/#blogcomment1295
我的系统版本还是 4.x 的 ]]> http://zyan.cc/post/356/#blogcomment1296 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> chancey <user@domain.com> Fri, 04 Jul 2008 03:12:48 +0000 http://zyan.cc/post/356/#blogcomment1296 http://zyan.cc/post/356/#blogcomment1298 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> outrace <user@domain.com> Sat, 05 Jul 2008 01:53:32 +0000 http://zyan.cc/post/356/#blogcomment1298 我现在在试用sphinx有一个问题
就是sphinx要求ID的列必须是数字类型，而我们目前的系统
ID都是uuid()所得到字符类型。

该咋办呢？ ]]> http://zyan.cc/post/356/#blogcomment1300 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> ctrlx <user@domain.com> Sat, 05 Jul 2008 09:43:47 +0000 http://zyan.cc/post/356/#blogcomment1300 http://zyan.cc/post/356/#blogcomment1301 <![CDATA[[评论] MySQL中文全文索引插件 mysqlcft 1.0.0 安装使用文档[原创]]]> ctrlx <user@domain.com> Sat, 05 Jul 2008 09:44:08 +0000 http://zyan.cc/post/356/#blogcomment1301