<![CDATA[张宴的博客]]>

<![CDATA[张宴的博客]]> http://zyan.cc/index.php zh-cn http://zyan.cc/post/385/ <![CDATA[亿级数据的高并发通用搜索引擎架构设计[原创]]]> 张宴 <net@s135.com> Tue, 09 Dec 2008 00:47:37 +0000 http://zyan.cc/post/385/ http://blog.zyan.cc/post/385/]

　　曾经在七月，写过一篇文章──《基于Sphinx+MySQL的千万级数据全文检索（搜索引擎）架构设计》，前公司的分类信息搜索基于此架构，效果明显，甚至将很大一部分带Where条件的MySQL SQL查询，都改用了Sphinx+MySQL搜索。但是，这套架构仍存在局限：一是MySQL本身的并发能力有限，在200～300个并发连接下，查询和更新就比较慢了；二是由于MySQL表的主键与Sphinx索引的ID一一对应，从而无法跨多表建立整站查询，而且新增加类别还得修改配置文件，比较麻烦；三是因为和MySQL集成，无法发挥出Sphinx的优势。

　　最近，我设计出了下列这套最新的搜索引擎架构，目前已经写出“搜索查询接口”和“索引更新接口”的beta版。经测试，在一台“奔腾四 3.6GHz 双核CPU、2GB内存”的普通PC机，7000万条索引记录的条件下，“搜索查询接口”平均查询速度为0.0XX秒（查询速度已经达到百度、谷歌、搜狗、中国雅虎等搜索引擎的水平，详见文章末尾的“附2”），并且能够支撑高达5000的并发连接；而“索引更新接口”进行数据分析、入队列、返回信息给用户的全过程，高达1500 Requests/Sec。

　　“队列控制器”这一部分是核心，它要控制队列读取，更新MySQL主表与增量表，更新搜索引擎数据存储层Tokyo Tyrant，准实时（1分钟内）完成更新Sphinx增量索引，定期合并Sphinx索引。我预计在这周写出beta版。

　　图示说明：
　　1、搜索查询接口：

............

Tags - linux , php , sphinx , search , tokyotyrant , ttserver , tokyocabinet , mysql , google , 百度 , 谷歌 , 搜狗 , 雅虎 , 有道 ]]> http://zyan.cc/post/385/#blogcomment2162 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> linvo <linvo@126.com> Tue, 09 Dec 2008 04:34:33 +0000 http://zyan.cc/post/385/#blogcomment2162 http://zyan.cc/post/385/#blogcomment2164 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> jk <user@domain.com> Tue, 09 Dec 2008 04:42:00 +0000 http://zyan.cc/post/385/#blogcomment2164 http://zyan.cc/post/385/#blogcomment2163 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> 大菠萝 <web@cc.cc> Tue, 09 Dec 2008 04:46:58 +0000 http://zyan.cc/post/385/#blogcomment2163 http://zyan.cc/post/385/#blogcomment2165 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> outrace <user@domain.com> Tue, 09 Dec 2008 05:00:39 +0000 http://zyan.cc/post/385/#blogcomment2165 ttserver对php内容无法反序列化，不支持压缩，这两点也很讨厌。

要是没有这几个问题就好了。 ]]> http://zyan.cc/post/385/#blogcomment2167 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> ptubuntu <ruijin.chen@gmail.com> Tue, 09 Dec 2008 06:27:39 +0000 http://zyan.cc/post/385/#blogcomment2167 http://zyan.cc/post/385/#blogcomment2170 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> cyt <user@domain.com> Tue, 09 Dec 2008 07:24:40 +0000 http://zyan.cc/post/385/#blogcomment2170 http://zyan.cc/post/385/#blogcomment2174 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> fei <user@domain.com> Tue, 09 Dec 2008 09:13:45 +0000 http://zyan.cc/post/385/#blogcomment2174 http://zyan.cc/post/385/#blogcomment2175 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> dugu <user@domain.com> Tue, 09 Dec 2008 09:30:23 +0000 http://zyan.cc/post/385/#blogcomment2175 http://zyan.cc/post/385/#blogcomment2183 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> cncaiker <user@domain.com> Tue, 09 Dec 2008 14:34:25 +0000 http://zyan.cc/post/385/#blogcomment2183 http://zyan.cc/post/385/#blogcomment2184 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> jeck <user@domain.com> Tue, 09 Dec 2008 14:49:42 +0000 http://zyan.cc/post/385/#blogcomment2184 http://zyan.cc/post/385/#blogcomment2186 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> dd_macle <user@domain.com> Tue, 09 Dec 2008 19:41:02 +0000 http://zyan.cc/post/385/#blogcomment2186 http://zyan.cc/post/385/#blogcomment2187 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> gs <user@domain.com> Tue, 09 Dec 2008 23:23:26 +0000 http://zyan.cc/post/385/#blogcomment2187 http://zyan.cc/post/385/#blogcomment2199 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> ttplay <user@domain.com> Wed, 10 Dec 2008 04:03:54 +0000 http://zyan.cc/post/385/#blogcomment2199 一个人将记录写到了缓存,数据库中并更新索引,
另一个人通过索引从缓存或数据库中读出记录.
]]> http://zyan.cc/post/385/#blogcomment2217 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> plantegg <user@domain.com> Thu, 11 Dec 2008 15:19:25 +0000 http://zyan.cc/post/385/#blogcomment2217
搜索引擎Cache命中率一般在60%略高的样子，索引所用的内存都是几百G几百G的

你这个只对增量增加敏感，好像删除的话不能更新索引吧？

不过不得不赞一下你这个也相当棒:) ]]> http://zyan.cc/post/385/#blogcomment2223 <![CDATA[[评论] 亿级数据的高并发通用搜索引擎架构设计[原创]]]> dd <user@domain.com> Fri, 12 Dec 2008 03:36:51 +0000 http://zyan.cc/post/385/#blogcomment2223