亿级数据的高并发通用搜索引擎架构设计[原创]

利用shell命令操作Memcached[原创]

百度的网通机房挂了几分钟

大 | 中 | 小

[

2008-12-9 08:47 | by 张宴 ]

　　[文章作者：张宴本文版本：v1.0 最后修改：2008.12.09 转载请注明原文链接：http://blog.zyan.cc/post/385/]

　　曾经在七月，写过一篇文章──《基于Sphinx+MySQL的千万级数据全文检索（搜索引擎）架构设计》，前公司的分类信息搜索基于此架构，效果明显，甚至将很大一部分带Where条件的MySQL SQL查询，都改用了Sphinx+MySQL搜索。但是，这套架构仍存在局限：一是MySQL本身的并发能力有限，在200～300个并发连接下，查询和更新就比较慢了；二是由于MySQL表的主键与Sphinx索引的ID一一对应，从而无法跨多表建立整站查询，而且新增加类别还得修改配置文件，比较麻烦；三是因为和MySQL集成，无法发挥出Sphinx的优势。

　　最近，我设计出了下列这套最新的搜索引擎架构，目前已经写出“搜索查询接口”和“索引更新接口”的beta版。经测试，在一台“奔腾四 3.6GHz 双核CPU、2GB内存”的普通PC机，7000万条索引记录的条件下，“搜索查询接口”平均查询速度为0.0XX秒（查询速度已经达到百度、谷歌、搜狗、中国雅虎等搜索引擎的水平，详见文章末尾的“附2”），并且能够支撑高达5000的并发连接；而“索引更新接口”进行数据分析、入队列、返回信息给用户的全过程，高达1500 Requests/Sec。

　　“队列控制器”这一部分是核心，它要控制队列读取，更新MySQL主表与增量表，更新搜索引擎数据存储层Tokyo Tyrant，准实时（1分钟内）完成更新Sphinx增量索引，定期合并Sphinx索引。我预计在这周写出beta版。

　　图示说明：
　　1、搜索查询接口：
　　①、Web应用服务器通过HTTP POST/GET方式，将搜索关键字等条件，传递给搜索引擎服务器的search.php接口；
　　②③、search.php通过Sphinx的API（我根据最新的Sphinx 0.9.9-rc1 API，改写了一个C语言的PHP扩展sphinx.so），查询Sphinx索引服务，取得满足查询条件的搜索引擎唯一ID（15位搜索唯一ID：前5位类别ID+后10位原数据表主键ID）列表；
　　④⑤、search.php将这些ID号作为key，通过Memcache协议一次性从Tokyo Tyrant中mget取回ID号对应的文本数据。
　　⑥⑦、search.php将搜索结果集，按查询条件，进行摘要和关键字高亮显示处理，以JSON格式或XML格式返回给Web应用服务器。

　　2、索引更新接口：
　　⑴、Web应用服务器通过HTTP POST/GET方式，将要增加、删除、更新的内容告知搜索服务器的update.php接口；
　　⑵、update.php将接收到的信息处理后，写入TT高速队列（我基于Tokyo Tyrant做的一个队列系统）；
　　注：这两步的速度可达到1500次请求/秒以上，可应对6000万PV的搜索索引更新调用。

　　3、搜索索引与数据存储控制：
　　㈠、“队列控制器”守护进程从TT高速队列中循环读取信息（每次50条，直到末尾）；
　　㈡、“队列控制器”将读取出的信息写入搜索引擎数据存储层Tokyo Tyrant；
　　㈢、“队列控制器”将读取出的信息异步写入MySQL主表（这张主表按500万条记录进行分区，仅作为数据永久性备份用）；
　　㈣、“队列控制器”将读取出的信息写入MySQL增量表；
　　㈤、“队列控制器”在1分钟内，触发Sphinx更新增量索引，Sphinx的indexer会将MySQL增量表作为数据源，建立增量索引。Sphinx的增量索引和作为数据源的MySQL增量表成对应关系；
　　㈥、“队列控制器”每间隔3小时，短暂停止从TT高速队列中读取信息，并触发Sphinx将增量索引合并入主索引（这个过程非常快），同时清空MySQL增量表（保证了MySQL增量表的记录数始终只有几千条至几十万条，大大加快Sphinx增量索引更新速度），然后恢复从TT高速队列中取出数据，写入MySQL增量表。

　　本架构使用的开源软件：
　　1、Sphinx 0.9.9-rc1
　　2、Tokyo Tyrant 1.1.9
　　3、MySQL 5.1.30
　　4、Nginx 0.7.22
　　5、PHP 5.2.6

　　本架构自主研发的程序：
　　1、搜索查询接口（search.php）
　　2、索引更新接口（update.php）
　　3、队列控制器
　　4、Sphinx 0.9.9-rc1 API的PHP扩展（sphinx.so）
　　5、基于Tokyo Tyrant的高速队列系统

　　附1：MySQL FullText、Lucene搜索、Sphinx搜索的第三方对比结果：
　　1、查询速度：
　　MySQL FullText最慢，Lucene、Sphinx查询速度不相上下，Sphinx稍占优势。
　　

　　2、建索引速度：
　　Sphinx建索引速度是最快的，比Lucene快9倍以上。因此，Sphinx非常适合做准实时搜索引擎。

　　3、详细对比数据见以下PDF文档：　　

下载文件

点击这里下载文件

　　附2：国内各大中文搜索引擎搜索速度分析：
　　以“APMServ张宴”为关键字，比较在各大中文搜索引擎的搜索速度：
　　1、百度：
　　①、第一次搜索
　　

　　②、第二次搜索
　　

　　分析：百度对第一次搜索的搜索结果做了Cache，所以第二次查询非常快。

　　2、谷歌：
　　①、第一次搜索
　　

　　②、第二次搜索
　　

　　分析：谷歌也对第一次搜索的搜索结果做了Cache，但两次查询跟百度同比，都要慢一些。

　　3、搜狗：
　　①、第一次搜索
　　

　　②、第二次搜索
　　

　　③、第三次搜索
　　

　　分析：搜狗疑似对第一次搜索的搜索结果做了短暂的Cache，第二次搜索速度非常快，第三次搜索的速度比第二次搜索的速度慢。搜狗第一次搜索的速度跟百度差不多。

　　4、中国雅虎：
　　①、第一次搜索
　　

　　②、第二次搜索
　　

　　分析：搜索结果没有做Cache。中国雅虎的搜索速度跟百度第一次搜索的速度差不多。

　　5、网易有道：
　　①、第一次搜索
　　

　　②、第二次搜索
　　

　　分析：有道对第一次搜索的搜索结果做了Cache。但是，跟谷歌一样，两次搜索同比都要较百度、搜狗、中国雅虎慢一些。

技术大类 » 搜索引擎技术 | 评论(129) | 引用(1) | 阅读(185708)

spider

2008-12-30 15:45

你好,我想确定一下是不是把所有索引都放在内存中,然后另外再cash一些搜索结果,是这个意思吗?
我觉得想瞬时搜索就是将索引放在内存中搜索,而不是每次都从索引文件中读取的吧?有个朋友说他们每次搜索是从文件中读取的索引然后在解析,我觉得不可能达到毫秒级别的速度,我想知道是不是可以,谢谢!

张宴回复于 2008-12-30 16:42

在sphinx会在“启动时”将所有索引文件加载到内存中，或者在“初次搜索”时将使用到的索引文件加载到内存中（两种方式可通过配置文件自行选择）。

spider

2008-12-30 17:08

也就是说如果在搜索是读取索引文件是不可能达到很快的速度了?
我是把索引都加载到内存中的,所以担心内存不够用怎么办,呵呵

Hunk

2009-1-11 02:47

请问，如何扩大SPHINX 使用的内存？

目前searchd始终只使用100M内存，速度上不去
TOP结果：
20756 root 1 96 0 100M 95572K select 0:00 0.00% searchd

Hunk

2009-1-11 02:48

我已经安装了SPHINX和LibMMSeg ，能运行了。速度一直提不上去，发现searchd进程一直占用100M内存，没有扩大。也没有找到如何配置内存的参数，很困惑，请你指点一下。

TOP结果：
20756 root 1 96 0 100M 95572K select 0:00 0.00% searchd

rollenc

2009-2-1 23:54

好文章，受教了。
有两个问题想请教一下，

1。 ②③、search.php通过Sphinx的API（我根据最新的Sphinx 0.9.9-rc1 API，改写了一个C语言的PHP扩展sphinx.so），查询Sphinx索引服务，取得满足查询条件的搜索引擎唯一ID（15位搜索唯一ID：前5 位类别ID+后10位原数据表主键ID）列表；

search.so是通过什么方式来获取数据？ searchd服务，还是search 命令行？亦或其他？ search 命令行与searchd相比，其效率和负载分别如何？

2。㈤、“队列控制器”在1分钟内，触发Sphinx更新增量索引，Sphinx的indexer会将MySQL增量表作为数据源，建立增量索引。Sphinx的增量索引和作为数据源的MySQL增量表成对应关系；

Sphinx更新增量索引使用什么方式？ indexer && restart searchd? 还是 indexer --rotate ?

44qq

2009-2-3 11:27

你测试cache的方法有些问题，因为从大系统的设计角度来看，你所“发现”的cache不见得是人家有意“cache”的结果。而是系统设计上导致的一种副作用，因为对这样的系统而言这种为了cache而cache的思路意义不大

realtime

2009-2-4 01:31

对实时搜索引擎的研究有用。

Chester

2009-2-4 17:53

这个方案检索是快，但是在数据同步方面比较麻烦。看过几个架构，各有各的好处，感觉主要还是业务需求了。

chenbing

2009-2-12 21:18

比较习惯Lucene+hadoop那一套路，集成到Java Web开发中比较喜欢Compass和Hibernate search。

hevin

2009-2-16 17:35

有没有Sphinx java api的demo啊？我搞了很久都搞不出来，有问题

bobma

2009-2-16 17:36

有没有Sphinx java api的demo啊？我也搞了很久都搞不出来，有问题。如方便发到俺的这个email里：hevinma@jobmet.com

Symphony

2009-2-18 13:35

不能光看时间吧，百度的结果比谷歌多出一倍，是不是谷歌做了筛选

djw_posion

2009-3-18 15:29

您好，感觉您的架构对于单机版是比较优秀的。（第一次看您的blog感觉很不错）
有三个问题：
1. 有一个数据我想知道7000万条记录是什么数据，是html正文还是标题之类的？（这个对索引的速度和膨胀率都有一定的影响）
2. “5000并发”是如何测试的，cache的命中率是多少？
3. 查全、查准率有没有进行系统的评测？

manof

2009-3-21 22:22

beta版还没出来吗?

luo

2009-4-6 12:00

冒昧的问一下，想知道大体的性能。
多大的数据量(索引大小)，每秒的事务处理能力如何

sousw

2009-4-12 15:21

强劲...

路人甲

2009-6-2 17:15

对于实时更新：准实时（1分钟内）完成更新Sphinx增量索引，定期合并Sphinx索引。一分钟内的索引更新量有多大？索引在更新的同时还需要提供对外检索服务，更新过于频繁的话，对检索的性能会有比较大的压力吧。

系统的性能和具体的应用强相关，baidu，google，soso在检索的流程中做了相当多的应用优化：包括检索结果和检索词的相关性分析，一些不良结果的过滤，检索结果的二次重排，打散同一域名下的相同内容...........。其中任何一个特性都对性能产生重要影响，对索引的结构也会产生很大冲击。

从表面上看，你搭建的这套系统只实现了搜索引擎比较原始的功能，搜索结果的质量可能也不太好，在这样的前提下和 baidu、google比性能不太公平。

lucky

2009-6-3 10:28

当数据远大于内存时，就会发现，baidu,google的速度是相当的不简单了。
如果内存可以cache所有索引的话，用hash查找的速度也不会慢，呵呵。

freeman983

2009-7-9 15:25

请教这套架构中所用的分词技术?

张宴回复于 2009-7-10 00:45

ictclas

永和大王

2009-7-28 23:56

能开放源码吗？

分页： 2/7

1 2 3 4 5 6 7

张宴的博客

亿级数据的高并发通用搜索引擎架构设计[原创]

Nginx+PHP+MySQL环境套件

分类

个人简介

我的著作

个人照片

搜索

最新日志

最新评论

链接

日历

统计

其他

发表评论
表情打开HTML 打开UBB 打开表情隐藏记住我	昵称密码游客无需密码网址电邮 [注册]

< 2026 > < 1 >
日	一	二	三	四	五	六
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31