<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title><![CDATA[张宴的博客]]></title> 
<link>http://zyan.cc/index.php</link> 
<description><![CDATA[Web系统架构与底层研发]]></description> 
<language>zh-cn</language> 
<copyright><![CDATA[张宴的博客]]></copyright>
<item>
<link>http://zyan.cc/phpcws_v100/</link>
<title><![CDATA[我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>张宴 &lt;net@s135.com&gt;</author>
<category><![CDATA[搜索引擎技术]]></category>
<pubDate>Mon, 16 Feb 2009 15:40:38 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/</guid> 
<description>
<![CDATA[ 
	　　[文章/程序 作者：张宴 本文版本：v1.3 最后修改：2009.07.06 转载请注明原文链接：<a href="http://blog.zyan.cc/phpcws_v100/" target="_blank">http://blog.zyan.cc/phpcws_v100/</a>]<br/><br/>　　<span style="color: #FF0000;">注：最新的分词系统 HTTPCWS 已经发布，用来取代 PHPCWS。<br/><br/>　　请点击以下网址下载 HTTPCWS：</span><br/><br/>　　<a href="http://code.google.com/p/httpcws" target="_blank">http://code.google.com/p/httpcws</a><br/><br/>　　原来的 PHPCWS 停止更新。<br/><br/><hr/><br/><br/>　　名称：PHPCWS（PHP中文分词扩展）<br/>　　协议：New BSD License <br/>　　作者：张宴<br/>　　网址：<a href="http://code.google.com/p/phpcws/" target="_blank">http://code.google.com/p/phpcws/</a><br/>　　SVN：<a href="http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws" target="_blank">http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws</a><br/><br/>　　<span style="font-size: 14px;"><strong>一、PHPCWS 简介</strong></span><br/><br/>　　<strong>1、什么是 PHPCWS ？</strong><br/>　　PHPCWS 是一款开源的PHP中文分词扩展，目前仅支持Linux/Unix系统。<br/><br/>　　PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理，再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。<br/><br/>　　<a href="http://ictclas.org/sub_1_2.html" target="_blank">ICTCLAS</a>（Institute of Computing Technology, Chinese Lexical Analysis System）是中国科学院计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS经过五年精心打造，内核升级6次，目前已经升级到了ICTCLAS3.0，分词精度98.45%，各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名，是当前世界上最好的汉语词法分析器。<br/><br/>　　ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人对ICTCLAS分词后的结果，再采用逆向最大匹配算法，根据自己补充的一个9万条词语的自定义词库（与ICTCLAS词库中的词语不重复），对ICTCLAS分词结果进行合并处理，输出最终分词结果。<br/><br/>　　由于 ICTCLAS 3.0 共享版只支持GBK编码，因此，如果是UTF-8编码的字符串，可以先用PHP的iconv函数转换成GBK编码，再用phpcws_split函数进行分词处理，最后转换回UTF-8编码。<br/><br/>　　<strong>2、PHPCWS 中文分词在线演示</strong><br/><br/>　　<span style="color: #FF0000;">演示网址：</span><a href="http://blog.zyan.cc/demo/phpcws/" target="_blank">http://blog.zyan.cc/demo/phpcws/</a><br/><br/>　　<strong>3、PHPCWS 分词速度及用途</strong><br/><br/>　　初次使用时，Apache 或 php-cgi(FastCGI) 进程，需要加载一次词库到内存中，需要0.0X秒。58字节的一句话——“2009年2月13日，我编写了一款PHP中文分词扩展：PHPCWS 1.0.0。”，分词速度只需0.0003秒。<br/><br/>　　PHPCWS 属于《<a href="post/385.htm" target="_blank">亿级数据的高并发通用搜索引擎架构设计</a>》的一部分，用作“搜索查询接口”的关键字分词处理。在此架构中，Sphinx索引引擎对于CJK（中日韩）语言支持一元切分，假设【反恐行动是国产主视角射击网络游戏】这段文字，Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】，然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语，例如【恐动】，也会被搜索到，所以搜索时，需要加引号，例如搜索【"反恐行动"】，就能完全匹配连在一起的四个字，不连续的【"恐动"】就不会被搜索到。但是，这样还有一个问题，搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以，我在搜索层写了个PHP中文分词扩展，搜索“反恐行动游戏”、“国产网络游戏”，会被PHPCWS中文分词函数分别切分为“反恐行动 游戏”、“国产 网络游戏”，这时候，用PHP函数给以空格分隔的词语加上引号，去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】，就能搜索到这条记录了。由于PHPCWS位于搜索层，中文分词词库发生增、删、改，只需平滑重启一次Web服务器或php-cgi进程即可，无需重建搜索索引。<br/><br/>　　根据上述情况，对于那些采用二元交叉切分的搜索引擎，PHPCWS用在前端搜索层对用户输入的搜索关键字、短语进行分词处理，同样适合。PHPCWS开发的目的正在于此，对于短句、小文本中文分词切分，速度非常之快。<br/><br/>　　<strong>4、自定义词库</strong><br/><br/>　　自定义词库名称为<a href="http://code.google.com/p/phpcws/source/browse/trunk/phpcws-dict/userdict.tch" target="_blank">userdict.tch</a>，格式为 Tokyo Cabinet DBM 的 Abstract key-value 内存哈希数据库（key为GBK编码的词语名词，value为词频。目前词频均填1，暂时用不上）。自定义词库的修改在安装步骤中会详细介绍。<br/><br/><hr/><br/>　　<span style="font-size: 14px;"><strong>二、phpcws 1.0.1 安装步骤</strong></span><br/><br/>............<br/><br/>Tags - <a href="http://zyan.cc/tags/linux/" rel="tag">linux</a> , <a href="http://zyan.cc/tags/php/" rel="tag">php</a> , <a href="http://zyan.cc/tags/phpcws/" rel="tag">phpcws</a> , <a href="http://zyan.cc/tags/%25E4%25B8%25AD%25E6%2596%2587%25E5%2588%2586%25E8%25AF%258D/" rel="tag">中文分词</a> , <a href="http://zyan.cc/tags/sphinx/" rel="tag">sphinx</a>
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2579</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>dengjiuhong &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Mon, 16 Feb 2009 16:56:17 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2579</guid> 
<description>
<![CDATA[ 
	好东西，深夜感谢分享。
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2581</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>hai &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 01:19:37 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2581</guid> 
<description>
<![CDATA[ 
	感觉不错的。。。 测试了一下 “面包房车”，分词效果是 “面包房 &nbsp;车”2个次！ 根据使用频率“面包房 &nbsp;房车” 或者 “面包 &nbsp;房车”
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2582</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>airwin &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 01:26:31 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2582</guid> 
<description>
<![CDATA[ 
	很强，崇拜一下
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2583</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>残缺 &lt;rssidea@gmail.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 02:05:50 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2583</guid> 
<description>
<![CDATA[ 
	张兄，感谢你的工作！<br/>请问下在sphinx中对关键字建立索引的时候是分词后建立还是每个汉字都建立索引？在中文索引方面能不能指点一下？<br/>谢谢！
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2584</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>叶茂盛 &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 02:09:34 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2584</guid> 
<description>
<![CDATA[ 
	太强了
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2586</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>deng &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 03:07:19 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2586</guid> 
<description>
<![CDATA[ 
	项目刚好用到<br/>不知如何与sphinx结合起来呢？<br/>望得到指点。
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2589</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>blueflycn &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 05:56:57 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2589</guid> 
<description>
<![CDATA[ 
	你好，真是巧合，我最近也写了一个php分词扩展，不过是基于MMSEG和darts的（<a href="http://www.bluefly.cn/wordpress/2009/01/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d-xsplit-002-alpha-%e5%8f%91%e5%b8%83/" target="_blank">http://www.bluefly.cn/wordpress/2009/01/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d-xsplit-002-alpha-%e5%8f%91%e5%b8%83/</a>）。最近又加了一些功能，包括建立词典，词频统计，多种分词算法，基于darts的应用等，但是还没有公开。<br/>不过这方面我只是一个amateur,希望能有机会跟你交流一下，谢谢~
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2592</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>dodge &lt;dodgepudding@gmail.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Tue, 17 Feb 2009 14:01:50 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2592</guid> 
<description>
<![CDATA[ 
	不错，但分词集成到php环境对服务器的负荷毕竟太大了，我用ICTCLAS原生的系统测试过上万字的文章，分词也要几秒时间。如果这个能转嫁到浏览器端来承担，应该实际很多，只是疲于转化ICTCLAS的算法库
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2594</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>草根网 &lt;chinaz1974@gmail.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Wed, 18 Feb 2009 03:13:17 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2594</guid> 
<description>
<![CDATA[ 
	收藏至20ju.com
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2598</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>haha &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Wed, 18 Feb 2009 06:38:19 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2598</guid> 
<description>
<![CDATA[ 
	真强！~
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2600</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>piaofen &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Wed, 18 Feb 2009 09:43:42 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2600</guid> 
<description>
<![CDATA[ 
	很牛，很强大，继续关注
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2602</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>xiaojun &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Wed, 18 Feb 2009 11:42:09 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2602</guid> 
<description>
<![CDATA[ 
	这套分词系统不错。推荐一下 <br/><a href="http://www.ftphp.com/scws/" target="_blank">http://www.ftphp.com/scws/</a> <br/><br/>动态<br/><br/> &nbsp; &nbsp;* 2008-12-21 SCWS 划入 FTPHP 项目，作为子项目重建本网站。<br/> &nbsp; &nbsp;* 2006 - 2007 陆续开发纯 PHP 实现的 PSCWS 第二版与第三版，2007-06-09 发布 scws-0.0.1 pre 版，功能基本完整，2008-03-08 发布 scws-1.0.0 正式版。<br/><br/>简介 - SCWS 是 Simple Chinese Words Segmentation 的缩写，即简易中文分词系统。<br/><br/> &nbsp; &nbsp;这是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位，而书写的时候不像英语会在词之间用空格分开，所以如何准确而又快速的分词一直是中文分词的攻关难点。<br/><br/> &nbsp; &nbsp;SCWS 在概念上并无创新成分，采用的是自行采集的词频词典，并辅以一定程度上的专有名称、人名、地名、数字年代等规则集，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发，以 Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。此外它支持 GBK，UTF-8，BIG5 等汉字编码，切词效率高。<br/><br/> &nbsp; &nbsp;［推荐］首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 - FTPHP！<br/>版本列表<br/>版本 &nbsp;&nbsp;类型 &nbsp;&nbsp;平台 &nbsp;&nbsp;性能 &nbsp;&nbsp;其它<br/>SCWS-1.0.x &nbsp;&nbsp;C 代码 &nbsp;&nbsp;*Unix*/*PHP* &nbsp;&nbsp;准确: 95%, 召回: 91%, 速度: 1.2MB/sec<br/>PHP扩展分词速度: 250KB/sec &nbsp;&nbsp;[下载] [文档] [安装说明]<br/>php_scws.dll(1) &nbsp;&nbsp;PHP扩展库 &nbsp;&nbsp;Windows/PHP 4.4.x &nbsp;&nbsp;准确: 95%, 召回: 91%, 速度: 40KB/sec &nbsp;&nbsp;[下载] [文档] [安装说明]<br/>php_scws.dll(2) &nbsp;&nbsp;PHP扩展库 &nbsp;&nbsp;Windows/PHP 5.2.x &nbsp;&nbsp;准确: 95%, 召回: 91%, 速度: 40KB/sec &nbsp;&nbsp;[下载] [文档] [安装说明]<br/>PSCWS23 &nbsp;&nbsp;PHP源代码 &nbsp;&nbsp;不限 (不支持UTF-8) &nbsp;&nbsp;准确: 93%, 召回: 89%, 速度: 960KB/min &nbsp;&nbsp;[下载] [文档]<br/>PSCWS4 &nbsp;&nbsp;PHP源代码 &nbsp;&nbsp;不限 &nbsp;&nbsp;准确: 95%, 召回: 91%, 速度: 160KB/min &nbsp;&nbsp;[下载] [文档]
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2606</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>neil &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Thu, 19 Feb 2009 02:29:50 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2606</guid> 
<description>
<![CDATA[ 
	测试&quot;开源PHP中文分词扩展：PHPCWS在线演示，更多内容请访问&quot;<br/>效果不错，可惜不识别&quot;开源&quot;一词
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2611</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>wesley &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Thu, 19 Feb 2009 05:42:22 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2611</guid> 
<description>
<![CDATA[ 
	very powerful thank you
]]>
</description>
</item><item>
<link>http://zyan.cc/phpcws_v100/#blogcomment2619</link>
<title><![CDATA[[评论] 我的开源PHP中文分词扩展：PHPCWS 1.0.0[原创]]]></title> 
<author>zxb888 &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Sat, 21 Feb 2009 14:01:37 +0000</pubDate> 
<guid>http://zyan.cc/phpcws_v100/#blogcomment2619</guid> 
<description>
<![CDATA[ 
	我也在用<a href="http://www.ftphp.com/scws/" target="_blank">http://www.ftphp.com/scws/</a> 还不错
]]>
</description>
</item>
</channel>
</rss>