基于HTTP协议的开源中文分词系统：HTTPCWS 1.0.0 发布[原创]

Linux C/C++ 内存泄漏检测工具：Valgrind

《剑侠情缘网络版叁》正式开放公测客户端下载

大 | 中 | 小

[

2009-8-11 08:45 | by 张宴 ]

　　发布版本：
　　httpcws 1.0.0 （最新版本：2009-08-10发布）

　　程序网址：http://code.google.com/p/httpcws

　　安装使用手册：http://blog.zyan.cc/httpcws_v100/

　　下载地址（32位版）：http://httpcws.googlecode.com/files/httpcws-1.0.0-i386-bin.tar.gz

　　下载地址（64位版）：http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz

　　中文分词在线演示：http://blog.zyan.cc/demo/httpcws/

　　PHP演示程序下载：http://blog.zyan.cc/demo/httpcws/httpcws-php-demo.zip

　　httpcws 中文简介
　　1、什么是 httpcws ？
　　HTTPCWS 是一款基于HTTP协议的开源中文分词系统，目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理，得出分词结果。HTTPCWS 将取代本人之前开发的 PHPCWS 中文分词扩展。

　　ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是中国科学院计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS经过五年精心打造，内核升级6次，目前已经升级到了ICTCLAS3.0，分词精度98.45%，各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名，是当前世界上最好的汉语词法分析器。

　　ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人补充的一个19万条词语的自定义词库，对ICTCLAS分词结果进行合并处理，输出最终分词结果。

　　由于 ICTCLAS 3.0 2009 共享版只支持GBK编码，因此，如果是UTF-8编码的字符串，可以先用iconv函数转换成GBK编码，再用httpcws进行分词处理，最后转换回UTF-8编码。

　　HTTPCWS 软件自身（包括httpcws.cpp源文件、dict/httpcws_dict.txt自定义词库）采用NewBSD开源协议，可以自由修改。HTTPCWS 使用的 ICTCLAS 共享版 API 及 dict/Data/ 目录内的语料库，版权及著作权归中国科学院计算技术研究所、ictclas.org所有，使用需遵循其相关协议。

　　2、httpcws 中文分词在线演示
　　演示网址：http://blog.zyan.cc/demo/httpcws/

　　3、httpcws 中文分词下载安装
　　32位版：

cd /usr/local/
wget http://httpcws.googlecode.com/files/httpcws-1.0.0-i386-bin.tar.gz
tar zxvf httpcws-1.0.0-i386-bin.tar.gz
rm -f httpcws-1.0.0-i386-bin.tar.gz
cd httpcws-1.0.0-i386-bin/
ulimit -SHn 65535
/usr/local/httpcws-1.0.0-i386-bin/httpcws -d -x /usr/local/httpcws-1.0.0-i386-bin/dict/

　　64位版：

cd /usr/local/
wget http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz
tar zxvf httpcws-1.0.0-x86_64-bin.tar.gz
rm -f httpcws-1.0.0-x86_64-bin.tar.gz
cd httpcws-1.0.0-x86_64-bin/
ulimit -SHn 65535
/usr/local/httpcws-1.0.0-x86_64-bin/httpcws -d -x /usr/local/httpcws-1.0.0-x86_64-bin/dict/

　　命令行启动参数：

　　

　　4、httpcws 使用方法
　　GET方法（文本长度受URL的长度限制，需要分词的文本为GBK编码，最好采用urlencode对文本进行编码）：

http://192.168.8.42:1985/?w=有人的地方就有江湖
http://192.168.8.42:1985/?w=%D3%D0%C8%CB%B5%C4%B5%D8%B7%BD%BE%CD%D3%D0%BD%AD%BA%FE

　　POST方法（文本长度无限制，适用于大文本分词，需要分词的文本为GBK编码，最好采用urlencode对文本进行编码）：

curl -d "有人的地方就有江湖" http://192.168.8.42:1985
curl -d "%D3%D0%C8%CB%B5%C4%B5%D8%B7%BD%BE%CD%D3%D0%BD%AD%BA%FE" http://192.168.8.42:1985

　　PHP 调用 HTTPCWS 示例：

　　①、对GBK编码的字符串进行中文分词处理（HTTP POST方式）：

<?php
@header('Content-Type: text/html; charset=gb2312');
$text = "有人的地方就有江湖";
$text = urlencode($text);
$opts = array(
  'http'=>array(
    'method'=>"POST",
    'header'=>"Content-type: application/x-www-form-urlencoded\r\n".
              "Content-length:".strlen($data)."\r\n" .
              "Cookie: foo=bar\r\n" .
              "\r\n",
    'content' => $text,
  )
);
$context = stream_context_create($opts);
$result = file_get_contents("http://127.0.0.1:1985", false, $context);
echo $result;
?>

　　②、对UTF-8编码的字符串进行中文分词处理（HTTP POST方式）：

<?php
@header('Content-Type: text/html; charset=utf-8');
$text = "有人的地方就有江湖";
$text = iconv("UTF-8", "GBK//IGNORE", $text);
$text = urlencode($text);
$opts = array(
  'http'=>array(
    'method'=>"POST",
    'header'=>"Content-type: application/x-www-form-urlencoded\r\n".
              "Content-length:".strlen($data)."\r\n" .
              "Cookie: foo=bar\r\n" .
              "\r\n",
    'content' => $text,
  )
);
$context = stream_context_create($opts);
$result = file_get_contents("http://127.0.0.1:1985", false, $context);
$result = iconv("GBK", "UTF-8//IGNORE", $result);
echo $result;
?>

　　③、对GBK编码的字符串进行中文分词处理（HTTP GET方式）：

<?php
@header('Content-Type: text/html; charset=gb2312');
$text = "有人的地方就有江湖";
$text = urlencode($text);
$result = file_get_contents("http://127.0.0.1:1985/?w=".$text);
echo $result;
?>

　　④、对UTF-8编码的字符串进行中文分词处理（HTTP GET方式）：

<?php
@header('Content-Type: text/html; charset=utf-8');
$text = "有人的地方就有江湖";
$text = iconv("UTF-8", "GBK//IGNORE", $text);
$text = urlencode($text);
$result = file_get_contents("http://127.0.0.1:1985/?w=".$text);
$result = iconv("GBK", "UTF-8//IGNORE", $result);
echo $result;
?>

　　5、httpcws 分词速度及用途

　　局域网内 HTTPCWS 接口中文分词平均处理速度（Wait时间）：0.001秒。HTTPCWS 基于 libevent + epoll 网络IO模型开发，经测试，每秒可处理5000～20000次请求。

　　

　　HTTPCWS 属于《[http://blog.zyan.cc/post/385.htm 亿级数据的高并发通用搜索引擎架构设计]》的一部分，用作“搜索查询接口”的关键字分词处理。在此架构中，Sphinx索引引擎对于CJK（中日韩）语言支持一元切分，假设【反恐行动是国产主视角射击网络游戏】这段文字，Sphinx会将其切成【反恐行动是国产主视角射击网络游戏】，然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语，例如【恐动】，也会被搜索到，所以搜索时，需要加引号，例如搜索【"反恐行动"】，就能完全匹配连在一起的四个字，不连续的【"恐动"】就不会被搜索到。但是，这样还有一个问题，搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以，我在搜索层写了个PHP中文分词扩展，搜索“反恐行动游戏”、“国产网络游戏”，会被httpcws中文分词函数分别切分为“反恐行动游戏”、“国产网络游戏”，这时候，用PHP函数给以空格分隔的词语加上引号，去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】，就能搜索到这条记录了。由于httpcws位于搜索层，中文分词词库发生增、删、改，只需重启httpcws进程即可，无需重建搜索索引。

　　根据上述情况，对于那些采用二元交叉切分的搜索引擎，httpcws用在前端搜索层对用户输入的搜索关键字、短语进行分词处理，同样适合。httpcws开发的目的正在于此，对于短句、小文本中文分词切分，速度非常之快。

　　6、自定义词库
　　修改dict/httpcws_dict.txt文件，可以自由增加自己需要的词语。重启httpcws即可生效。

技术大类 » 搜索引擎技术 | 评论(419) | 引用(1) | 阅读(170837)

tenth

2009-9-3 11:13

httpcws如何获得分词的附加信息，如权重，词性，出现次数这些
像phpcws那样

cherie

2009-9-7 17:33

可以直接在命令行执行分词和词性标注吗？

基于HTTP协议的开源中文分...

[2009-9-10 14:49]

来源：苦咖啡系统架构网络安全无线覆盖 WLAN wi fi
内容：发布版本：br/　　httpcws 1.0.0 （最新版本：2009-08-10发布）br/br/　　程序%...

最美别墅

2009-9-13 00:37

httpcws的分词还是不错的，感谢分享。十分佩服博主的开源精神，赞一个。

电视墙

2009-9-16 10:00

这个东西做网站优化是个好东西要了。---电视墙

Jerry

2009-9-19 06:38

我必须得顶，而且如果张老师来哈尔滨让我知道，我请你吃烤肉，咱俩整两盅！

枯木

2009-9-19 10:58

freebsd 怎么安装或者使用

大海

2009-10-16 20:35

請問有無繁體版的httpcws的分词

anon

2009-10-17 13:54

非常不错,已经在使用,呵呵

endler

2009-10-22 20:31

发个ad

SPHINX 技术群，QQ群：5712048 敲门密码：SPHINX

godog

2009-11-6 11:41

額...能提供下源碼不?... FreeBSD 下需要重新編译

/usr/local/httpcws-1.0.0-x86_64-bin/httpcws 是不能用的

godog

2009-11-6 15:59

按照 3、httpcws 中文分词下载安装操作

32位版本在 LINUX ( 2.6.25-14.fc9.i686) 运行之后..就停在这里了..

Loading Chinese dictionary 'httpcws_dict.txt' into memory, please waitting ......

TOP 的 CPU 佔用到90多..沒法用

MyCN

2009-11-22 07:08

能不能加上双向最大匹配呢？
比如我在词库添加了
"小母鸡","小母鸡尾巴"
那么分词"小母鸡尾巴掉光了，小母鸡很伤心"
分出来的是 "小母鸡","尾巴","小母鸡"
就是分不出来 "小母鸡尾巴"

MyCN

2009-11-22 07:41

不好意思张老师，是我弄错了，没有进行重启
我也确实不知道怎么重启
我把
ulimit -SHn 65535
/usr/local/httpcws-1.0.0-x86_64-bin/httpcws -d -x /usr/local/httpcws-1.0.0-x86_64-bin/dict/
这两步又执行了一次
汗自己加的词汇没有被覆盖
效果出来了是我想要的

MyCN

2009-11-23 14:05

请教张老师
能不能用PHP程序来进行httpcws的重启
我是想通过在线后台的方式来进行词库的管理
现在是哪怕我更新了一个词也要登录服务器重启一下

pando

2009-11-23 15:47

刚刚加了几万个词进去，但是不知道怎么重启啊，呵呵。。。

loki

2009-11-26 18:11

不错的东西，收下
测试- -

beeboy

2009-12-1 14:19

确实在FreeBSD下无法运行, 需要重新编译

Rik Chong

2009-12-11 15:43

张老师好。
我扩种词库重启后，命令行启动显示的词库数正确，但没有任何用处，和没加词库前的分词结果一样。为何？

如“汇利达”“大客户平台”，词库里都有，我测试语句
“汇利达和大客户平台是非常重要的产品”
结果
“汇利达和大客户平台是非常重要的产品”

我加的词组都无效 T_T

黄林

2009-12-17 10:45

问一下和Sphinx 结合的问题，Sphinx查询之前先用httpcws分词，但sphinx分词是有一套自己的分词(mmseg)，这样是否会导致建索引时候分的词与查询时分的词不一样，如何解决？

分页： 2/21

1 2 3 4 5 6 7 8 9 10

张宴的博客

基于HTTP协议的开源中文分词系统：HTTPCWS 1.0.0 发布[原创]

Nginx+PHP+MySQL环境套件

分类

个人简介

我的著作

个人照片

搜索

最新日志

最新评论

链接

日历

统计

其他

发表评论
表情打开HTML 打开UBB 打开表情隐藏记住我	昵称密码游客无需密码网址电邮 [注册]

< 2026 > < 4 >
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30