网易的开源软件镜像站点
[ 2009-2-23 23:54 | by 张宴 ]
网易开通了一个开源软件的镜像站点,网址为:
http://mirrors.163.com/
提供的镜像有:
1、Linux及BSD发行版镜像:FreeBSD、OpenBSD、RedHat、archlinux、centos、debian、fedora、gentoo、trixbox、ubuntu等。
2、开源软件镜像:eclipse可扩展开发平台、防火墙、openfiler网络存储管理工具。
该镜像目前只有一台杭州电信的服务器,网通用户访问可能会比较慢。
如果您安装 CentOS 5.2 系统的服务器位于电信机房,您可以修改/etc/yum.repos.d/CentOS-Base.repo文件,将它的yum源更改成网易的镜像,代替国外的镜像,以便获取更快的下载速度。
您可以按照以下步骤从 blog.zyan.cc 下载修改后的 CentOS-Base.repo 文件到您的服务器。
附:修改后的 CentOS-Base.repo 文件内容如下:
http://mirrors.163.com/
提供的镜像有:
1、Linux及BSD发行版镜像:FreeBSD、OpenBSD、RedHat、archlinux、centos、debian、fedora、gentoo、trixbox、ubuntu等。
2、开源软件镜像:eclipse可扩展开发平台、防火墙、openfiler网络存储管理工具。
该镜像目前只有一台杭州电信的服务器,网通用户访问可能会比较慢。
如果您安装 CentOS 5.2 系统的服务器位于电信机房,您可以修改/etc/yum.repos.d/CentOS-Base.repo文件,将它的yum源更改成网易的镜像,代替国外的镜像,以便获取更快的下载速度。
您可以按照以下步骤从 blog.zyan.cc 下载修改后的 CentOS-Base.repo 文件到您的服务器。
cd /etc/yum.repos.d/
mv CentOS-Base.repo CentOS-Base.repo.bak
wget http://blog.zyan.cc/soft/linux/centos/5.2/CentOS-Base.repo
mv CentOS-Base.repo CentOS-Base.repo.bak
wget http://blog.zyan.cc/soft/linux/centos/5.2/CentOS-Base.repo
附:修改后的 CentOS-Base.repo 文件内容如下:
我的开源PHP中文分词扩展:PHPCWS 1.0.0[原创]
[ 2009-2-16 23:40 | by 张宴 ]
[文章/程序 作者:张宴 本文版本:v1.3 最后修改:2009.07.06 转载请注明原文链接:http://blog.zyan.cc/phpcws_v100/]
注:最新的分词系统 HTTPCWS 已经发布,用来取代 PHPCWS。
请点击以下网址下载 HTTPCWS:
http://code.google.com/p/httpcws
原来的 PHPCWS 停止更新。
名称:PHPCWS(PHP中文分词扩展)
协议:New BSD License
作者:张宴
网址:http://code.google.com/p/phpcws/
SVN:http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws
一、PHPCWS 简介
1、什么是 PHPCWS ?
PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。
PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。
ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。
由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。
2、PHPCWS 中文分词在线演示
演示网址:http://blog.zyan.cc/demo/phpcws/
3、PHPCWS 分词速度及用途
初次使用时,Apache 或 php-cgi(FastCGI) 进程,需要加载一次词库到内存中,需要0.0X秒。58字节的一句话——“2009年2月13日,我编写了一款PHP中文分词扩展:PHPCWS 1.0.0。”,分词速度只需0.0003秒。
PHPCWS 属于《亿级数据的高并发通用搜索引擎架构设计》的一部分,用作“搜索查询接口”的关键字分词处理。在此架构中,Sphinx索引引擎对于CJK(中日韩)语言支持一元切分,假设【反恐行动是国产主视角射击网络游戏】这段文字,Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【恐动】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"反恐行动"】,就能完全匹配连在一起的四个字,不连续的【"恐动"】就不会被搜索到。但是,这样还有一个问题,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以,我在搜索层写了个PHP中文分词扩展,搜索“反恐行动游戏”、“国产网络游戏”,会被PHPCWS中文分词函数分别切分为“反恐行动 游戏”、“国产 网络游戏”,这时候,用PHP函数给以空格分隔的词语加上引号,去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】,就能搜索到这条记录了。由于PHPCWS位于搜索层,中文分词词库发生增、删、改,只需平滑重启一次Web服务器或php-cgi进程即可,无需重建搜索索引。
根据上述情况,对于那些采用二元交叉切分的搜索引擎,PHPCWS用在前端搜索层对用户输入的搜索关键字、短语进行分词处理,同样适合。PHPCWS开发的目的正在于此,对于短句、小文本中文分词切分,速度非常之快。
4、自定义词库
自定义词库名称为userdict.tch,格式为 Tokyo Cabinet DBM 的 Abstract key-value 内存哈希数据库(key为GBK编码的词语名词,value为词频。目前词频均填1,暂时用不上)。自定义词库的修改在安装步骤中会详细介绍。
二、phpcws 1.0.1 安装步骤
注:最新的分词系统 HTTPCWS 已经发布,用来取代 PHPCWS。
请点击以下网址下载 HTTPCWS:
http://code.google.com/p/httpcws
原来的 PHPCWS 停止更新。
名称:PHPCWS(PHP中文分词扩展)
协议:New BSD License
作者:张宴
网址:http://code.google.com/p/phpcws/
SVN:http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws
一、PHPCWS 简介
1、什么是 PHPCWS ?
PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。
PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。
ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。
由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。
2、PHPCWS 中文分词在线演示
演示网址:http://blog.zyan.cc/demo/phpcws/
3、PHPCWS 分词速度及用途
初次使用时,Apache 或 php-cgi(FastCGI) 进程,需要加载一次词库到内存中,需要0.0X秒。58字节的一句话——“2009年2月13日,我编写了一款PHP中文分词扩展:PHPCWS 1.0.0。”,分词速度只需0.0003秒。
PHPCWS 属于《亿级数据的高并发通用搜索引擎架构设计》的一部分,用作“搜索查询接口”的关键字分词处理。在此架构中,Sphinx索引引擎对于CJK(中日韩)语言支持一元切分,假设【反恐行动是国产主视角射击网络游戏】这段文字,Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【恐动】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"反恐行动"】,就能完全匹配连在一起的四个字,不连续的【"恐动"】就不会被搜索到。但是,这样还有一个问题,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以,我在搜索层写了个PHP中文分词扩展,搜索“反恐行动游戏”、“国产网络游戏”,会被PHPCWS中文分词函数分别切分为“反恐行动 游戏”、“国产 网络游戏”,这时候,用PHP函数给以空格分隔的词语加上引号,去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】,就能搜索到这条记录了。由于PHPCWS位于搜索层,中文分词词库发生增、删、改,只需平滑重启一次Web服务器或php-cgi进程即可,无需重建搜索索引。
根据上述情况,对于那些采用二元交叉切分的搜索引擎,PHPCWS用在前端搜索层对用户输入的搜索关键字、短语进行分词处理,同样适合。PHPCWS开发的目的正在于此,对于短句、小文本中文分词切分,速度非常之快。
4、自定义词库
自定义词库名称为userdict.tch,格式为 Tokyo Cabinet DBM 的 Abstract key-value 内存哈希数据库(key为GBK编码的词语名词,value为词频。目前词频均填1,暂时用不上)。自定义词库的修改在安装步骤中会详细介绍。
二、phpcws 1.0.1 安装步骤
我收到的情人节礼物:《时间管理——给系统管理员》
[ 2009-2-14 23:59 | by 张宴 ]
老婆在我的豆瓣上看到我想读这本书:《时间管理——给系统管理员》(Time Management for System Administrators,By Thomas A. Limoncelli),于是悄悄买了这本书,送给我作为情人节礼物。虽然我现在主要从事系统架构与系统开发,研发时间比以前充足得多,手中的服务器异常的稳定,不像以前有那么多系统运维的琐事,但这本书却使我受益匪浅。
我翻阅了一下,虽然页数不厚,但内容很不错,书中告知了很多时间管理技巧,是作者工作经验的积累,非常值得借鉴!另外,语言也十分风趣。本书不只适合系统管理员,也适合所有从事IT业的人。
书籍简介:
中文书名:时间管理
副标题:给系统管理员
英文原版书名:Time Management for System Administrators
译者:O'Reilly Taiwan公司
作者:Thomas A.Limoncelli
ISBN:9787564109059
页数:210
定价:26.0
出版社:东南大学出版社
装帧:平装
出版年:2007
豆瓣上的介绍:http://www.douban.com/subject/2253513/
英文原版下载:http://ishare.iask.sina.com.cn/cgi-bin/fileid.cgi?fileid=4824885
时间是珍贵的东西,对于系统管理员而言尤甚。没有其他工作会把那么多领域的事情一次推给一个人做。使用者经常以他们的请求干扰你,让你无法完成经理指派给你的长期项目;还有你的计算机就是不听话,总是在最关键的时刻与你耍脾气。尽管你精通职务上的技术,但是仍然发现必须在晚上和周末加班,只是为了满足一些要求。这只会随着时间给自己增加压力。
本书讨论的策略,不但帮你解决日常工作,还有能力处理无法避免的突发状况。作者将自己长期的职业生涯,诸如,支持桌面应用、服务器管理以及安全和软件开发等等,在本书中详实地举例说明。这意味着,你将得到有实战经验的建议,而非象牙塔般、从未在混沌的网络中工作过的陈腔滥调。
在其他技术上,你将学习如何:
·管理干扰
·消除时间的浪费..
·保持有效的日程表
·将经常发生的事情变成例行公事
·专注在手边的工作
·以客户预期排列优先级
·文件化和自动化处理以便快速执行...
我翻阅了一下,虽然页数不厚,但内容很不错,书中告知了很多时间管理技巧,是作者工作经验的积累,非常值得借鉴!另外,语言也十分风趣。本书不只适合系统管理员,也适合所有从事IT业的人。
书籍简介:
中文书名:时间管理
副标题:给系统管理员
英文原版书名:Time Management for System Administrators
译者:O'Reilly Taiwan公司
作者:Thomas A.Limoncelli
ISBN:9787564109059
页数:210
定价:26.0
出版社:东南大学出版社
装帧:平装
出版年:2007
豆瓣上的介绍:http://www.douban.com/subject/2253513/
英文原版下载:http://ishare.iask.sina.com.cn/cgi-bin/fileid.cgi?fileid=4824885
时间是珍贵的东西,对于系统管理员而言尤甚。没有其他工作会把那么多领域的事情一次推给一个人做。使用者经常以他们的请求干扰你,让你无法完成经理指派给你的长期项目;还有你的计算机就是不听话,总是在最关键的时刻与你耍脾气。尽管你精通职务上的技术,但是仍然发现必须在晚上和周末加班,只是为了满足一些要求。这只会随着时间给自己增加压力。
本书讨论的策略,不但帮你解决日常工作,还有能力处理无法避免的突发状况。作者将自己长期的职业生涯,诸如,支持桌面应用、服务器管理以及安全和软件开发等等,在本书中详实地举例说明。这意味着,你将得到有实战经验的建议,而非象牙塔般、从未在混沌的网络中工作过的陈腔滥调。
在其他技术上,你将学习如何:
·管理干扰
·消除时间的浪费..
·保持有效的日程表
·将经常发生的事情变成例行公事
·专注在手边的工作
·以客户预期排列优先级
·文件化和自动化处理以便快速执行...
参加《软件需求管理最佳实践》培训
[ 2009-2-14 23:41 | by 张宴 ]
这个情人节,我只能晚上和老婆一起过了。因为2月14日、15日两个周末,我在参加北京金山软件公司的重要研发培训──《软件需求管理最佳实践》,讲师为曾任微软亚洲工程院测试经理的陆宏杰。
课程大纲:
课程主要议题:
1、对软件需求的理解
课程的中心思想是通过需求分析来提高项目整体效率和产品定位,节省开发、测试、管理的实施成本。对于每一个具体环节将从客户、开发、测试、管理的角度分别看待需求分析。
讲解软件项目的需求划分技巧;以及如何管理多名需求人员对产品/项目的整体把握,保证多名需求人员对需求理解的一致性;产品型和项目型软件在需求分析时的区别、技巧、以及如何快速把握需求关键点。
2、需求文档
很多时候需求人员过分关注特定的理论图形或表达法,而忽略了需求文档的实用性,这一部分从实际出发,讲解需求文档的质量标准、到底应该细致到什么程度才能对开发、测试及管理提供有力支撑,结合实例讲解需求和架构的配合,需求和开发的交互。
分析是否需要进行多次需求文档的转换,这样做的目的和结果是怎样的。分享需求文档的评审流程和规范,为什么要这样做,能够为管理层提供哪些支撑。
3、需求的细化
不仅讲解对显性功能和隐性功能的需求细化原则和技巧,而且分析为什么要考虑这些方面,不这样做会怎么样,每一部分都结合实例进行,同时结合需求细化讲解需求对测试的影响和交互,从测试的角度看待需求分析有什么样的配合技巧。
4、需求人员在整个软件生命周期中的作用
需求人员应该对整个软件生命周期提供持续的驱动力,需求人员在开发阶段、测试阶段、变更处理、甚至商务处理可以发挥哪些重要的作用。
同时,分别从“任务”和“人员”两个不同角度讲解如何优化项目开发模式,把瀑布式、迭代式等多种项目管理方法结合,利用最小化的资源提供最大化的产出。
课程中逐一要解决的问题:
1、需求分析缺乏经验
2、团队对设计目标的理解不一致
3、需求分析过程同软件开发过程严重脱节
4、无法有效的将从客户获取的信息转换成软件设计文档
5、开发人员和需求分析人员互相不认可,无法形成有效的协作
6、需求不明确,测试很难开展
更多信息见:http://www.msup.com.cn/?mod=training&show=6
课程大纲:
课程主要议题:
1、对软件需求的理解
课程的中心思想是通过需求分析来提高项目整体效率和产品定位,节省开发、测试、管理的实施成本。对于每一个具体环节将从客户、开发、测试、管理的角度分别看待需求分析。
讲解软件项目的需求划分技巧;以及如何管理多名需求人员对产品/项目的整体把握,保证多名需求人员对需求理解的一致性;产品型和项目型软件在需求分析时的区别、技巧、以及如何快速把握需求关键点。
2、需求文档
很多时候需求人员过分关注特定的理论图形或表达法,而忽略了需求文档的实用性,这一部分从实际出发,讲解需求文档的质量标准、到底应该细致到什么程度才能对开发、测试及管理提供有力支撑,结合实例讲解需求和架构的配合,需求和开发的交互。
分析是否需要进行多次需求文档的转换,这样做的目的和结果是怎样的。分享需求文档的评审流程和规范,为什么要这样做,能够为管理层提供哪些支撑。
3、需求的细化
不仅讲解对显性功能和隐性功能的需求细化原则和技巧,而且分析为什么要考虑这些方面,不这样做会怎么样,每一部分都结合实例进行,同时结合需求细化讲解需求对测试的影响和交互,从测试的角度看待需求分析有什么样的配合技巧。
4、需求人员在整个软件生命周期中的作用
需求人员应该对整个软件生命周期提供持续的驱动力,需求人员在开发阶段、测试阶段、变更处理、甚至商务处理可以发挥哪些重要的作用。
同时,分别从“任务”和“人员”两个不同角度讲解如何优化项目开发模式,把瀑布式、迭代式等多种项目管理方法结合,利用最小化的资源提供最大化的产出。
课程中逐一要解决的问题:
1、需求分析缺乏经验
2、团队对设计目标的理解不一致
3、需求分析过程同软件开发过程严重脱节
4、无法有效的将从客户获取的信息转换成软件设计文档
5、开发人员和需求分析人员互相不认可,无法形成有效的协作
6、需求不明确,测试很难开展
更多信息见:http://www.msup.com.cn/?mod=training&show=6