分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]
  昨天,学校的Web服务器访问不稳定,表现为每当浏览网页几分钟后就不能访问。下午4点左右Web服务器瘫痪,重新启动服务器后恢复,但故障依旧。今天再次发生此问题。经过努力,我终于在今天晚上查出了故障原因并解决。

中南民族大学网站主Web服务器(www.scuec.edu.cn)故障排查报告

  故障时间:2006年6月26日、27日
  硬件环境:惠普HP ProLiant ML570G3 (348137-AA1):4至强(XEON)3.0G CPU;8GB内存
  软件配置:Windows 2003:Apache 2.0.55、PHP 5.1.2、MySQL 4、Symantec AntiVirus 10
  故障描述:Web服务器访问不稳定,表现为每当浏览网页几分钟后就不能访问。下午4点左右Web服务器瘫痪,重新启动服务器后恢复,但故障依旧。今天再次发生此问题。
  排查经过:
  1、怀疑中了蠕虫病毒,用Symantec AntiVirus 10全盘查毒后未发现。
  2、怀疑Apache或MySQL文件损坏,排查后发现文件正确无误,没有缺少。
  3、怀疑高考填报志愿期间,学校网站访问人数增多,但昨天一直很正常,从Apache日志中也看不出这种迹象。
  4、怀疑有人用DDoS分布式拒绝服务攻击服务器,将Apache的httpd.conf中的Timeout 300改为Timeout 120,访问速度好了些,但依旧不快。
  5、用netstat –an多次查看网络状况,发现几个可疑IP段不停地访问服务器,状态为TIME_WAIT。
  6、锁定了几个可疑IP地址段:202.181.33.xxx、202.160.178.1-202.160.180.254、202.165.102.xxx,特别是来自202.160.178.1-202.160.180.254的访问几乎类似202.160.178.1、202.160.178.2、202.160.178.3一样一个接着一个。
  7、追查可疑IP来源,发现除了202.181.33.xxx来自香港外,其它IP地址均来自雅虎中国。
  8、由此断定这些同时在线的将近1000个IP地址连接记录是雅虎中国的搜索引擎爬虫(Robots,一般翻译为机器人)疯狂地一遍又一遍抓取中南民族大学网站内容而留下的,加剧了网站的流量。    
  10、为了通过搜索引擎达到宣传中南民族大学网站的目的,我不能直接封掉这些搜索引擎爬虫的IP地址,只能加大Apache服务器的访问负载能力。
  11、尝试了N种方法试图加大Apache服务器的访问负载能力,均告失败。
  12、发现Apache的子进程Apache.exe占用的内存值从开始的100多M慢慢爬升到900多M就不动了,而此时网页恰好无法访问。终于找到了故障所在。
  13、打开Apache的配置文件httpd.conf,将MaxRequestsPerChild的值设为100,重启Apache,故障解决。MaxRequestsPerChild用于控制服务器建立和结束Apache.exe子进程的频率,如果线程大于100,则结束Apache.exe子进程,释放内存,同时开启一个新的Apache.exe子进程来处理访问请求。

                              张宴
                            2006年6月27日

  附:2006年6月27日Alexa统计的中南民族大学网站(www.scuec.edu.cn)近六个月流量图,该图显示6月26日民大网站流量首次超过百万,服务器负载首创新高,从而引发了当天的故障。
  
分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]