更新日志:

2010-06-13

1.调整了采集流程,现在每次程序运行最多只处理一个临时文档,缩短了程序执行时间。
2.将采集线程锁的默认锁定时间调整为180秒,因以前已经调整过相关代码段,现在不会再出现两篇相同标题的文章。
3.修正了一个处理预览图片时,如果输入图片格式不正确将导致程序出错线程锁定的错误。
4.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页。
5.给采集程序增加了一个调试选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?act=show

在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
6.应网友要求,增加了采集某一特定节点的采集选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?nid=54
nid后面对应的是采集节点ID,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
这个选项也可以和上面的act=show选项混合使用,具体用法为:
http://www.xxx.com/plus/autocollect.php?act=show&nid=54
这样就是对id为54的采集节点进行调试。