DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 更新日志 的文章

更新日志:

2010-06-16

1.将版本号正式升级为V2.1
因对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。
经过不完全测试,采集速度至少提高30%。
如某个包含7个采集列表页面的采集节点,单进程单线程采集完7个页面时间为:7655毫秒,单进程多线程采集完7个页面时间为:5030毫秒
2.将中文分词代码进行了简化,去掉了反向分词部分的代码。
因分词这里占用时间不少,去掉反向分词可以减少词库容量,加速程序执行速度。

阅读全文..

更新日志:

2010-06-13

1.调整了采集流程,现在每次程序运行最多只处理一个临时文档,缩短了程序执行时间。
2.将采集线程锁的默认锁定时间调整为180秒,因以前已经调整过相关代码段,现在不会再出现两篇相同标题的文章。
3.修正了一个处理预览图片时,如果输入图片格式不正确将导致程序出错线程锁定的错误。
4.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页。
5.给采集程序增加了一个调试选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?act=show

在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
6.应网友要求,增加了采集某一特定节点的采集选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?nid=54
nid后面对应的是采集节点ID,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
这个选项也可以和上面的act=show选项混合使用,具体用法为:
http://www.xxx.com/plus/autocollect.php?act=show&nid=54
这样就是对id为54的采集节点进行调试。

阅读全文..