DEDE全自动采集插件第三版已经发布,以下是跟 自动采集插件第一版 的功能对比:

第一版(试用版) 第三版(正式版)
支持版本 仅支持v5.5 GBK 支持v5.3/v5.5/v5.6/v5.7/v5.7sp1 GBK和UTF8
支持模型 仅支持文章模型 支持文章模型/图集模型
采集效率 使用DEDE系统自带函数,效率不高 专门针对采集设计的函数,性能更好
编码检测 需要自己判断网页编码 插件自己判断并进行编码转换
网页重定向 × 无法采集 √ 插件自动转向新地址并进行采集
gzip压缩 × 无法采集 √ 插件自动判断并解压缩
多线程采集 × 不支持 √ 支持多线程采集,如果失败还会转到单线程
采集重试 × 不支持 √ 如果采集失败,会再尝试采集最多3次
图片采集 支持,但可能采集不到/采集到半张图片/黑图片 支持,采集失败会自动重试,并且对于图片也有专门的检测函数,不会出现半截图片或者黑图片
采集节点 随机选择节点,有可能一个采集节点被采集多次,其他节点却怎么也轮不到,效率不高 节点轮询,所有正常节点的机会均等
文章重复 × 无法避免,只要PV触发速度快,必然会出现重复文章 √ 设置了进程锁定机制,同一时间内只允许一个采集进程,从流程设计上避免了文章重复的问题
内容为空 × 没有判断,无法避免 √ 内容为空的文章自动丢弃不入库
栏目乱发 × 流程设计不合理,无法避免 √ 重新设计了采集流程,在入库时自动重新计算文章所属栏目,从流程设计上避免了栏目乱发的问题
内容伪原创 只支持对所有文章全部进行关键字替换,而且替换中还可能出现乱码 文章标题关键字替换/文章内容关键字替换/文章句子随机打乱/插入SEO关键字/插入拼音/插入SEO段落/自定义正文摘要/自动排版,各伪原创方式可以自由组合,也可以不使用
SEO关键字 × 不支持 √ 支持,每隔一段中文随机插入自定义SEO关键字,可加粗带链接
文章属性 × 不支持自动设置文章属性 √ 自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等
文章关键字 × 不支持自动设置文章关键字 √ 增加了基于词库的中文分词系统,因此能自动获取文章关键字(TAG)和文章摘要
文章数量 × 完全没办法控制 √ 可设置每日最大入库数量,到了以后继续采集但停止入库,等待第二天再行入库
丢弃过时采集 × 不支持 √ 增加了对采集文章时限的设置,可设置超过一段时间的文章不再采集直接丢弃,非常适合对文章时效要求特别严格的站点(比如新闻站点)
站点地图 × 不支持自动生成站点地图 √ 自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]
资源限制 × 不支持,PV触发过多可能直接挂掉服务器 √ 支持,有进程锁机制保证单进程,还有多个选项可以限制资源占用
插件触发 完全靠PV触发,来多少PV采集多少次,不来就一个也采集不到 主要靠插件自己触发(95%以上),PV触发只作为保险措施,更加提供了服务器主动触发方式,保证插件正常运行。
定时采集 × 不支持 √ 支持,可以设置多个采集时间段
运行日志 × 没有日志,插件在后台运行,不知道它在干嘛 √ 有运行日志,通过分析日志还可以看到采集节点失效、栏目设置不合理等潜在问题
控制面板 × 没有 √ 增加了后台控制面板,所有的参数修改都直接在控制面板上进行。
在线升级 × 没有 √ 增加了在线升级功能,直接在控制面板上点在线升级,就可以升级插件程序到最新版本。
自动升级 × 没有 √ 增加了自动在线升级功能,只要在全局配置里面打开【自动升级】的选项,插件就会在每天凌晨尝试自动更新到最新版本。

需要本插件者,请点这里