DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览 自动采集插件 里的文章

DEDE全自动采集插件第二版已经发布,以下是跟 自动采集插件第一版 的功能对比:

第一版(试用版) 第二版(正式版)
支持版本 仅支持v5.5 GBK 支持v5.3/v5.5/v5.6 GBK和UTF8
采集效率 使用DEDE系统自带函数,效率不高 专门针对采集设计的函数,性能更好
编码检测 需要自己判断网页编码 插件自己判断并进行编码转换
网页重定向 × 无法采集 √ 插件自动转向新地址并进行采集
gzip压缩 × 无法采集 √ 插件自动判断并解压缩
多线程采集 × 不支持 √ 支持多线程采集,如果失败还会转到单线程
采集重试 × 不支持 √ 如果采集失败,会再尝试采集最多3次
图片采集 支持,但可能采集不到/采集到半张图片/黑图片 支持,采集失败会自动重试,并且对于图片也有专门的检测函数,不会出现半截图片或者黑图片
采集节点 随机选择节点,有可能一个采集节点被采集多次,其他节点却怎么也轮不到,效率不高 节点轮询,所有正常节点的机会均等
文章重复 × 无法避免,只要PV触发速度快,必然会出现重复文章 √ 设置了进程锁定机制,同一时间内只允许一个采集进程,从流程设计上避免了文章重复的问题
内容为空 × 没有判断,无法避免 √ 内容为空的文章自动丢弃不入库
栏目乱发 × 流程设计不合理,无法避免 √ 重新设计了采集流程,在入库时自动重新计算文章所属栏目,从流程设计上避免了栏目乱发的问题
内容伪原创 只支持对所有文章全部进行关键字替换,而且替换中还可能出现乱码 文章标题关键字替换/文章内容关键字替换/文章句子随机打乱/插入SEO关键字/插入拼音/插入SEO段落,各伪原创方式可以自由组合,也可以不使用
SEO关键字 × 不支持 √ 支持,每隔一段中文随机插入SEO关键字
文章属性 × 不支持自动设置文章属性 √ 自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等
文章关键字 × 不支持自动设置文章关键字 √ 增加了基于词库的中文分词系统,因此能自动获取文章关键字(TAG)和文章摘要
文章数量 × 完全没办法控制 √ 可设置每日最大入库数量,到了以后继续采集但停止入库,等待第二天再行入库
丢弃过时采集 × 不支持 √ 增加了对采集文章时限的设置,可设置超过一段时间的文章不再采集直接丢弃,非常适合对文章时效要求特别严格的站点(比如新闻站点)
站点地图 × 不支持自动生成站点地图 √ 自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]
资源限制 × 不支持,PV触发过多可能直接挂掉服务器 √ 支持,有进程锁机制保证单进程,还有多个选项可以限制资源占用
插件触发 完全靠PV触发,来多少PV采集多少次,不来就一个也采集不到 主要靠插件自己触发(95%以上),PV触发只作为保险措施
定时采集 × 不支持 √ 支持,可以设置多个采集时间段
运行日志 × 没有日志,插件在后台运行,不知道它在干嘛 √ 有运行日志,通过分析日志还可以看到采集节点失效、栏目设置不合理等潜在问题
采集能力 纠结,PV触发少了可能采集不到什么;触发多了每天可能采集上千篇文章,但会出现很多重复文章 就算只有100PV,每天也可以稳定采集4000-5000,绝不会重复

需要本插件者,请点这里

阅读全文..

Dede自动采集一体化插件功能比较完善,插件安装完成以后需要先进行插件设置,才能正常使用,以下是该插件的使用方法。

插件使用:

插件安装好以后,到DEDECMS后台管理 -> 模板 -> 默认模板管理 -> 修改footer.htm ,在最后面加上以下(橙黄色字体)内容:

<script language=’javascript’>
document.write(“<img src=’http://www.xxx.com/plus/spider.php?”+Math.random()+”‘ border=’0′ style=’display:none’>”);
</script>

这里的www.xxx.com替换成你的网站域名。

全站生成一下,然后刷新首页就可以在首页上看到更新的文章了。

阅读全文..

插件安装完成以后,需要进行一定的设置才能正常使用。

插件设置:
首先,需要先在DEDE后台设置好采集规则,这个不用说。

DEDE的采集规则是没有对应栏目的,采集的文章内容还不知道能放到哪里去。所以我们需要设置好采集规则和网站栏目ID的一一对应关系,具体设置在 plus/spider.php 件里面。

阅读全文..

插件安装:
首先解压缩插件安装包并上传到网站根目录,然后到DEDECMS后台管理 -> 模块 -> 模块生成向导,填写以下(橙黄色字体)内容:

阅读全文..

第二版插件已经发布,点这里查看 DEDE自动采集插件第二版

此插件是本人从网上找到的,插件原作者已经不可考。

需要本插件者,请点这里

插件说明:

  1 本插件最大的优点就是非常有利于seo,并且实现织梦做站的完全自动化。(这个差不多)

  2 访问或者刷新首页即可触发采集,采集后自动伪原创文章,自动生成文章,自动发布,自动更新首页,栏目页。(是这样的)

  3 采集插件只采集目标网站最新更新的内容,即对方网站一旦更新便立刻采集过来,不会重复发布文章。(是这样的)

  4 指定的采集规则采集的内容可发布到指定的栏目(nid和typeid对应指定)。(这个在/plus/spider.php文件里面进行设置)

  5 采集为逐条采集逐条发布,采集速度可以设置,不会影响网站访问速度,造成CPU使用过高,非常有利于SEO优化。(同样在/plus/spider.php文件里面进行设置)

  6 伪原创词汇可以自己填写或者批量导入,暂提供3000组同义词。(不宜过多,影响文章可读性。原插件有BUG导致替换词不能正确导入,本人已修正)

一体化插件安装

一体化插件设置

一体化插件使用

后记

到这里,插件就安装完成了,最好再手工生成一下网站首页。以后每当网站首页被访问的时候,该插件就会根据你事先设定的采集规则进行采集。

如果想及时查看插件是否工作,可以在浏览器地址栏手工输入:http://你的网站域名/plus/spider.php,等页面运行完成,该插件就已经运行了一次。

阅读全文..