DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览 自动采集插件V2 里的文章

目前,dede自动采集插件已经升级到V3版本。
v2跟v3在数据文件结构上有了很大的不同,v3版不能向下兼容。因此正在使用本插件的老用户,就有必要将v2的数据文件升级到v3版本。以下详细说明从v2升级到v3的整个过程。

如何将采集插件从v2升级到v3?

1.备份文件
请将以下文件用FTP下载到本地妥善放置,以免升级失败造成不必要的麻烦:

/plus/autocollect.php
/plus/autocollect/adcount.bin
/plus/autocollect/ck.bin
/plus/autocollect/cleanlog.bin
/plus/autocollect/coinfo.bin
/plus/autocollect/lock.bin
/plus/autocollect/makeinfo.bin
/plus/autocollect/replacewords.bin

友情提示:如果你在/plus/autocollect/这个目录还放置了其他重要的文件,也请备份到本地,升级过程会自动删除这个目录多余的文件。

2.上传升级文件

请各位老用户注意查收邮件,将邮件附件中的 从v2升级到v3.rar 解压,上传以下文件并覆盖到网站相应位置,请注意UTF8和GBK版本不同。
比如你的DEDE是v5.6gbk版本,那么你需要上传升级包内的/gbk/plus 目录到你的网站根目录进行覆盖。

/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/data/autocollect.php

3.升级配置文件

然后在浏览器地址栏运行(请将以下链接中的:www.dedeplus.com,换成你自己的域名。)

http://www.dedeplus.com/plus/autocollect.php?act=update

一直点下一步、下一步,直到网页提示:

恭喜,配置文件已经成功保存!

4.删除以前安装的自动采集插件

在DEDE后台->模块->模块管理,删除以前安装的dedeplus [自动采集更新]插件,先卸载后删除。删除的时候,请注意不要选择删除文件

如果没有在DEDE后台安装过本插件,那么请跳过这一步。

5.安装新的v3.0插件

点这里查看>> 如何安装dede自动采集插件v3

友情提示:新插件安装完以后,一定要在线升级一次才可以正常使用^_^

阅读全文..

更新日志:

时间:2010-10-19

内容
1.为增强兼容性,将POSIX扩展的正则表达式函数都替换成Perl兼容正则表达式函数。即使是这样DEDECMSv5.6依然还是无法在PHP5.3以上的环境中运行,但起码不会再有客户说是插件程序的问题了-_-!!!
2.修改了采集节点轮询的方式,不在配置文件中的节点将不再轮询,相当于该节点被手工禁用,能在一定程度上提高采集效率。
3.修正了一个,如果服务器禁用memory_get_usage函数,将造成插件程序不能触发自己的问题。
4.修正了一个,如果没有在PHP全局变量中设置memory_limit,将会导致插件出错的问题。
5.重写了图片操作类,不再使用DEDE系统函数,而是使用新函数给采集到的图片增加水印。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/cls_FoxImage.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20101011.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101019update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间2010-10-11

内容
1.针对漫画等特殊网页,增强了对文章分页链接的采集能力。
2.修正了一个,可能会造成入库文章标题为空的问题。
3.修正了一个逻辑错误,造成的媒体采集选项不正确的问题。具体表现为即使选择了采集选项为不采集或者去掉媒体,插件有时仍然会下载媒体到本地。
4.应客户要求,大幅增强了插件相对空闲时的节点采集能力。按照默认配置,当采集节点在50个以下,插件相对空闲时,以前可能会等待3-4小时,现在1小时内必定会采集到目标站点的更新。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100927.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101011update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-27

内容:
1.修正了一个,可能会导致不能正常进行正文同义词替换的问题。
2.因某些虚拟主机不支持sleep函数,故将所有的sleep替换成usleep函数,增强插件兼容性。
3.修正了一个,如果采集链接中存在&等特殊字符,可能会导致不能正常进行采集的问题。
4.有客户反映,如果开启关键字插入拼音伪原创,插入的拼音数量较多,影响了文章可读性。为此增加了拼音插入控制,现在插入比例控制在大概正文长度的5%左右。
5.应客户要求,增加了从目标网页采集内容摘要及关键字的功能。
6.应客户要求,增加了自动审核文章的功能。与此相配合,修改了已审核的文章才能生成HTML,未审核的将不能再生成HTML。

如想使用从目标网页采集内容摘要及关键字的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=========设置文章关键字及摘要==========
//================================

$autoTags=1; //设置文章关键字及摘要,取值[1/2/3]

//1:强制通过中文分词设置关键字及摘要,2:强制通过原始网页取关键字及摘要,3:先通过原始网页取,取不到再用中文分词取
//默认是1,强制通过中文分词设置关键字及摘要

//================================
//================================

如想使用自动审核文章的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//======自动审核文章==================
//================================

$autoReview=true; //是否自动审核文章,取值[true/false],默认为false不自动审核。

//开启以后默认自动设置以下变量:每次自动审核的数量=10;栏目ID=不限制栏目;排序方式=随机;
//如果想要改变默认值,可以这么写:
//$autoReview=array(20,3,’desc’);
//其中,20是每次自动审核的数量,栏目ID为3,排序方式为按照文章ID倒序.排序方式可以设置为[‘asc’:按照文章ID顺序;’desc’:按照文章ID倒序;false:排序方式为随机]

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100920.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100927update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-20

内容:
1.修正了一个,在设置采集节点时“区域匹配模式”使用“字符串”模式,如果匹配规则不正确,可能造成程序出错自动退出的问题。
2.修正了一个在采集文章内容页时如果匹配不到文章标题,可能会造成程序出错自动退出的问题,将尝试使用列表页文章标题。
3.修正了一个正则表达式书写错误,可能造成在插入文章SEO头尾段落时出错退出的问题。
4.应客户要求,将XML站点地图[google站点地图/google资讯站点地图/百度站点地图]中的文章数量从100篇,增加到1000篇。
5.应客户要求,增加了一个在文章标题前后自动插入设定的标题关键字的功能。如需开启,请将伪原创选项加64。
如果想使用此功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======标题关键字配置=================
//================================

/*必须要在上面正文采集选项中,正文伪原创开启64才能使用*/
$titleKeys=array();
$titleKeys[]=’dede自动采集’; //标题中最好不要带链接等特殊字符
$titleKeys[]=’dede全自动采集插件’; //会随机在标题的前面或者后者,插入这些关键字中的某一个
$titleKeys[]=’采集插件for Dede’; //写多少行都行,根据你自己的需要
$titleKeys[]=’dede采集’;
$titleKeys[]=’织梦自动采集’;
$titleKeys[]=’织梦采集插件’;

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100904.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100920update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-04

内容:
1.修正了一个关键字替换伪原创时,会对文章进行多次替换的问题。比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在会被替换成:小阿姨->小姨妈。
2.增加了在文章中增加关键字拼音的伪原创选项,这个功能比关键字替换的可读性要好很多。如需开启,请将伪原创选项加16。
3.应客户要求,增加了一个在文章头尾自动插入SEO段落的功能。如需开启,请将伪原创选项加32。
其中文章头尾的段落内容是可以自定义的,如果想改变默认的设置,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======SEO插入头尾配置==============
//================================

/*必须要在上面正文采集选项中,正文伪原创开启32才能使用*/
//每个不同的句子中间用竖线隔开|,每一句后面不用跟标点符号。插件会随机从你设定好的句子当中随机抽取组成一段,添加标点符号以后,自动插入到你的文章头部和尾部。
//支持标签替换,如果你在句子中间插入{title},那么最后会被自动替换成文章的标题。
//支持以下标签:{title},文章标题;{keywords},文章关键字;{summary},文章摘要;{sitename},你的网站名字;{siteurl},你的网站链接

//这里插入到文章头部的句子
$seoHeads=array(); //这句必须要,$seoHeads[]=”这里的内容才能自己设定|这是可能随机抽取到的第二句|加多少句都可以”;
$seoHeads[]=”《{title}》是一篇好文章|无意中在网上看到《{title}》|今天在网上看到《{title}》|{sitename}最近发表了一篇名为《{title}》的文章|本页是{sitename}最新发布的《{title}》的详细页面”;
$seoHeads[]=”感觉写的不错|好久没看到这么好的文章|感觉很有用处|觉得有用就收藏了|觉得应该跟大家分享|好东西应该跟大家分享”;
$seoHeads[]=”这里给大家转摘到{sitename}|重新排版了一下发到这里[{siteurl}]|重新编辑了一下发到{sitename}|改了一下错别字|把错别字改掉了|改掉错别字就发到了{sitename}”;
$seoHeads[]=”为了大家阅读方便|为了方便大家的阅读|希望大家能有所收获|希望对网友有用|看完如果觉得有用请记得收藏|觉得好就请收藏下”;
//并没有规定一定只能写4行,写多少行都行,只要最终组合看起来通顺。

//这是插入到文章尾部的句子
$seoFoots=array(); //这句必须要
$seoFoots[]=”以上就是《{title}》的全部内容|以上是《{title}》的详细内容|《{title}》是篇好文章|以上就是这篇文章的详细内容|以上就是这篇文章的全部内容|这是篇好文章”;
$seoFoots[]=”主要描述{keywords}|讲的是关于{keywords}等方面的内容|涉及到{keywords}等方面|涉及到{keywords}等”;
$seoFoots[]=”希望大家能有所收获|希望网友能有所收获|希望对大家有用|希望对网友有用|看完如果觉得有用请记得收藏|觉得好就请收藏下|觉得好就按CTRL+D收藏下”;
//并没有规定一定只能写3行,写多少行都行,只要最终组合看起来通顺。

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php
/plus/autocollect/pinyin.bin

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100827.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100904update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

DEDE全自动采集插件第二版已经发布,以下是跟 自动采集插件第一版 的功能对比:

第一版(试用版) 第二版(正式版)
支持版本 仅支持v5.5 GBK 支持v5.3/v5.5/v5.6 GBK和UTF8
采集效率 使用DEDE系统自带函数,效率不高 专门针对采集设计的函数,性能更好
编码检测 需要自己判断网页编码 插件自己判断并进行编码转换
网页重定向 × 无法采集 √ 插件自动转向新地址并进行采集
gzip压缩 × 无法采集 √ 插件自动判断并解压缩
多线程采集 × 不支持 √ 支持多线程采集,如果失败还会转到单线程
采集重试 × 不支持 √ 如果采集失败,会再尝试采集最多3次
图片采集 支持,但可能采集不到/采集到半张图片/黑图片 支持,采集失败会自动重试,并且对于图片也有专门的检测函数,不会出现半截图片或者黑图片
采集节点 随机选择节点,有可能一个采集节点被采集多次,其他节点却怎么也轮不到,效率不高 节点轮询,所有正常节点的机会均等
文章重复 × 无法避免,只要PV触发速度快,必然会出现重复文章 √ 设置了进程锁定机制,同一时间内只允许一个采集进程,从流程设计上避免了文章重复的问题
内容为空 × 没有判断,无法避免 √ 内容为空的文章自动丢弃不入库
栏目乱发 × 流程设计不合理,无法避免 √ 重新设计了采集流程,在入库时自动重新计算文章所属栏目,从流程设计上避免了栏目乱发的问题
内容伪原创 只支持对所有文章全部进行关键字替换,而且替换中还可能出现乱码 文章标题关键字替换/文章内容关键字替换/文章句子随机打乱/插入SEO关键字/插入拼音/插入SEO段落,各伪原创方式可以自由组合,也可以不使用
SEO关键字 × 不支持 √ 支持,每隔一段中文随机插入SEO关键字
文章属性 × 不支持自动设置文章属性 √ 自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等
文章关键字 × 不支持自动设置文章关键字 √ 增加了基于词库的中文分词系统,因此能自动获取文章关键字(TAG)和文章摘要
文章数量 × 完全没办法控制 √ 可设置每日最大入库数量,到了以后继续采集但停止入库,等待第二天再行入库
丢弃过时采集 × 不支持 √ 增加了对采集文章时限的设置,可设置超过一段时间的文章不再采集直接丢弃,非常适合对文章时效要求特别严格的站点(比如新闻站点)
站点地图 × 不支持自动生成站点地图 √ 自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]
资源限制 × 不支持,PV触发过多可能直接挂掉服务器 √ 支持,有进程锁机制保证单进程,还有多个选项可以限制资源占用
插件触发 完全靠PV触发,来多少PV采集多少次,不来就一个也采集不到 主要靠插件自己触发(95%以上),PV触发只作为保险措施
定时采集 × 不支持 √ 支持,可以设置多个采集时间段
运行日志 × 没有日志,插件在后台运行,不知道它在干嘛 √ 有运行日志,通过分析日志还可以看到采集节点失效、栏目设置不合理等潜在问题
采集能力 纠结,PV触发少了可能采集不到什么;触发多了每天可能采集上千篇文章,但会出现很多重复文章 就算只有100PV,每天也可以稳定采集4000-5000,绝不会重复

需要本插件者,请点这里

阅读全文..

实事求是的说,用插件的方式采集文章,还是比较消耗资源的。尤其是选项设置不合理的时候,对服务器来说简直就是灾难。
如果用的是独立服务器或者是VPS,这个问题还不是很突出;
如果用的是虚拟主机,那就有必要了解以下的知识,更好的设置采集选项。

阅读全文..

目前,DEDE自动采集插件 已经 更新到了V2.4 ,插件的采集能力也从以前的每天不到1000,提高到现在的每天4000+。

但是这个提高到4000+是有前提的:

阅读全文..

更新日志:

本次更新的亮点在于极大的提高了本插件的采集能力。
现在,在一个典型的3分钟采集进程中(2分钟采集,1分钟休眠),插件可以采集到10篇左右的文章。根据简单的计算可以得出,插件目前的采集能力大概在每天4800篇文章左右。
稳定性测试得到的数据也证明了这点,本插件每天大概可以采集到4000-5000左右的文章
因为这个原因,又用掉了一个宝贵的小版本号,现在插件版本为:V2.4

时间:2010-08-27

内容:
1.提高了本插件的采集能力(从以前的每天不到1000篇提高到现在的4000+),在同一个采集进程内,能同时采集入库多篇文章。 小技巧:怎么设置才能提高本插件的采集能力?
2.修正了一个客户发现的问题。该问题具体表现为:文章生成时,不能自动更新上一篇文章,导致几乎所有文章的下一篇文章都是空的。
3.增加了一个在每天凌晨自动删除过期日志的功能,默认为保留最多7天的日志。
如果想改变默认选项,请在 /plus/autocollect.php 文件中增加以下橙黄色内容:

$keepLogDate=7; //最多只保留几天以前的日志,默认7天,最少1天

请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100817.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100827update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..