DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览发布于 2010八月 的文章

实事求是的说,用插件的方式采集文章,还是比较消耗资源的。尤其是选项设置不合理的时候,对服务器来说简直就是灾难。
如果用的是独立服务器或者是VPS,这个问题还不是很突出;
如果用的是虚拟主机,那就有必要了解以下的知识,更好的设置采集选项。

阅读全文..

目前,DEDE自动采集插件 已经 更新到了V2.4 ,插件的采集能力也从以前的每天不到1000,提高到现在的每天4000+。

但是这个提高到4000+是有前提的:

阅读全文..

更新日志:

本次更新的亮点在于极大的提高了本插件的采集能力。
现在,在一个典型的3分钟采集进程中(2分钟采集,1分钟休眠),插件可以采集到10篇左右的文章。根据简单的计算可以得出,插件目前的采集能力大概在每天4800篇文章左右。
稳定性测试得到的数据也证明了这点,本插件每天大概可以采集到4000-5000左右的文章
因为这个原因,又用掉了一个宝贵的小版本号,现在插件版本为:V2.4

时间:2010-08-27

内容:
1.提高了本插件的采集能力(从以前的每天不到1000篇提高到现在的4000+),在同一个采集进程内,能同时采集入库多篇文章。 小技巧:怎么设置才能提高本插件的采集能力?
2.修正了一个客户发现的问题。该问题具体表现为:文章生成时,不能自动更新上一篇文章,导致几乎所有文章的下一篇文章都是空的。
3.增加了一个在每天凌晨自动删除过期日志的功能,默认为保留最多7天的日志。
如果想改变默认选项,请在 /plus/autocollect.php 文件中增加以下橙黄色内容:

$keepLogDate=7; //最多只保留几天以前的日志,默认7天,最少1天

请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100817.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100827update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

本次更新修正了一个从V2.2版本以来就存在的BUG,具体表现为插件触发自己以后可能不会自动超时退出,造成插件进程越来越多,占用资源来不及释放,最终把服务器挂掉
强烈建议V2.2以上的用户及时升级

时间:2010-08-17

内容:
1.修正了一个从V2.2版本以来就存在的问题,具体表现为插件触发自己以后可能不会自动超时退出,造成插件进程越来越多,占用资源来不及释放,最终把服务器挂掉。
2.修正了一个,可能无法正确生成站点地图中,文章绝对路径的问题。
3.修正了一个采集文章时,如果内容页只包括图片没有中文汉字将匹配不到文章正文的问题。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100810.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.3_20100817update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-08-10

内容:
1.修正了一个无法正确生成预览图片造成预览图显示红叉叉的问题,现在无法正确生成的预览图均会用默认图片代替。
2.增加了给文章自动设置标志(dede管理后台把这个叫文章属性)的功能,默认增加的标志包括[图片/滚动/推荐/特荐/头条/幻灯],但不包括[加粗]。有选项可以开启自动增加[加粗]的功能。
3.增加了自动生成网站站点地图的功能。自动生成的站点地图包括:
全站HTML地图,位于: /data/sitemap.html
全站Rss地图: /data/rssmap.html
google站点地图: /data/sitemap.xml
百度站点地图: /data/baidu_sitemap.xml
每个栏目的RSS数据: /data/rss/xxx.xml
4.另外根据某客户的要求,增加了一个自动生成google资讯站点地图的选项,这个设置只对新闻类站点有用,默认为不开启。

如果要改变以上默认的选项,请在 /plus/autocollect.php 配置文件中,增加以下这段内容,然后根据自己的需要加以调整即可:
//$autoArchiveFlag=true; //是否自动设置文章标志,包括[图片/滚动/推荐/特荐/头条/幻灯],但不包括[加粗],设置取值[true/false],默认为[true]自动设置。
//$autoArchiveFlagB=false; //是否自动设置文章加粗,设置取值[true/false],默认为[false]不自动设置。
//设置为加粗以后,完整的标题应该如 [<strong>这是一个文章标题</strong>],但DEDE很多时候会把后面的</strong>截断,造成这个标题以后所有的文字都变成 strong格式,很难看。
//所以默认为禁止它

//$makeGoogleNewsSiteMap=false; //是否自动生成google资讯站点地图,取值[true/false],默认为不启动。这个设置只对新闻类站点有用。
//生成的google资讯站点地图位置在: /data/news_sitemap.xml
/*
//不管以上参数怎么设置,本插件都会自动生成:
全站HTML地图,位于: /data/sitemap.html
全站Rss地图: /data/rssmap.html
google站点地图: /data/sitemap.xml
百度站点地图: /data/baidu_sitemap.xml
每个栏目的RSS数据: //data/rss/xxx.xml
*/

以上增加的内容,可以直接加在
/*
========================================
以上是配置区域
========================================
*/

前面。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100803.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.3_20100810update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

哇哈哈哈,首先要大笑三声。
因为这次的发布更新了一个功能(按照某客户的话说这是一个很强大的功能),那就是可以在文章正文中随机插入SEO关键字
关键字可以带链接,或者加粗,或者加<h1>,总之你想怎么写都由你自己,而且可以定义多组关键字。
插件会在入库的时候,每隔一段汉字,就从多组关键字中随机选择一个插入文章正文中。
因为更新了这个功能,插件又更新了一个小版本号,现在是V2.3。

更新日志:

时间:2010-08-03

内容:
1.修正了一个,可能会造成无法正确判断网页编码的正则表达式错误。
2.增加了在采集网页时,对目标服务器返回301或者302网页重定向的支持。
3.大幅增强了插件捕捉错误的能力,现在插件在运行以后,即使是DEDE系统函数出错退出,也会被插件捕捉到并记录在日志中。
4.增强了插件再次触发自己开始采集的能力,即使插件程序出错退出,也会尝试在退出前再次触发自己。
5.根据客户要求增加了在文章正文中插入SEO关键字的功能。现在可以在配置文件里面设置,是否在入库时增加SEO关键字。

具体使用方法是:
1先开启文章入库时插入SEO关键字的选项,/plus/autocollect.php 文件,在采集节点和栏目ID的对应关系中设置,如以下橙黄色字体,重点是加粗那一部分:
$coNodes[76]=array(24,2,1,9);
/*
$coNodes[76],采集节点ID是76
//array(24[栏目ID]
,2[采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
,1[检查百度收录,0不检查]
,0[不使用伪原创,1正文关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),4标题关键字替换伪原创,8在正文中加入SEO关键字
可以组合使用,比如同时想要正文关键字替换和在正文中加入SEO关键字,那么这里就是1+8=9])
*/

2.然后在该文件里面增加如下几行,内容如下:
//以下是SEO关键字配置,必须要在上面正文采集选项中,正文伪原创开启8才能使用
$seoKeys=array();
$seoKeys[]='<a href=”
http://www.dedeplus.com/”>dede自动采集</a>’; //只要符合HTML规范,怎么写都可以,一定要把引号写对
$seoKeys[]='<a href=”
http://www.dedeplus.com/“>织梦CMS全自动采集插件</a>’; //写多少行都行,每隔一段中文会随机插入一个关键字
$seoKeys[]='<a href=”
http://www.dedeplus.com/”>Dedecms自动采集插件</a>’;
//SEO关键字配置结束

以上增加的内容,可以直接加在
/*
========================================
以上是配置区域
========================================
*/

前面。

有客户反映说本插件升级太快,以至于从开始版本要覆盖N次才能更新到最新版。
我想出了一个解决方法,就是以后升级会将插件包内/plus/autocollect/文件夹内的程序文件全部打包,其他如词库等文件是基本不变的,不需要打包。
这样从开始版本到最新版,只需要覆盖一次,这样以后升级和使用都更加方便。

涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

升级操作:
插件版本为DedePlus_AutoCollect_V2.2_20100729.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.3_20100803update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..