DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 V2.4 的文章

更新日志:

时间:2010-10-19

内容
1.为增强兼容性,将POSIX扩展的正则表达式函数都替换成Perl兼容正则表达式函数。即使是这样DEDECMSv5.6依然还是无法在PHP5.3以上的环境中运行,但起码不会再有客户说是插件程序的问题了-_-!!!
2.修改了采集节点轮询的方式,不在配置文件中的节点将不再轮询,相当于该节点被手工禁用,能在一定程度上提高采集效率。
3.修正了一个,如果服务器禁用memory_get_usage函数,将造成插件程序不能触发自己的问题。
4.修正了一个,如果没有在PHP全局变量中设置memory_limit,将会导致插件出错的问题。
5.重写了图片操作类,不再使用DEDE系统函数,而是使用新函数给采集到的图片增加水印。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/cls_FoxImage.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20101011.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101019update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间2010-10-11

内容
1.针对漫画等特殊网页,增强了对文章分页链接的采集能力。
2.修正了一个,可能会造成入库文章标题为空的问题。
3.修正了一个逻辑错误,造成的媒体采集选项不正确的问题。具体表现为即使选择了采集选项为不采集或者去掉媒体,插件有时仍然会下载媒体到本地。
4.应客户要求,大幅增强了插件相对空闲时的节点采集能力。按照默认配置,当采集节点在50个以下,插件相对空闲时,以前可能会等待3-4小时,现在1小时内必定会采集到目标站点的更新。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100927.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101011update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-27

内容:
1.修正了一个,可能会导致不能正常进行正文同义词替换的问题。
2.因某些虚拟主机不支持sleep函数,故将所有的sleep替换成usleep函数,增强插件兼容性。
3.修正了一个,如果采集链接中存在&等特殊字符,可能会导致不能正常进行采集的问题。
4.有客户反映,如果开启关键字插入拼音伪原创,插入的拼音数量较多,影响了文章可读性。为此增加了拼音插入控制,现在插入比例控制在大概正文长度的5%左右。
5.应客户要求,增加了从目标网页采集内容摘要及关键字的功能。
6.应客户要求,增加了自动审核文章的功能。与此相配合,修改了已审核的文章才能生成HTML,未审核的将不能再生成HTML。

如想使用从目标网页采集内容摘要及关键字的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=========设置文章关键字及摘要==========
//================================

$autoTags=1; //设置文章关键字及摘要,取值[1/2/3]

//1:强制通过中文分词设置关键字及摘要,2:强制通过原始网页取关键字及摘要,3:先通过原始网页取,取不到再用中文分词取
//默认是1,强制通过中文分词设置关键字及摘要

//================================
//================================

如想使用自动审核文章的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//======自动审核文章==================
//================================

$autoReview=true; //是否自动审核文章,取值[true/false],默认为false不自动审核。

//开启以后默认自动设置以下变量:每次自动审核的数量=10;栏目ID=不限制栏目;排序方式=随机;
//如果想要改变默认值,可以这么写:
//$autoReview=array(20,3,’desc’);
//其中,20是每次自动审核的数量,栏目ID为3,排序方式为按照文章ID倒序.排序方式可以设置为[‘asc’:按照文章ID顺序;’desc’:按照文章ID倒序;false:排序方式为随机]

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100920.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100927update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-20

内容:
1.修正了一个,在设置采集节点时“区域匹配模式”使用“字符串”模式,如果匹配规则不正确,可能造成程序出错自动退出的问题。
2.修正了一个在采集文章内容页时如果匹配不到文章标题,可能会造成程序出错自动退出的问题,将尝试使用列表页文章标题。
3.修正了一个正则表达式书写错误,可能造成在插入文章SEO头尾段落时出错退出的问题。
4.应客户要求,将XML站点地图[google站点地图/google资讯站点地图/百度站点地图]中的文章数量从100篇,增加到1000篇。
5.应客户要求,增加了一个在文章标题前后自动插入设定的标题关键字的功能。如需开启,请将伪原创选项加64。
如果想使用此功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======标题关键字配置=================
//================================

/*必须要在上面正文采集选项中,正文伪原创开启64才能使用*/
$titleKeys=array();
$titleKeys[]=’dede自动采集’; //标题中最好不要带链接等特殊字符
$titleKeys[]=’dede全自动采集插件’; //会随机在标题的前面或者后者,插入这些关键字中的某一个
$titleKeys[]=’采集插件for Dede’; //写多少行都行,根据你自己的需要
$titleKeys[]=’dede采集’;
$titleKeys[]=’织梦自动采集’;
$titleKeys[]=’织梦采集插件’;

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100904.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100920update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-04

内容:
1.修正了一个关键字替换伪原创时,会对文章进行多次替换的问题。比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在会被替换成:小阿姨->小姨妈。
2.增加了在文章中增加关键字拼音的伪原创选项,这个功能比关键字替换的可读性要好很多。如需开启,请将伪原创选项加16。
3.应客户要求,增加了一个在文章头尾自动插入SEO段落的功能。如需开启,请将伪原创选项加32。
其中文章头尾的段落内容是可以自定义的,如果想改变默认的设置,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======SEO插入头尾配置==============
//================================

/*必须要在上面正文采集选项中,正文伪原创开启32才能使用*/
//每个不同的句子中间用竖线隔开|,每一句后面不用跟标点符号。插件会随机从你设定好的句子当中随机抽取组成一段,添加标点符号以后,自动插入到你的文章头部和尾部。
//支持标签替换,如果你在句子中间插入{title},那么最后会被自动替换成文章的标题。
//支持以下标签:{title},文章标题;{keywords},文章关键字;{summary},文章摘要;{sitename},你的网站名字;{siteurl},你的网站链接

//这里插入到文章头部的句子
$seoHeads=array(); //这句必须要,$seoHeads[]=”这里的内容才能自己设定|这是可能随机抽取到的第二句|加多少句都可以”;
$seoHeads[]=”《{title}》是一篇好文章|无意中在网上看到《{title}》|今天在网上看到《{title}》|{sitename}最近发表了一篇名为《{title}》的文章|本页是{sitename}最新发布的《{title}》的详细页面”;
$seoHeads[]=”感觉写的不错|好久没看到这么好的文章|感觉很有用处|觉得有用就收藏了|觉得应该跟大家分享|好东西应该跟大家分享”;
$seoHeads[]=”这里给大家转摘到{sitename}|重新排版了一下发到这里[{siteurl}]|重新编辑了一下发到{sitename}|改了一下错别字|把错别字改掉了|改掉错别字就发到了{sitename}”;
$seoHeads[]=”为了大家阅读方便|为了方便大家的阅读|希望大家能有所收获|希望对网友有用|看完如果觉得有用请记得收藏|觉得好就请收藏下”;
//并没有规定一定只能写4行,写多少行都行,只要最终组合看起来通顺。

//这是插入到文章尾部的句子
$seoFoots=array(); //这句必须要
$seoFoots[]=”以上就是《{title}》的全部内容|以上是《{title}》的详细内容|《{title}》是篇好文章|以上就是这篇文章的详细内容|以上就是这篇文章的全部内容|这是篇好文章”;
$seoFoots[]=”主要描述{keywords}|讲的是关于{keywords}等方面的内容|涉及到{keywords}等方面|涉及到{keywords}等”;
$seoFoots[]=”希望大家能有所收获|希望网友能有所收获|希望对大家有用|希望对网友有用|看完如果觉得有用请记得收藏|觉得好就请收藏下|觉得好就按CTRL+D收藏下”;
//并没有规定一定只能写3行,写多少行都行,只要最终组合看起来通顺。

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php
/plus/autocollect/pinyin.bin

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100827.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100904update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

本次更新的亮点在于极大的提高了本插件的采集能力。
现在,在一个典型的3分钟采集进程中(2分钟采集,1分钟休眠),插件可以采集到10篇左右的文章。根据简单的计算可以得出,插件目前的采集能力大概在每天4800篇文章左右。
稳定性测试得到的数据也证明了这点,本插件每天大概可以采集到4000-5000左右的文章
因为这个原因,又用掉了一个宝贵的小版本号,现在插件版本为:V2.4

时间:2010-08-27

内容:
1.提高了本插件的采集能力(从以前的每天不到1000篇提高到现在的4000+),在同一个采集进程内,能同时采集入库多篇文章。 小技巧:怎么设置才能提高本插件的采集能力?
2.修正了一个客户发现的问题。该问题具体表现为:文章生成时,不能自动更新上一篇文章,导致几乎所有文章的下一篇文章都是空的。
3.增加了一个在每天凌晨自动删除过期日志的功能,默认为保留最多7天的日志。
如果想改变默认选项,请在 /plus/autocollect.php 文件中增加以下橙黄色内容:

$keepLogDate=7; //最多只保留几天以前的日志,默认7天,最少1天

请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100817.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100827update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..