DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

更新日志:

时间:2010-06-22

内容:
1.增加了一个捕捉运行时错误的功能,如果采集出错将会在日志上显示详细的错误定位信息,方便调试程序。
2.在错误捕捉功能的帮助下,发现一些小问题,已经全部修正。
3.应网友要求,增加了一个采集入库时,是否对对标题进行同义词替换的选项。
以前对文章进行同义词替换,会同时替换文章标题和文章正文。
现在这两个替换可以分开设置。具体用法为在配置文件中进行修改:
$coNodes[76]=array(24,0,1,0);
/*
//array(24[栏目ID]
,2[采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
,1[检查百度收录,0不检查]
,0[不使用伪原创,1正文关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),4标题关键字替换伪原创
可以组合使用比如同时想要关键字替换和打乱句子那么这里就是1+2=3])
*/

涉及的文件:
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_image.php

升级操作:
插件版本为DedePlus_AutoCollect_V2.1_20100620.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.1_20100622update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

2010-06-20

1.修正了一个单进程多线程采集图片时,文件保存路径错误导致图片不能正常保存的问题。
2.增加了采集时检查采集到的文章百度是否已经收录的选项,如果已经收录那么不入库。默认选项为不检查百度收录直接入库。
3.增加了采集时不采集并去掉文章中的图片的选项,默认为采集图片。
4.应网友要求,增加了入库时打乱句子排列顺序的伪原创选项。打开这个选项会自动去掉文章中的图片。默认为不打开此选项。

以上三个选项的用法是,在配置文件里面进行配置:
配置文件原来的写法:
$coNodes[76]=24;
现在依然可以这么写,但那些采集选项将自动设置为默认的。如果想改变采集选项,那么应该这么写:
$coNodes[76]=array(24,0,1,0);

这个数组有4个元素,一个是栏目ID,这里是24
,第二个元素是媒体采集选项,0[(默认)2采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
,第三个元素1[1检查百度收录,(默认)0不检查]
,第四个元素0[0不使用伪原创,(默认)1关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),
可以组合使用比如同时想要关键字替换和打乱句子那么这里就是1+2=3]

阅读全文..

更新日志:

2010-06-16

1.将版本号正式升级为V2.1
因对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。
经过不完全测试,采集速度至少提高30%。
如某个包含7个采集列表页面的采集节点,单进程单线程采集完7个页面时间为:7655毫秒,单进程多线程采集完7个页面时间为:5030毫秒
2.将中文分词代码进行了简化,去掉了反向分词部分的代码。
因分词这里占用时间不少,去掉反向分词可以减少词库容量,加速程序执行速度。

阅读全文..

更新日志:

2010-06-13

1.调整了采集流程,现在每次程序运行最多只处理一个临时文档,缩短了程序执行时间。
2.将采集线程锁的默认锁定时间调整为180秒,因以前已经调整过相关代码段,现在不会再出现两篇相同标题的文章。
3.修正了一个处理预览图片时,如果输入图片格式不正确将导致程序出错线程锁定的错误。
4.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页。
5.给采集程序增加了一个调试选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?act=show

在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
6.应网友要求,增加了采集某一特定节点的采集选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?nid=54
nid后面对应的是采集节点ID,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
这个选项也可以和上面的act=show选项混合使用,具体用法为:
http://www.xxx.com/plus/autocollect.php?act=show&nid=54
这样就是对id为54的采集节点进行调试。

阅读全文..

更新日志:

2010-06-08

1.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。
2.在日志的帮助下发现了一个采集线程锁定的逻辑错误,现已修正。

阅读全文..

更新日志:

2010-06-06

1.修正了一个正则表达式错误,造成不能自动判断网页字符编码的错误。
2.修改了采集节点与栏目ID的对应数组定义,使之更有效率。
3.修正了一个不能正确判断文章标题,可能造成相同标题的文章会采集入库两次的问题。
4.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。
5.采集链接增加了一个选项,用于检查采集节点设置是否正确。
6.修正了一个路径错误导致不能正确生成缩略图的问题。

阅读全文..

第二版自动采集插件安装 完成以后,需要进行一定的设置才能正常使用。

插件设置:
首先,还是需要先在DEDE后台设置好采集规则。

DEDE的采集规则是没有对应栏目的,采集的文章内容还不知道能放到哪里去。所以我们需要设置好采集规则和网站栏目ID的一一对应关系,具体设置在 /plus/autocollect.php 件里面。

对应关系有两种写法:
$coNodes[20]=58; //采集节点ID在前,网站栏目ID在后,如采集节点为5,栏目ID为6,那么这里就是$coNodes[5]=6;
$coNodes[21]=70; //有多少个采集规则,这里就写多少条对应关系
注释说的很清楚了,采集节点ID在前,网站栏目ID在后,如采集节点为5,栏目ID为6,那么这一行应该这么写:
$coNodes[5]=6;

这是第一种写法,第二种写法用来改变默认的采集选项
$coNodes[76]=array(24,0,1,0);
等号后面是一个数组,这个数组有4个元素,第一个元素是栏目ID,这里是24
第二个元素是媒体采集选项,0[(默认)2采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
第三个元素1[1检查百度收录,(默认)0不检查]
第四个元素0[0不使用伪原创,(默认)1正文中的关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),4标题中的关键字替换伪原创
可以组合使用比如同时想要替换正文和标题中的关键字来进行伪原创,那么这里就是1+4=5]

如果某个采集节点为25,对应的栏目ID为3,需要采集图片到本地,不检查百度收录,使用正文和标题关键字替换,那么对应关系要这么写:
$coNodes[25]=array(3,2,0,5);

有几条采集规则,就需要写几行对应关系。

$maketime选项,是设置重新生成主页的间隔时间(单位秒),一般保持默认就可以。当然,你也可以根据自己的实际需要设置成相应的整数。
$maketime = 60; //主页及栏目列表页创建间隔时间,单位秒

$locktime选项,是设置采集线程锁定时间。第二版插件设置了线程锁机制,同一时间只允许一个采集线程。
$locktime=300; //采集线程锁定时间,如果采集线程出错,多少秒以后允许再次采集

这两个设置保持默认就可以了。

$maxAddArchives=0; //每天最多可以入库多少文章,为0不限制,建议200。如开启此选项,入库到达上限以后网页还是照样采集,但要等到第二天才入库。
$addArchivesTime=0; //入库文章的最少间隔时间,单位秒,为0不限制,建议600。如开启此选项,每次入库以后必须等待一定的时间才能再次入库。这个选项用来限制采集文章入库的速度。

插件使用:

插件安装好以后,到DEDECMS后台管理 -> 模板 -> 默认模板管理 -> 修改footer.htm ,在最后面加上以下(橙黄色字体)内容:

<script language=”javascript”>
document.write(“<img src=’http://www.xxx.com/plus/autocollect.php?”+Math.random()+”‘ border=’0′ style=’display:none’>”);
</script>

这里的www.xxx.com替换成你的网站域名。
设置好以后手工生成一遍首页,以后每当有人访问你的网站首页时,本采集插件就会自动运行。

手工调试:
在浏览器地址栏输入 http://你的域名/plus/autocollect.php?act=show 就可以手工调试并查看采集程序运行情况。

日志:
/plus/autocollect/log 下面有一些类似于 2010-06-23.log 的文件,就是插件自动运行时生成的日志。

阅读全文..

DEDE全自动采集插件第二版 正式发布,以下是它的安装方法.

插件安装:

首先解压缩插件安装包并上传到网站根目录,然后到DEDECMS后台管理 -> 模块 -> 模块生成向导,填写以下(橙黄色字体)内容:

阅读全文..

DEDE自动采集插件 发布后,很多用户反映使用起来很方便,大大减轻了做站的工作量,调高了工作效率。
但也有人提出这样那样的问题,对于一些常见的问题本站一并整理并在这里回答一下:

 

问:我现在用的是DEDE论坛上发的免费的自动采集,存在一些问题,就是虽然绑定了栏目,但是还是乱发文章,不是那个文章的栏目发到那个文章,你这个不存在这个问题吧?

答:早在DEDE自动采集插件第二版时,就重新设计了采集流程,在入库时自动重新计算文章所属栏目,从流程设计上避免了栏目乱发,彻底解决了这个问题。
具体请看当时的对比表格:http://www.dedeplus.com/archives/217.html

 

问:我这里采集规则是写好的,你的这个采集规则是用DEDE自身的 还是你这个插件需要新的?

答:兼容DEDE采集规则,你可以直接使用以前的采集规则。
另外,本插件对DEDE采集规则的支持有所扩充,可以自定义预览图、文章内容分页的匹配规则/过滤规则和自定义处理接口,你可以根据自己的需要进行设置。

 

问:你这个支持DEDE5.7吗?

答:支持DEDEcms5.3/5.5/5.6/5.7,UTF8和GBK都支持.

 

问:我这个是新站,主要没啥PV,访问触发有问题,能保证正常采集吗?

答:触发方式早已经改进过了,这个不是问题。
目前,本插件有3种启动方式。访问触发(或者说PV触发)、远程服务器触发、插件自己触发自己。
访问触发,是比较传统的触发方式,必须有PV访问的时候才会启动插件运行。像新站PV比较少甚至根本没有,触发就很困难。
远程服务器触发,是指专门有一台触发服务器,每隔10分钟就会自动连接插件的启动文件,触发插件启动。这个已经很稳定了,但还有更稳定的方式,请继续往下看。
根据查看程序运行日志可以发现,插件自己触发自己 这种工作方式非常稳定,占所有触发启动的90%以上。
基本上可以说,启动插件自动运行以后,只要你的网站服务器是正常的(没有死机、重启或者DNS故障、网络连接中断),插件就会一直运行下去;
如果服务器重启过,那么访问触发(或者说PV触发)、远程服务器触发这两种方式就又派上用场了,等到插件被触发启动一次,它又会不停的通过触发自己运行下去。

 

问:你这个采集能导出动态吗?我用的DEDE伪静态。就是采集后一般不是自动生成静态页么,我的空间比较小,不想生成,就用动态的。

答:在插件采集节点参数里面,有一个发布选项,默认是:生成HTML(*推荐),你把它选择成:仅动态浏览,这样就可以了。

 

问:有个问题,就是你这个不是绑定域名的么,那么你的站打不开了,是不是插件就用不成了?

答:只要激活了插件就是永久使用的,不需要再通过网站进行网络授权。
所有相关的域名授权文件都被下载到你的网站上了,而且激活的插件也没有使用时间上的限制,所以不存在说这边网站打不开会影响插件使用的问题。

 

问:升级会不会造成插件无法使用?因为毕竟网络升级,少下个东西就有问题,我说的是自动升级。
我是说可能不是你网络原因,假如升级着,我空间出问题了,少升级个东西,不是就用不成了?

答:首先,插件升级从来都是修复BUG,增加功能,不管升级不升级,都不会影响正常使用。

升级过程是这样的,升级的时候会自动下载一个升级包,就一个文件,大概200k。
插件程序会自动对下载回来的文件,进行md5校验,验证内容完整性;完了自动解开包替换原始文件,也要先验证完整性。
这么说吧,升级只有两种结果,成功或者不成功。
不成功的升级对系统完全没有影响,因为没有任何文件被替换。

 

问:我的站是DEDE5.7 gbk,修改过一些文件,比如模版、程序等,你这个升级会替换这些吗?还是只换你自己的东西?

答:目前本程序在安装的时候,会自动替换两个系统文件。它们位于:
/dede/co_test_rule.php
/include/extend.func.php

如果你修改过这两个文件,请提前告知,我会告诉你解决方案。只有安装的时候才会覆盖这两个文件,以后再升级不需要修改这两个文件。

 

问:购买后售后是和你QQ说话还是邮件?

答:QQ吧,我上班时间都在,每天晚上也是8点半上到11点,有问题可以随时问我。
邮件也行,就是速度慢点。

 

问:现在域名不够5个咋办?

答:有几个留几个,以后要用再加。
只要在技术支持期限内,任何时间报给我域名,都会第一时间给你加上。

 

问:域名不用www吧?也就是不论多少个二级域名算一个?

答:带www和不带www算两个域名,域名是严格验证的,必须和DEDE后台里面设置的完全一致,否则不能正常使用。

 

问:那我能不能先用不带www的域名测试,完了你再帮我修改成带www的正式运行?

答:授权过程是域名只要开通就无法控制,所有的域名授权文件都保存在你自己的网站服务器上。
而且本插件也不限制使用期限,所以无法禁用掉不带www的那个域名。
结论就是:域名只能增加不能修改。

 

问:我看到“限制12个域名 200元”,那我以后做站,加的话补100就可以?还是按你以后涨价的新价补?

答:看你的运气或者看我的运气,如果没涨价就是原价,涨价了肯定要改。
事实上,本插件一直在涨价,从最初的200元不限制域名,到现在的100元限制5个域名,以后肯定还会继续涨。
所以说买的晚真的不如买的早。

当然,调价时肯定会在网站上发布信息的,不可能说网站上一个价,实际上收的是另外一个价。

 

问:你发给我的安装包,里面包含域名授权文件吗?

答:没有,这个只是安装包。
域名是在线授权的,只要升级一下就能正常使用了,目前不用自己另外填什么授权码。

 

问:域名是在线授权的,也就是我只有在我刚才发你的网站域名上安装插件,升级下就能正常使用,在其他域名安装用不了对吧?

答:其他网站能安装,但是用不了。只有发过来的域名,才能进行在线升级和正常使用。

 

问:这个升级半年,那以后想升级的咋办?

答:你可以选择续费,假设续费价格是10元/每域名/6个月,如果你有5个网站名额,那么是10*5=50元。
当然,不升级也可以一直用。
再重申一次,插件升级从来都是修复BUG,增加功能,不管升不升级,都不会影响正常使用。

 

问:续一个域名不行么?

答:真的不行。主要原因是,这个管理后台没有那么复杂的功能,只有一个总的升级截至时间,不能对每个网站单独定义升级截至时间。

 

问:再问一下 这个安装会影响数据库吗,就是会安装到数据库加表之类的么?

答:完全不会新建数据表,插件用物理文件来记录运行数据,而且很详细。

 

问:我现在用的是虚拟主机,2G的空间不知道能用多久。

答:本插件能限制每天总的采集文章数量,达到数量以后,当天就会自动停止采集。
如果限制一下每天总的采集数量在50-100之间,同时只采集文章不采集图片(或者图片采集的不多),2G空间还是可以用很久的。
如果图片多,同时又放开采集不限制数量,本插件每天可以采集到几百M的图片等(约300-400M),这样2G空间很快就满了。

 

这个插件我能用吗?
本插件支持DEDECMS(织梦内容管理系统)v5.3-5.7,包括GBK和UTF8两个版本。
只要你的服务器支持采集,并且你已经设置好采集规则,本插件包安装使用,保证你能装上正常使用。

 

为什么我装上了,也设置好了,但就是没有采集到文章?
首先,一般来说这个插件只要设置好肯定是能够正常运行的,但也确实碰到过不能运行的情况,有以下几种:
a)服务器不支持采集。
有个朋友换了服务器,以前正常运行的插件现在不能自动采集了。我们到处找原因,设置很多断点调试,最终才发现是服务器不支持采集。那怎么才知道服务器支持采集不?很简单,只要你测试一下采集就知道了。在DEDE管理后台->采集->采集节点管理,设定好一条采集规则并测试,就知道服务器是不是支持采集了。
b)没设置采集规则。
这个插件的原理就是根据写好的采集规则来采集网页,没设置好采集规则这个肯定不行,地主家也没有余粮啊。

 

我不会写采集规则,你能帮我设置吗?
在网络上能找到DEDE采集规则,百度一下你就知道了。
如果你需要采集特定的网页,本站也可以帮你定制。这是有偿服务,具体收费标准请通过邮件或者QQ咨询。

 

为什么在QQ上不理我了?
本插件的技术支持是通过邮件和QQ直接联系的,在购买时请务必要留你常用的邮箱及QQ号码,以后本站只承认这个邮箱及QQ号码的咨询。
有任何通知和插件更新也是通过邮箱和QQ来发送的。所以请务必设置好邮箱和QQ号码的密保措施。
如果使用本站没有记录的QQ号码或者邮箱地址咨询相关问题,本站不保证一定答复以及答复的时间。

 

为什么采集回来的文章会乱发到其他栏目?
这个问题在第一版中一直存在,因为采集流程就是这样的,采集到的文章不会马上就入库,要下一次采集的时候才会入库,如果这个中间你调整了规则,那么就可能发不到正确的栏目,估计是调整了栏目和以前的对不上了。
建议:先把所有的采集规则和栏目一一对应好以后,才开始自动采集。设定好采集规则和栏目以后,尽量不要调整。
根据我们的使用经验,设定的过程中会有一些不稳定,但全部设定好以后,基本就没有乱发了。
本插件第二版 专门针对这个问题进行了流程调整和程序优化,已经不会再出现采集到的文章乱发到其他的栏目,请选择功能更加强大的升级版。

阅读全文..

DEDE全自动采集插件第二版正式发布,第二版在保留原有功能的基础上,改进或增加了以下功能:

1.此版本全面支持DEDECMS V5.3/V5.5/V5.6,第一版对DEDE5.6的支持不够完善。
2.增加了UTF8版本,第一版只支持GBK。推荐大家使用UTF8版本,插件的执行效率比GBK版本更高。
3.重写了采集代码,执行效率更高。现在不会出现采集出现半张图片或者一张全黑图片。
4.重写了采集代码,现在不需要用户判断被采集的网页到底是GBK还是UTF8编码,系统自动判断并进行编码转换
5.重写了DEDE获取网页区域代码,现在支持使用简单而又强大的正则表达式。
6.采集到的文章内容如果为空,将自动丢弃不入库。
7.彻底修改了采集文章分类机制,现在不会再出现采集到的文章随机乱发的现象。
8.改进了关键字替换功能,现在不会再出现第一版中关键字替换乱码的情况。
9.增加了基于词库的文章分词,因此自动获取文章关键字(TAG)和文章摘要成为可能,并已经实现。将自动获取的文章摘要放在文章头部,非常有利于伪原创。
10.所有相关的词库都基于物理文件系统,不需要再增加数据表,既减少了系统出错的可能,也提高了执行效率。
11.增加了线程锁定机制,不会再出现当采集速度过快时,采集到两篇同样文章的情况。
12.改进了预览图机制,现在可以自定义预览图大小,清晰非缩放的预览图片能来更好的访问体验。
13.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。 更新日志20100606
14.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。 更新日志20100608
15.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页更新日志20100613
16.给采集程序增加了一个调试选项,在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
17.应网友要求,增加了采集某一特定节点的采集选项,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
18.对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。经过不完全测试,采集速度至少提高30%。 更新日志20100616
19.文章伪原创方式改进,除了以前的文章正文关键字替换以外,还增加了文章标题关键字替换(可选)和文章正文句子完全打乱的方式。 更新日志20100623
20.可以限制每天入库文章数量,和入库文章最短间隔时间。形成规律以后,对蜘蛛比较友好。
21.可限制采集间隔时间,不会在网站流量巨大时,采集过于频繁造成占用太多CPU资源。
22.可设置定时采集,想几点采集就几点采集。避过网站PV高峰期,在流量比较小的夜晚等时间段自动采集。 更新日志20100629
23.解决了第一版中如果采集时间超长,将会出现数据库服务器掉线,出现“MySQL server has gone away”的问题。 更新日志20100707
24.现在插件可以自己触发自己,开始再次采集,PV触发现在只作为保险措施。通过分析日志文件发现,超过90%以上的触发是插件自己完成的。 更新日志20100718
25.针对新闻等对文章时效要求特别严格的站点,特别增加了对采集文章时限的设置,可以设置超过一段时间的文章不再采集直接丢弃。 更新日志20100729
26.增加了对采集目标服务器返回301或302网页代码,地址被重定向的采集支持。
27.根据客户要求,增加了在文件中插入SEO关键字的功能。每隔一段中文就可以随机插入设定的许多关键字中的某一个。SEO关键字的内容由用户自己设定,可以是任何合法的HTML代码。 更新日志20100803
28.自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等.
29.自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]。 更新日志20100810
30.同类采集插件中傲视群雄的采集能力,每天4000+,甚至有客户报告采集能力可以达到每天1W。 更新日志20100827
31.同义词不会再被循环替换,比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在只会被替换成:小阿姨->小姨妈。
32.增加了可在文章头尾自动插入SEO段落的功能。
33.可在文章中关键字后面自动插入拼音,这个伪原创功能比同义词替换的可读性要好很多。 更新日志20100904
34.可自动审核从其他采集软件(比如火车头)采集并入库到DEDE的文章,可设置每次自动审核的文章数量、文章栏目、排序方式以及自动审核文章的间隔时间。 更新日志20100927

看到这么多文字是不是头有点晕?^_^ 点这里看-> 自动采集插件第二版跟第一版的功能对比表格

以下是其他相关资料链接:
DEDE全自动采集插件第二版安装方法
DEDE全自动采集插件第二版设置及使用
常见问题及解答
第二版更新日志

如果您对本插件还有其他功能上的要求,可以在 开发计划 页面留言,我会酌情增加。

需要本插件者,请点这里

阅读全文..