DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览 自动采集插件V2 里的文章

更新日志:

时间:2010-06-25

内容:
1.修正了一个在生成预览图时,没有判断预览图高度宽度是否为0,造成被0除的问题。
2.修正了一个采集图片出错时,程序出错不能正常返回的问题。
3.修改了“是否下载远程资源”这个选项的配置方式,以前是由DEDECMS和本插件配置文件共同控制,稍显累赘。现在只由本插件配置文件控制。
从此以后DEDE采集选项里面的“下载字段里的多媒体资源”将不起作用。
4.修正了一个如果文章栏目只有一级栏目,将不能正确生成栏目列表页的错误。
5.将“自动摘要长度”由固定的200字,改由DEDE系统变量控制。

涉及的文件:
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php

升级操作:
插件版本为DedePlus_AutoCollect_V2.1_20100623.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.1_20100625update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-06-23

内容:
1.修正了一个使用打乱句子排列顺序伪原创方式时,如果采集到的正文有单引号等字符,会造成插入数据库失败的问题。
2.修正了一个伪原创时不能进行关键字替换的问题。
3.增加了一个每天最多可以入库多少文章的选项,默认为0不限制,建议200。如开启此选项,入库到达上限以后网页还是照样采集,但要等到第二天才入库。
4.增加了设置入库文章的最少间隔时间,单位秒,默认为0不限制,建议600秒。如开启此选项,每次入库以后必须等待一定的时间才能再次入库。这个选项用来限制采集文章入库的速度。

以上两个选项都在/plus/autocollect.php文件里面进行设置。如果不想使用默认值,就在该文件里面找到(如果没找到,就在$coNodes = array();这一行上面添加)以下两句:
$maxAddArchives=0; //每天最多可以入库多少文章,为0不限制,建议200
$addArchivesTime=0; //入库文章的最少间隔时间,单位秒,为0不限制,建议600

涉及的文件:
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/adcount.bin
/plus/autocollect/replacewords.bin

升级操作:
插件版本为DedePlus_AutoCollect_V2.1_20100622.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.1_20100623update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-06-22

内容:
1.增加了一个捕捉运行时错误的功能,如果采集出错将会在日志上显示详细的错误定位信息,方便调试程序。
2.在错误捕捉功能的帮助下,发现一些小问题,已经全部修正。
3.应网友要求,增加了一个采集入库时,是否对对标题进行同义词替换的选项。
以前对文章进行同义词替换,会同时替换文章标题和文章正文。
现在这两个替换可以分开设置。具体用法为在配置文件中进行修改:
$coNodes[76]=array(24,0,1,0);
/*
//array(24[栏目ID]
,2[采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
,1[检查百度收录,0不检查]
,0[不使用伪原创,1正文关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),4标题关键字替换伪原创
可以组合使用比如同时想要关键字替换和打乱句子那么这里就是1+2=3])
*/

涉及的文件:
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_image.php

升级操作:
插件版本为DedePlus_AutoCollect_V2.1_20100620.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.1_20100622update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

2010-06-20

1.修正了一个单进程多线程采集图片时,文件保存路径错误导致图片不能正常保存的问题。
2.增加了采集时检查采集到的文章百度是否已经收录的选项,如果已经收录那么不入库。默认选项为不检查百度收录直接入库。
3.增加了采集时不采集并去掉文章中的图片的选项,默认为采集图片。
4.应网友要求,增加了入库时打乱句子排列顺序的伪原创选项。打开这个选项会自动去掉文章中的图片。默认为不打开此选项。

以上三个选项的用法是,在配置文件里面进行配置:
配置文件原来的写法:
$coNodes[76]=24;
现在依然可以这么写,但那些采集选项将自动设置为默认的。如果想改变采集选项,那么应该这么写:
$coNodes[76]=array(24,0,1,0);

这个数组有4个元素,一个是栏目ID,这里是24
,第二个元素是媒体采集选项,0[(默认)2采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
,第三个元素1[1检查百度收录,(默认)0不检查]
,第四个元素0[0不使用伪原创,(默认)1关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),
可以组合使用比如同时想要关键字替换和打乱句子那么这里就是1+2=3]

阅读全文..

更新日志:

2010-06-16

1.将版本号正式升级为V2.1
因对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。
经过不完全测试,采集速度至少提高30%。
如某个包含7个采集列表页面的采集节点,单进程单线程采集完7个页面时间为:7655毫秒,单进程多线程采集完7个页面时间为:5030毫秒
2.将中文分词代码进行了简化,去掉了反向分词部分的代码。
因分词这里占用时间不少,去掉反向分词可以减少词库容量,加速程序执行速度。

阅读全文..

更新日志:

2010-06-13

1.调整了采集流程,现在每次程序运行最多只处理一个临时文档,缩短了程序执行时间。
2.将采集线程锁的默认锁定时间调整为180秒,因以前已经调整过相关代码段,现在不会再出现两篇相同标题的文章。
3.修正了一个处理预览图片时,如果输入图片格式不正确将导致程序出错线程锁定的错误。
4.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页。
5.给采集程序增加了一个调试选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?act=show

在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
6.应网友要求,增加了采集某一特定节点的采集选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?nid=54
nid后面对应的是采集节点ID,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
这个选项也可以和上面的act=show选项混合使用,具体用法为:
http://www.xxx.com/plus/autocollect.php?act=show&nid=54
这样就是对id为54的采集节点进行调试。

阅读全文..

更新日志:

2010-06-08

1.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。
2.在日志的帮助下发现了一个采集线程锁定的逻辑错误,现已修正。

阅读全文..

更新日志:

2010-06-06

1.修正了一个正则表达式错误,造成不能自动判断网页字符编码的错误。
2.修改了采集节点与栏目ID的对应数组定义,使之更有效率。
3.修正了一个不能正确判断文章标题,可能造成相同标题的文章会采集入库两次的问题。
4.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。
5.采集链接增加了一个选项,用于检查采集节点设置是否正确。
6.修正了一个路径错误导致不能正确生成缩略图的问题。

阅读全文..

第二版自动采集插件安装 完成以后,需要进行一定的设置才能正常使用。

插件设置:
首先,还是需要先在DEDE后台设置好采集规则。

DEDE的采集规则是没有对应栏目的,采集的文章内容还不知道能放到哪里去。所以我们需要设置好采集规则和网站栏目ID的一一对应关系,具体设置在 /plus/autocollect.php 件里面。

对应关系有两种写法:
$coNodes[20]=58; //采集节点ID在前,网站栏目ID在后,如采集节点为5,栏目ID为6,那么这里就是$coNodes[5]=6;
$coNodes[21]=70; //有多少个采集规则,这里就写多少条对应关系
注释说的很清楚了,采集节点ID在前,网站栏目ID在后,如采集节点为5,栏目ID为6,那么这一行应该这么写:
$coNodes[5]=6;

这是第一种写法,第二种写法用来改变默认的采集选项
$coNodes[76]=array(24,0,1,0);
等号后面是一个数组,这个数组有4个元素,第一个元素是栏目ID,这里是24
第二个元素是媒体采集选项,0[(默认)2采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
第三个元素1[1检查百度收录,(默认)0不检查]
第四个元素0[0不使用伪原创,(默认)1正文中的关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),4标题中的关键字替换伪原创
可以组合使用比如同时想要替换正文和标题中的关键字来进行伪原创,那么这里就是1+4=5]

如果某个采集节点为25,对应的栏目ID为3,需要采集图片到本地,不检查百度收录,使用正文和标题关键字替换,那么对应关系要这么写:
$coNodes[25]=array(3,2,0,5);

有几条采集规则,就需要写几行对应关系。

$maketime选项,是设置重新生成主页的间隔时间(单位秒),一般保持默认就可以。当然,你也可以根据自己的实际需要设置成相应的整数。
$maketime = 60; //主页及栏目列表页创建间隔时间,单位秒

$locktime选项,是设置采集线程锁定时间。第二版插件设置了线程锁机制,同一时间只允许一个采集线程。
$locktime=300; //采集线程锁定时间,如果采集线程出错,多少秒以后允许再次采集

这两个设置保持默认就可以了。

$maxAddArchives=0; //每天最多可以入库多少文章,为0不限制,建议200。如开启此选项,入库到达上限以后网页还是照样采集,但要等到第二天才入库。
$addArchivesTime=0; //入库文章的最少间隔时间,单位秒,为0不限制,建议600。如开启此选项,每次入库以后必须等待一定的时间才能再次入库。这个选项用来限制采集文章入库的速度。

插件使用:

插件安装好以后,到DEDECMS后台管理 -> 模板 -> 默认模板管理 -> 修改footer.htm ,在最后面加上以下(橙黄色字体)内容:

<script language=”javascript”>
document.write(“<img src=’http://www.xxx.com/plus/autocollect.php?”+Math.random()+”‘ border=’0′ style=’display:none’>”);
</script>

这里的www.xxx.com替换成你的网站域名。
设置好以后手工生成一遍首页,以后每当有人访问你的网站首页时,本采集插件就会自动运行。

手工调试:
在浏览器地址栏输入 http://你的域名/plus/autocollect.php?act=show 就可以手工调试并查看采集程序运行情况。

日志:
/plus/autocollect/log 下面有一些类似于 2010-06-23.log 的文件,就是插件自动运行时生成的日志。

阅读全文..

DEDE全自动采集插件第二版 正式发布,以下是它的安装方法.

插件安装:

首先解压缩插件安装包并上传到网站根目录,然后到DEDECMS后台管理 -> 模块 -> 模块生成向导,填写以下(橙黄色字体)内容:

阅读全文..