DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 自动采集插件 的文章

更新日志:

2010-06-06

1.修正了一个正则表达式错误,造成不能自动判断网页字符编码的错误。
2.修改了采集节点与栏目ID的对应数组定义,使之更有效率。
3.修正了一个不能正确判断文章标题,可能造成相同标题的文章会采集入库两次的问题。
4.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。
5.采集链接增加了一个选项,用于检查采集节点设置是否正确。
6.修正了一个路径错误导致不能正确生成缩略图的问题。

阅读全文..

第二版自动采集插件安装 完成以后,需要进行一定的设置才能正常使用。

插件设置:
首先,还是需要先在DEDE后台设置好采集规则。

DEDE的采集规则是没有对应栏目的,采集的文章内容还不知道能放到哪里去。所以我们需要设置好采集规则和网站栏目ID的一一对应关系,具体设置在 /plus/autocollect.php 件里面。

对应关系有两种写法:
$coNodes[20]=58; //采集节点ID在前,网站栏目ID在后,如采集节点为5,栏目ID为6,那么这里就是$coNodes[5]=6;
$coNodes[21]=70; //有多少个采集规则,这里就写多少条对应关系
注释说的很清楚了,采集节点ID在前,网站栏目ID在后,如采集节点为5,栏目ID为6,那么这一行应该这么写:
$coNodes[5]=6;

这是第一种写法,第二种写法用来改变默认的采集选项
$coNodes[76]=array(24,0,1,0);
等号后面是一个数组,这个数组有4个元素,第一个元素是栏目ID,这里是24
第二个元素是媒体采集选项,0[(默认)2采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
第三个元素1[1检查百度收录,(默认)0不检查]
第四个元素0[0不使用伪原创,(默认)1正文中的关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),4标题中的关键字替换伪原创
可以组合使用比如同时想要替换正文和标题中的关键字来进行伪原创,那么这里就是1+4=5]

如果某个采集节点为25,对应的栏目ID为3,需要采集图片到本地,不检查百度收录,使用正文和标题关键字替换,那么对应关系要这么写:
$coNodes[25]=array(3,2,0,5);

有几条采集规则,就需要写几行对应关系。

$maketime选项,是设置重新生成主页的间隔时间(单位秒),一般保持默认就可以。当然,你也可以根据自己的实际需要设置成相应的整数。
$maketime = 60; //主页及栏目列表页创建间隔时间,单位秒

$locktime选项,是设置采集线程锁定时间。第二版插件设置了线程锁机制,同一时间只允许一个采集线程。
$locktime=300; //采集线程锁定时间,如果采集线程出错,多少秒以后允许再次采集

这两个设置保持默认就可以了。

$maxAddArchives=0; //每天最多可以入库多少文章,为0不限制,建议200。如开启此选项,入库到达上限以后网页还是照样采集,但要等到第二天才入库。
$addArchivesTime=0; //入库文章的最少间隔时间,单位秒,为0不限制,建议600。如开启此选项,每次入库以后必须等待一定的时间才能再次入库。这个选项用来限制采集文章入库的速度。

插件使用:

插件安装好以后,到DEDECMS后台管理 -> 模板 -> 默认模板管理 -> 修改footer.htm ,在最后面加上以下(橙黄色字体)内容:

<script language=”javascript”>
document.write(“<img src=’http://www.xxx.com/plus/autocollect.php?”+Math.random()+”‘ border=’0′ style=’display:none’>”);
</script>

这里的www.xxx.com替换成你的网站域名。
设置好以后手工生成一遍首页,以后每当有人访问你的网站首页时,本采集插件就会自动运行。

手工调试:
在浏览器地址栏输入 http://你的域名/plus/autocollect.php?act=show 就可以手工调试并查看采集程序运行情况。

日志:
/plus/autocollect/log 下面有一些类似于 2010-06-23.log 的文件,就是插件自动运行时生成的日志。

阅读全文..

DEDE全自动采集插件第二版正式发布,第二版在保留原有功能的基础上,改进或增加了以下功能:

1.此版本全面支持DEDECMS V5.3/V5.5/V5.6,第一版对DEDE5.6的支持不够完善。
2.增加了UTF8版本,第一版只支持GBK。推荐大家使用UTF8版本,插件的执行效率比GBK版本更高。
3.重写了采集代码,执行效率更高。现在不会出现采集出现半张图片或者一张全黑图片。
4.重写了采集代码,现在不需要用户判断被采集的网页到底是GBK还是UTF8编码,系统自动判断并进行编码转换
5.重写了DEDE获取网页区域代码,现在支持使用简单而又强大的正则表达式。
6.采集到的文章内容如果为空,将自动丢弃不入库。
7.彻底修改了采集文章分类机制,现在不会再出现采集到的文章随机乱发的现象。
8.改进了关键字替换功能,现在不会再出现第一版中关键字替换乱码的情况。
9.增加了基于词库的文章分词,因此自动获取文章关键字(TAG)和文章摘要成为可能,并已经实现。将自动获取的文章摘要放在文章头部,非常有利于伪原创。
10.所有相关的词库都基于物理文件系统,不需要再增加数据表,既减少了系统出错的可能,也提高了执行效率。
11.增加了线程锁定机制,不会再出现当采集速度过快时,采集到两篇同样文章的情况。
12.改进了预览图机制,现在可以自定义预览图大小,清晰非缩放的预览图片能来更好的访问体验。
13.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。 更新日志20100606
14.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。 更新日志20100608
15.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页更新日志20100613
16.给采集程序增加了一个调试选项,在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
17.应网友要求,增加了采集某一特定节点的采集选项,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
18.对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。经过不完全测试,采集速度至少提高30%。 更新日志20100616
19.文章伪原创方式改进,除了以前的文章正文关键字替换以外,还增加了文章标题关键字替换(可选)和文章正文句子完全打乱的方式。 更新日志20100623
20.可以限制每天入库文章数量,和入库文章最短间隔时间。形成规律以后,对蜘蛛比较友好。
21.可限制采集间隔时间,不会在网站流量巨大时,采集过于频繁造成占用太多CPU资源。
22.可设置定时采集,想几点采集就几点采集。避过网站PV高峰期,在流量比较小的夜晚等时间段自动采集。 更新日志20100629
23.解决了第一版中如果采集时间超长,将会出现数据库服务器掉线,出现“MySQL server has gone away”的问题。 更新日志20100707
24.现在插件可以自己触发自己,开始再次采集,PV触发现在只作为保险措施。通过分析日志文件发现,超过90%以上的触发是插件自己完成的。 更新日志20100718
25.针对新闻等对文章时效要求特别严格的站点,特别增加了对采集文章时限的设置,可以设置超过一段时间的文章不再采集直接丢弃。 更新日志20100729
26.增加了对采集目标服务器返回301或302网页代码,地址被重定向的采集支持。
27.根据客户要求,增加了在文件中插入SEO关键字的功能。每隔一段中文就可以随机插入设定的许多关键字中的某一个。SEO关键字的内容由用户自己设定,可以是任何合法的HTML代码。 更新日志20100803
28.自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等.
29.自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]。 更新日志20100810
30.同类采集插件中傲视群雄的采集能力,每天4000+,甚至有客户报告采集能力可以达到每天1W。 更新日志20100827
31.同义词不会再被循环替换,比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在只会被替换成:小阿姨->小姨妈。
32.增加了可在文章头尾自动插入SEO段落的功能。
33.可在文章中关键字后面自动插入拼音,这个伪原创功能比同义词替换的可读性要好很多。 更新日志20100904
34.可自动审核从其他采集软件(比如火车头)采集并入库到DEDE的文章,可设置每次自动审核的文章数量、文章栏目、排序方式以及自动审核文章的间隔时间。 更新日志20100927

看到这么多文字是不是头有点晕?^_^ 点这里看-> 自动采集插件第二版跟第一版的功能对比表格

以下是其他相关资料链接:
DEDE全自动采集插件第二版安装方法
DEDE全自动采集插件第二版设置及使用
常见问题及解答
第二版更新日志

如果您对本插件还有其他功能上的要求,可以在 开发计划 页面留言,我会酌情增加。

需要本插件者,请点这里

阅读全文..