DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 Dede自动采集 的文章

更新日志:

2010-06-08

1.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。
2.在日志的帮助下发现了一个采集线程锁定的逻辑错误,现已修正。

阅读全文..

更新日志:

2010-06-06

1.修正了一个正则表达式错误,造成不能自动判断网页字符编码的错误。
2.修改了采集节点与栏目ID的对应数组定义,使之更有效率。
3.修正了一个不能正确判断文章标题,可能造成相同标题的文章会采集入库两次的问题。
4.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。
5.采集链接增加了一个选项,用于检查采集节点设置是否正确。
6.修正了一个路径错误导致不能正确生成缩略图的问题。

阅读全文..

DEDE全自动采集插件第二版正式发布,第二版在保留原有功能的基础上,改进或增加了以下功能:

1.此版本全面支持DEDECMS V5.3/V5.5/V5.6,第一版对DEDE5.6的支持不够完善。
2.增加了UTF8版本,第一版只支持GBK。推荐大家使用UTF8版本,插件的执行效率比GBK版本更高。
3.重写了采集代码,执行效率更高。现在不会出现采集出现半张图片或者一张全黑图片。
4.重写了采集代码,现在不需要用户判断被采集的网页到底是GBK还是UTF8编码,系统自动判断并进行编码转换
5.重写了DEDE获取网页区域代码,现在支持使用简单而又强大的正则表达式。
6.采集到的文章内容如果为空,将自动丢弃不入库。
7.彻底修改了采集文章分类机制,现在不会再出现采集到的文章随机乱发的现象。
8.改进了关键字替换功能,现在不会再出现第一版中关键字替换乱码的情况。
9.增加了基于词库的文章分词,因此自动获取文章关键字(TAG)和文章摘要成为可能,并已经实现。将自动获取的文章摘要放在文章头部,非常有利于伪原创。
10.所有相关的词库都基于物理文件系统,不需要再增加数据表,既减少了系统出错的可能,也提高了执行效率。
11.增加了线程锁定机制,不会再出现当采集速度过快时,采集到两篇同样文章的情况。
12.改进了预览图机制,现在可以自定义预览图大小,清晰非缩放的预览图片能来更好的访问体验。
13.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。 更新日志20100606
14.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。 更新日志20100608
15.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页更新日志20100613
16.给采集程序增加了一个调试选项,在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
17.应网友要求,增加了采集某一特定节点的采集选项,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
18.对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。经过不完全测试,采集速度至少提高30%。 更新日志20100616
19.文章伪原创方式改进,除了以前的文章正文关键字替换以外,还增加了文章标题关键字替换(可选)和文章正文句子完全打乱的方式。 更新日志20100623
20.可以限制每天入库文章数量,和入库文章最短间隔时间。形成规律以后,对蜘蛛比较友好。
21.可限制采集间隔时间,不会在网站流量巨大时,采集过于频繁造成占用太多CPU资源。
22.可设置定时采集,想几点采集就几点采集。避过网站PV高峰期,在流量比较小的夜晚等时间段自动采集。 更新日志20100629
23.解决了第一版中如果采集时间超长,将会出现数据库服务器掉线,出现“MySQL server has gone away”的问题。 更新日志20100707
24.现在插件可以自己触发自己,开始再次采集,PV触发现在只作为保险措施。通过分析日志文件发现,超过90%以上的触发是插件自己完成的。 更新日志20100718
25.针对新闻等对文章时效要求特别严格的站点,特别增加了对采集文章时限的设置,可以设置超过一段时间的文章不再采集直接丢弃。 更新日志20100729
26.增加了对采集目标服务器返回301或302网页代码,地址被重定向的采集支持。
27.根据客户要求,增加了在文件中插入SEO关键字的功能。每隔一段中文就可以随机插入设定的许多关键字中的某一个。SEO关键字的内容由用户自己设定,可以是任何合法的HTML代码。 更新日志20100803
28.自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等.
29.自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]。 更新日志20100810
30.同类采集插件中傲视群雄的采集能力,每天4000+,甚至有客户报告采集能力可以达到每天1W。 更新日志20100827
31.同义词不会再被循环替换,比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在只会被替换成:小阿姨->小姨妈。
32.增加了可在文章头尾自动插入SEO段落的功能。
33.可在文章中关键字后面自动插入拼音,这个伪原创功能比同义词替换的可读性要好很多。 更新日志20100904
34.可自动审核从其他采集软件(比如火车头)采集并入库到DEDE的文章,可设置每次自动审核的文章数量、文章栏目、排序方式以及自动审核文章的间隔时间。 更新日志20100927

看到这么多文字是不是头有点晕?^_^ 点这里看-> 自动采集插件第二版跟第一版的功能对比表格

以下是其他相关资料链接:
DEDE全自动采集插件第二版安装方法
DEDE全自动采集插件第二版设置及使用
常见问题及解答
第二版更新日志

如果您对本插件还有其他功能上的要求,可以在 开发计划 页面留言,我会酌情增加。

需要本插件者,请点这里

阅读全文..

Dede自动采集一体化插件功能比较完善,插件安装完成以后需要先进行插件设置,才能正常使用,以下是该插件的使用方法。

插件使用:

插件安装好以后,到DEDECMS后台管理 -> 模板 -> 默认模板管理 -> 修改footer.htm ,在最后面加上以下(橙黄色字体)内容:

<script language=’javascript’>
document.write(“<img src=’http://www.xxx.com/plus/spider.php?”+Math.random()+”‘ border=’0′ style=’display:none’>”);
</script>

这里的www.xxx.com替换成你的网站域名。

全站生成一下,然后刷新首页就可以在首页上看到更新的文章了。

阅读全文..

插件安装完成以后,需要进行一定的设置才能正常使用。

插件设置:
首先,需要先在DEDE后台设置好采集规则,这个不用说。

DEDE的采集规则是没有对应栏目的,采集的文章内容还不知道能放到哪里去。所以我们需要设置好采集规则和网站栏目ID的一一对应关系,具体设置在 plus/spider.php 件里面。

阅读全文..

插件安装:
首先解压缩插件安装包并上传到网站根目录,然后到DEDECMS后台管理 -> 模块 -> 模块生成向导,填写以下(橙黄色字体)内容:

阅读全文..