DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

dede自动采集插件 历时半年的开发,终于迎来了v3版本。
v3版和v2版最大的不同,在于v3版有后台控制面板,所有的参数修改都直接在控制面板上进行。
另外,v3版还有在线升级功能。以后更新程序将不再通过邮件发送安装包的方式进行,而是使用更加方便的在线升级。初次使用v3版必须在线升级插件,才能正常启动。
还有,v3版不再开源,核心代码及控制网页全部使用本人自行开发的编译包。
经过打包以后的插件程序比开放源代码时尺寸更小,目前核心代码超过8000行,打包以后的尺寸为约90kb,是正常大小的1/3。
更少的程序文件,更小的文件尺寸将更加有利于代码管理以及在线升级。
同时也为插件将来实现自动在线升级提供了一个良好的基础。
最后,V3版也是限制域名的版本,根据客户的不同需要,提供5个、12个、20个以及更多域名等不同的授权方式。

需要本插件者,请点这里

以下是v3部分功能特性:

1.全面支持DEDECMS V5.3/V5.5/V5.6,第一版对DEDE5.6的支持不够完善。
2.增加了UTF8版本,第一版只支持GBK。推荐大家使用UTF8版本,插件的执行效率比GBK版本更高。
3.重写了采集代码,执行效率更高。现在不会出现采集出现半张图片或者一张全黑图片
4.重写了采集代码,现在不需要用户判断被采集的网页到底是GBK还是UTF8编码,系统自动判断并进行编码转换。
5.重写了DEDE获取网页区域代码,现在支持使用简单而又强大的正则表达式
6.采集到的文章内容如果为空,将自动丢弃不入库
7.彻底修改了采集文章分类机制,现在不会再出现采集到的文章随机乱发的现象。
8.改进了关键字替换功能,现在不会再出现第一版中关键字替换乱码的情况。
9.增加了基于词库的文章分词,因此自动获取文章关键字(TAG)和文章摘要成为可能,并已经实现。将自动获取的文章摘要放在文章头部,非常有利于伪原创。
10.所有相关的词库都基于物理文件系统,不需要再增加数据表,既减少了系统出错的可能,也提高了执行效率。
11.增加了线程锁定机制,不会再出现当采集速度过快时,采集到两篇同样文章的情况。
12.改进了预览图机制,现在可以自定义预览图大小,清晰非缩放的预览图片能来更好的访问体验。
13.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。 更新日志20100606
14.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。 更新日志20100608
15.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页更新日志20100613
16.给采集程序增加了一个调试选项,在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
17.应网友要求,增加了采集某一特定节点的采集选项,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
18.对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。经过不完全测试,采集速度至少提高30%。 更新日志20100616
19.文章伪原创方式改进,除了以前的文章正文关键字替换以外,还增加了文章标题关键字替换(可选)和文章正文句子完全打乱的方式。 更新日志20100623
20.可以限制每天入库文章数量,和入库文章最短间隔时间。形成规律以后,对蜘蛛比较友好。
21.可限制采集间隔时间,不会在网站流量巨大时,采集过于频繁造成占用太多CPU资源。
22.可设置定时采集,想几点采集就几点采集。避过网站PV高峰期,在流量比较小的夜晚等时间段自动采集。 更新日志20100629
23.解决了第一版中如果采集时间超长,将会出现数据库服务器掉线,出现“MySQL server has gone away”的问题。 更新日志20100707
24.现在插件可以自己触发自己,开始再次采集,PV触发现在只作为保险措施。通过分析日志文件发现,超过90%以上的触发是插件自己完成的。 更新日志20100718
25.针对新闻等对文章时效要求特别严格的站点,特别增加了对采集文章时限的设置,可以设置超过一段时间的文章不再采集直接丢弃。 更新日志20100729
26.增加了对采集目标服务器返回301或302网页代码,地址被重定向的采集支持。
27.根据客户要求,增加了在文件中插入SEO关键字的功能。每隔一段中文就可以随机插入设定的许多关键字中的某一个。SEO关键字的内容由用户自己设定,可以是任何合法的HTML代码。 更新日志20100803
28.自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等.
29.自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]。 更新日志20100810
30.同类采集插件中傲视群雄的采集能力,每天4000+,甚至有客户报告采集能力可以达到每天1W。 更新日志20100827
31.同义词不会再被循环替换,比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在只会被替换成:小阿姨->小姨妈。
32.增加了可在文章头尾自动插入SEO段落的功能。
33.可在文章中关键字后面自动插入拼音,这个伪原创功能比同义词替换的可读性要好很多。 更新日志20100904
34.可自动审核从其他采集软件(比如火车头)采集并入库到DEDE的文章,可设置每次自动审核的文章数量、文章栏目、排序方式以及自动审核文章的间隔时间。 更新日志20100927
35.根据某客户的反馈,将所有需要经常进行读写的文件都独立出来放在/plus/autocollect/data/目录,目的为了提高cms系统的安全性
36.将关键的bin数据文件都打包封装成foxcode格式文件,这种文件在文件头部分添加了防下载代码,安全性更高。v2版客户可以通过升级数据格式将以前的bin文件转换成新数据文件,有效的保护了客户投入的时间和精力。
37.在标题中插入关键字,以前是随机在标题前面后者后面插入,现在增加了可选前面、后面或者随机的选项。
38.增加了后台控制面板,所有的参数修改都直接在控制面板上进行。
39.增加了在线升级功能,直接在控制面板上点在线升级,就可以升级插件程序到最新版本。
40.提供了服务器主动触发方式,为方便初期做站的朋友,现在对购买本插件的客户免费提供3个月服务器主动触发,你再也不需要因为刚做站、没有流量触发插件采集而发愁了。
41.增加了自定义文章正文摘要的功能,需要在SEO变量设置里面先设置好,然后对每个具体的采集节点进行配置。
42.增加了自动调整段落格式的功能(也就是自动排版),在采集节点中打开此伪原创选项,将自动调整文章正文段落格式,能带来更好的阅读体验。
43.给采集节点增加了每日入库数量限制,达到入库上限的采集节点将停止入库。
44.优化了文章入库流程,从以前的文章随机入库修改成节点轮询。默认情况下,即使不打开节点【文章入库数量限制】,已经可以做到每个节点入库文章数量基本均衡。更新日志20101128
45.增加了自定义同义词词库的功能,可在线批量修改多个同义词词组,也可以通过导出、再导入的方式修改词库。 更新日志20101205
46.增加了多线程采集最大并发量控制,进一步精确控制资源占用。
47.增加了自动在线升级功能,只要在全局配置里面打开【自动升级】的选项,插件就会在每天凌晨尝试自动更新自己到最新的发行版。 更新日志20101211
48.增加了单节点发布选项,可选择生成HTML或者动态浏览
49.在全局设置里面增加了强制更新首页的选项,可设置每隔一定时间强制更新首页
50.开始支持图集模型更新日志20101219

看到这么多文字是不是头有点晕?^_^ 点这里看-> 自动采集插件第三版跟第一版的功能对比表格

感谢一直以来对插件和本人大力支持的各位客户和朋友,在这里要特别表扬【胡一刀】童鞋,这位兄弟花了两天宝贵时间对本插件v3安装包进行了广泛的测试,同时提出了不少很好的修改意见;【某人】和【爱美的人】一直很关注v3的发布时间,在这里一并表示感谢。
感谢各位老客户对本插件的支持和帮助,v2客户从现在起免费升级到v3版本,同时以前约定的支持期限等其他服务不变。

以下是其他有用的链接:

1.如何将采集插件从v2升级到v3?

2.如何安装第三版DEDE自动采集插件?

3.常见问题及解答

4.自动采集插件更新日志

如果您对本插件还有其他功能上的要求,可以在 开发计划 页面留言,我会酌情增加。

需要本插件者,请点这里

阅读全文..

祝大家圣诞节快乐!

 

更新日志:

时间:2011-12-24

内容:
1.修正了当采集规则使用“字符串匹配模式”时,插件可能不能100%兼容DEDE采集规则的问题。
2.根据用户要求,在节点参数设置,【发布选项】中增加“未审核”的选项,选中以后插件自动发布的文章将会成为:待审核未生成状态。
3.修正了一个,在某些特殊情况下,读取采集数据失败会造成插件控制面板变成“白板”的问题。
4.修正了一个,当没有在插件控制面板里面删除采集规则,造成采集规则与规则参数不匹配,日志提示“采集规则还没有设置”的问题。
5.在文章模型的节点参数中增加了【包含关键字】和【排除关键字】选项。
包含关键字:正文中必须包含设定的关键字才会采集入库,不包含的文章会被自动丢弃。
排除关键字:标题和正文中只要包含设定的关键字就被丢弃,不包含的文章会被采集入库。
图片集模型不使用此参数。
6.增加了从列表页自动匹配内容页网址,和从内容页自动匹配文章标题、文章内容的功能。
使用方法为:
当需要自动匹配列表页网址时,在【文章网址匹配规则】里面,将【区域开始的HTML】、【区域结束的HTML】和【网址匹配规则】都设置为[自动匹配],点击相应字段下面的自动匹配内容>>,即可设置。
自动匹配文章标题和文章内容,也是点击相应字段下面的自动匹配内容>>,进行设置。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-11-09

内容:
1.修正了文章内容页分页地址的匹配方式。
2.修正了一个UTF8网页中某些特殊字符不能被转换成GBK编码,从而显示成???的问题。
3.修正了一个在GBK环境下,自定义文章内容摘要可能失效的问题。
4.通过动态调整远程服务器连接时间,增强了插件采集的稳定性。
5.为服务器兼容性考虑,增加了强制使用单线程采集的选项。在全局设置里面,将【多线程采集最大并发量】设置为1既禁用多线程使用单线程采集。
6.修正了一个可能会导致列表页采集失败的逻辑问题。
7.修正了一个,在节点参数里面,可能无法将采集数量限制和入库数量限制设为不同的逻辑问题。
8.使用新的匹配算法,增强了插件匹配列表页网址的能力。
9.修正了在采集某些特殊网页时,不能正确的给图片增加ALT属性的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-10-07

内容:
1.给节点设置增加了一个【列表页采集频率】的选项,默认是【自动调整】,此时插件会根据该节点的“更新频率”自动调整列表页采集频率,能提高采集效率和节约系统资源;当然也可以选择成【高频率】选项,此时插件会强制高频率采集列表页,适用于对目标列表页更新响应速度比较敏感的情况。
2.通过优化采集流程,极大的增加了插件的采集效率。经测试,采集能力可以提高到每天1W文章以上。但并不建议使用这么快的采集速度。
3.在后台控制面板,运行信息页面,增加了自动刷新数据的功能。插件在运行时,此页面的数据每5秒更新一次。
4.修正了一个当目标网站列表页使用(80以外)非标准端口时,不能返回正确的内容页链接地址,造成内容页采集失败的问题。
5.修正了一个某些服务器会在UTF8网页前增加额外的3个字节(BOM),造成插件启动失败的问题。
6.因某些原因造成邮件发送地址失效,所以更换了一个邮件发送地址。如果您升级插件以后还是收不到每日邮件报告,请检查垃圾箱并将dpsender(alt)163.com设置为白名单。【请将(alt)替换成@】
7.修正了在DEDE5.7环境下,在插件控制面板编辑采集规则时,匹配网址【测试】和【常用规则】等按钮不能正常使用的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

 

阅读全文..

更新日志:

时间:2011-08-29

内容:
1.修正了一个在某些情况下,网页地址URL补全不正确的逻辑问题。
2.修正了一个内容页采集不受定时器控制的BUG。
3.修改了插件对服务器网络设置的验证方式。
4.修正了一个发送邮件报告时,百度收录数据可能不能正常显示的问题。
5.修正了一个全局设置里面的【自动审核文章】参数不能正确应用的问题。
6.增加了给文章中的图片增加ALT属性(自动设置为文章标题)的功能。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

DEDE自动采集插件 演示版发布

跟正式版相比,演示版本有以下特点:

1.不限制网站域名,可以任意安装测试。

2.安装包文件尺寸更小,精简了中文分词、拼音以及同义词词典,因此相关的功能也不能使用。

3.如果需要使用伪原创功能,那么在普通文章的采集节点中必须选择【在正文中插入SEO关键字】选项,并且该选项的参数不能更改。

4.不能修改定时器选项中的 【定时采集】时间。

5.不能发送邮件报告。

6.不能在线升级。

7.插件运行3天或者节点采集1000次以后,将自动停止运行并且无法再次启动。
只能将整个插件目录全部删掉以后重新安装,才能再次启动。

8.最重要的是,演示版肯定不提供任何技术支持,有问题要自己到网络上寻找解决方案。

演示版: 免费下载安装 及 使用

阅读全文..

本采集插件对网站服务器有一定的要求,并不是所有的网站都能使用。
函数测试包请从这里下载: http://www.dedeplus.com/test.rar ,包里有两个test文件,一般情况下只要测试test.php就可以了。
传这个test.php文件到网站根目录,然后在浏览器地址栏运行 http://www.dedeplus.com/test.php 看返回结果,测试必须的函数支持。
这里的www.dedeplus.com应该换成你自己的域名。

目前,主要需要以下几类组件支持:php_curl组件、mb_string.dll组件、zlib.dll组件以及几个延时函数。
以下配置方法都以windows服务器环境为例,LINUX服务器设置方法大同小异。

 

A) 支持php_curl组件

1.找到php.ini,(一般在c:\windows\php.ini),打开并编辑它,修改 ;extension=php_curl.dll 去掉前面的分号[;];如果没有,请增加这句 extension=php_curl.dll
2.检查 php安装目录/ext目录 下面是否有php_curl.dll文件;如果没有必须要找到相同PHP版本的php_curl.dll文件。
3.将php安装目录下面的2个dll, libeay32.dllssleay32.dll 复制到 c:\windows\system32 目录下。
4.重启php的服务。就是重启iis。

5.如果把以上步骤都做完了,还是不行,那么点击服务器: 我的电脑->属性->高级->环境变量->系统变量->Path->编辑

在变量值里面增加:
;D:\APMServ5.2.6\PHP;D:\APMServ5.2.6\PHP\ext

这里的 D:\APMServ5.2.6\PHP 应该换成你的PHP安装目录。

 

B) 支持mb_string.dll组件
修改php.ini文件(一般在c:\windows\php.ini):

修改; extension=php_mbstring.dll 去掉前面的分号[;]
如果没有,请增加这句 extension=php_mbstring.dll

重启php的服务

 

C) 支持zlib.dll组件
PHP 的 Windows 版本已经内置该扩展模块的支持,无需加载任何附加扩展库即可使用这些函数。

某些情况下,zlib.dll已经启用,但gzinflate函数被禁用,那么应该:
编辑php.ini文件,修改 disable_functions= 这一行,把等号后面的内容都留空,保存文件并重启php服务

 

D) 启用延时函数set_time_limit,usleep

编辑php.ini文件,修改 disable_functions= 这一行,把等号后面的内容都留空,保存文件并重启php服务

阅读全文..

更新日志:

时间:2011-07-08

内容:
1.修正了一个当DEDE安装在二级目录时,插件可能不能正常启动的逻辑问题。
2.修正了某些特殊的相对链接地址的补全规则。
3.增加了自动排除重复分页内容的功能,程序通过检测每个分页内容的crc32值,并将重复分页去除掉。
4.修正了一个当内容过滤规则中包含“逆向引用”时,编辑规则时“逆向引用”不能正常显示的问题。
5.应用户要求,给采集节点增加了一个批量启用/禁用的功能,方便使用。同时以前的【不选择预设栏目就相当于该节点禁用】的功能依然保留。
6.应用户要求,增加了两种内容伪原创方式:正文打乱【打乱文字顺序】和【替换为自定义标题】。前者只适合文章模型,会将文章内容完全打乱,重度伪原创,操作过的文章完全没有可读性;后者适合文章和图集模型,会将文档标题替换成自定义的多个标题中的一个。
7.修正了一个当使用图集模型时,文档可能不会出现推荐、特荐和头条等标志属性的逻辑问题。
8.在全局设置里面增加了【每天最多需要采集多少文章】的选项,同时以前在采集节点参数里面达到每天【采集数量限制】将会自动删除临时文档的功能,也改成了可选删除或者不删除。
9.针对某些用户反映服务器网络状态不稳定,在线升级困难的问题,特加设了一台升级服务器。以后就可以在升级程序文件时选择不同的升级服务器。
10.支持文章和图集模型的复制模型,新模型的识别id必须以article(复制文章模型)或者image(复制图集模型)开头,这样插件才能识别。例如可以将识别id取名为article2。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

应该说,dede自动采集插件的在线升级功能还是很方便的,激活插件或更新插件,都只需要点在线更新的按钮就可以完成。
但有时候可能不方便在线更新,这样的话就可以先将以前正常使用的插件相关文件备份一下,等到有需要的时候再恢复。
插件的域名授权文件及程序文件,主要都在 /plus/autocollect/data 目录,只需要备份这个目录就可以了。

具体的操作步骤如下:
1.[旧网站A]将目前正常使用的插件目录 /plus/autocollect/data 下面的所有文件一起备份(一个都不能少:-)
2.[新网站B]安装好DEDEcms,根据您自己的需要可能还需要恢复原来的文档和数据库;
3.[新网站B]安装好dede自动采集插件
4.[新网站B]将第一步从[旧网站A]备份的文件夹里面的所有文件,一起覆盖到[新网站B]的相同位置 /plus/autocollect/data
5.[新网站B]正常使用dede自动采集插件

需要说明的是:[旧网站A]和[新网站B]的域名设置必须完全一致
假设[旧网站A]的域名是:dedeplus.com[新网站B]的域名是:www.dedeplus.com ,将会被插件认为是两个不同的域名,而不能启动。
必须把[新网站B]的域名也设置成:dedeplus.com ,这样插件才能正常使用。

阅读全文..

更新日志:

时间:2011-06-07

内容:
1.增强了一键采集的健壮性。
2.修改了采集规则中内容过滤规则的匹配模式,从贪婪模式修正为非贪婪模式,和DEDE系统函数保持一致。
3.修正了一个,可能会导致在同义词词库里面找不到对应的词组的逻辑错误。
4.修正了一个在某些特定服务器里,判断当前URL路径错误,可能会导致插件无法启动的问题。
5.因程序发展,已经不再需要autocollect.php?act=show这种调试方式,从此版本起正式取消。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-05-03

内容:
1.修正了【一键采集】有时可能会返回乱码的问题。
2.修正了一个,当dedecms没有安装在网站根目录上时,后台控制面板不能正常启动插件的问题。
3.修正了一个没有设置SEO变量,但却在伪原创选项里面选择了对应的SEO选项,造成程序出错的问题。
4.修正了一个当DEDE安装在二级目录时,自动判断到的触发文件路径名不正确的问题。
5.增加了对单个日志文件大小的限制,防止当日志文件过大时引起灾难性的后果。目前日志文件最大为20M,超过此大小将自动清空重新记录。
6.修正了在内容过滤规则里面设置了特定的规则,可能会导致错误的将内容全部清空的问题。
7.修正了一个自动发送邮件报告时,【文章入库】数量总是显示为0的问题。
8.修正了一个,当采集的图片是特定格式的BMP图片时,可能会造成灾难性后果的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..