dede自动采集插件 历时半年的开发,终于迎来了v3版本。
v3版和v2版最大的不同,在于v3版有后台控制面板,所有的参数修改都直接在控制面板上进行。
另外,v3版还有在线升级功能。以后更新程序将不再通过邮件发送安装包的方式进行,而是使用更加方便的在线升级。初次使用v3版必须在线升级插件,才能正常启动。
还有,v3版不再开源,核心代码及控制网页全部使用本人自行开发的编译包。
经过打包以后的插件程序比开放源代码时尺寸更小,目前核心代码超过8000行,打包以后的尺寸为约90kb,是正常大小的1/3。
更少的程序文件,更小的文件尺寸将更加有利于代码管理以及在线升级。
同时也为插件将来实现自动在线升级提供了一个良好的基础。
最后,V3版也是限制域名的版本,根据客户的不同需要,提供5个、12个、20个以及更多域名等不同的授权方式。

需要本插件者,请点这里

以下是v3部分功能特性:

1.全面支持DEDECMS V5.3/V5.5/V5.6,第一版对DEDE5.6的支持不够完善。
2.增加了UTF8版本,第一版只支持GBK。推荐大家使用UTF8版本,插件的执行效率比GBK版本更高。
3.重写了采集代码,执行效率更高。现在不会出现采集出现半张图片或者一张全黑图片
4.重写了采集代码,现在不需要用户判断被采集的网页到底是GBK还是UTF8编码,系统自动判断并进行编码转换。
5.重写了DEDE获取网页区域代码,现在支持使用简单而又强大的正则表达式
6.采集到的文章内容如果为空,将自动丢弃不入库
7.彻底修改了采集文章分类机制,现在不会再出现采集到的文章随机乱发的现象。
8.改进了关键字替换功能,现在不会再出现第一版中关键字替换乱码的情况。
9.增加了基于词库的文章分词,因此自动获取文章关键字(TAG)和文章摘要成为可能,并已经实现。将自动获取的文章摘要放在文章头部,非常有利于伪原创。
10.所有相关的词库都基于物理文件系统,不需要再增加数据表,既减少了系统出错的可能,也提高了执行效率。
11.增加了线程锁定机制,不会再出现当采集速度过快时,采集到两篇同样文章的情况。
12.改进了预览图机制,现在可以自定义预览图大小,清晰非缩放的预览图片能来更好的访问体验。
13.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。 更新日志20100606
14.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。 更新日志20100608
15.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页更新日志20100613
16.给采集程序增加了一个调试选项,在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
17.应网友要求,增加了采集某一特定节点的采集选项,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
18.对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。经过不完全测试,采集速度至少提高30%。 更新日志20100616
19.文章伪原创方式改进,除了以前的文章正文关键字替换以外,还增加了文章标题关键字替换(可选)和文章正文句子完全打乱的方式。 更新日志20100623
20.可以限制每天入库文章数量,和入库文章最短间隔时间。形成规律以后,对蜘蛛比较友好。
21.可限制采集间隔时间,不会在网站流量巨大时,采集过于频繁造成占用太多CPU资源。
22.可设置定时采集,想几点采集就几点采集。避过网站PV高峰期,在流量比较小的夜晚等时间段自动采集。 更新日志20100629
23.解决了第一版中如果采集时间超长,将会出现数据库服务器掉线,出现“MySQL server has gone away”的问题。 更新日志20100707
24.现在插件可以自己触发自己,开始再次采集,PV触发现在只作为保险措施。通过分析日志文件发现,超过90%以上的触发是插件自己完成的。 更新日志20100718
25.针对新闻等对文章时效要求特别严格的站点,特别增加了对采集文章时限的设置,可以设置超过一段时间的文章不再采集直接丢弃。 更新日志20100729
26.增加了对采集目标服务器返回301或302网页代码,地址被重定向的采集支持。
27.根据客户要求,增加了在文件中插入SEO关键字的功能。每隔一段中文就可以随机插入设定的许多关键字中的某一个。SEO关键字的内容由用户自己设定,可以是任何合法的HTML代码。 更新日志20100803
28.自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等.
29.自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]。 更新日志20100810
30.同类采集插件中傲视群雄的采集能力,每天4000+,甚至有客户报告采集能力可以达到每天1W。 更新日志20100827
31.同义词不会再被循环替换,比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在只会被替换成:小阿姨->小姨妈。
32.增加了可在文章头尾自动插入SEO段落的功能。
33.可在文章中关键字后面自动插入拼音,这个伪原创功能比同义词替换的可读性要好很多。 更新日志20100904
34.可自动审核从其他采集软件(比如火车头)采集并入库到DEDE的文章,可设置每次自动审核的文章数量、文章栏目、排序方式以及自动审核文章的间隔时间。 更新日志20100927
35.根据某客户的反馈,将所有需要经常进行读写的文件都独立出来放在/plus/autocollect/data/目录,目的为了提高cms系统的安全性
36.将关键的bin数据文件都打包封装成foxcode格式文件,这种文件在文件头部分添加了防下载代码,安全性更高。v2版客户可以通过升级数据格式将以前的bin文件转换成新数据文件,有效的保护了客户投入的时间和精力。
37.在标题中插入关键字,以前是随机在标题前面后者后面插入,现在增加了可选前面、后面或者随机的选项。
38.增加了后台控制面板,所有的参数修改都直接在控制面板上进行。
39.增加了在线升级功能,直接在控制面板上点在线升级,就可以升级插件程序到最新版本。
40.提供了服务器主动触发方式,为方便初期做站的朋友,现在对购买本插件的客户免费提供3个月服务器主动触发,你再也不需要因为刚做站、没有流量触发插件采集而发愁了。
41.增加了自定义文章正文摘要的功能,需要在SEO变量设置里面先设置好,然后对每个具体的采集节点进行配置。
42.增加了自动调整段落格式的功能(也就是自动排版),在采集节点中打开此伪原创选项,将自动调整文章正文段落格式,能带来更好的阅读体验。
43.给采集节点增加了每日入库数量限制,达到入库上限的采集节点将停止入库。
44.优化了文章入库流程,从以前的文章随机入库修改成节点轮询。默认情况下,即使不打开节点【文章入库数量限制】,已经可以做到每个节点入库文章数量基本均衡。更新日志20101128
45.增加了自定义同义词词库的功能,可在线批量修改多个同义词词组,也可以通过导出、再导入的方式修改词库。   更新日志20101205
46.增加了多线程采集最大并发量控制,进一步精确控制资源占用。
47.增加了自动在线升级功能,只要在全局配置里面打开【自动升级】的选项,插件就会在每天凌晨尝试自动更新自己到最新的发行版。 更新日志20101211
48.增加了单节点发布选项,可选择生成HTML或者动态浏览
49.在全局设置里面增加了强制更新首页的选项,可设置每隔一定时间强制更新首页
50.开始支持图集模型更新日志20101219

 

看到这么多文字是不是头有点晕?^_^ 点这里看-> 自动采集插件第三版跟第一版的功能对比表格

 

感谢一直以来对插件和本人大力支持的各位客户和朋友,在这里要特别表扬【胡一刀】童鞋,这位兄弟花了两天宝贵时间对本插件v3安装包进行了广泛的测试,同时提出了不少很好的修改意见;【某人】和【爱美的人】一直很关注v3的发布时间,在这里一并表示感谢。
感谢各位老客户对本插件的支持和帮助,v2客户从现在起免费升级到v3版本,同时以前约定的支持期限等其他服务不变。

以下是其他有用的链接:

1.如何将采集插件从v2升级到v3?

2.如何安装第三版DEDE自动采集插件?

3.常见问题及解答

4.自动采集插件更新日志

如果您对本插件还有其他功能上的要求,可以在 开发计划 页面留言,我会酌情增加。

需要本插件者,请点这里