DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

更新日志:

本次因为彻底修改了多线程采集代码,大幅提高了媒体文件采集效率,插件版本号更新为V3.2

时间:2010-12-26

内容:
1.增加了自定义采集文件夹名字的功能,在全局配置里面进行设置。
2.修正了一个,当文章存在多个分页的时候,可能不能正确采集到多页内容的逻辑问题。
3.彻底修改了多线程采集代码,大幅提高了媒体文件采集效率。
在本地测试时发现网络占用非常平滑,30秒内可以采集到3M的文件,正好达到ADSL下行网速限制100KB/S。(可怜俺的ADSL网速只有1M)

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

更新日志:

本次因为更新了对图片集模型的支持,插件版本号更新为V3.15

时间2010-12-19

内容
1.开始支持图集模型。
2.增加了将节点参数应用到同模型的其他节点的功能,并可选择是否将预设栏目也应用到其他节点。
3.增加了单节点发布选项,可选择是否将该节点采集的内容生成HTML、或者不生成HTML而仅仅是动态浏览。
4.在全局设置里面增加了强制更新首页的选项,可设置每隔一定时间强制更新首页。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

更新日志:

本次因为更新了自动在线升级功能,插件版本号更新为V3.1

时间2010-12-11

内容
1.修正了一个,采集时,目标服务器返回301重定向可能会造成无法正确获取网页内容的问题。
2.修正了一个在正文中插入拼音时,没有判断关键字是否为空可能会造成插入出错的问题。
3.给多线程采集增加了同时采集url数量限制,以期望能解决列表页地址超多时,采集占用资源大的问题。为配合多线程并发限制,在全局配置中增加了一个选项:【多线程采集最大并发量】。取值5-100,建议20,越大占用资源越多。需要说明的是,这个选项会影响采集速度。如果你使用的服务器性能够强,可以设置为100,不影响采集速度;如果有时候发现CPU占用率很高,那么就可以适当的调低这个值。
5.修正了一个,可能会不能正确判断网页编码,造成网页乱码的问题。
6.增加了自动在线升级插件的功能,默认是关闭。只要在全局配置里面打开【自动升级】的选项,插件就会在每天凌晨尝试自动更新自己到最新的发行版。
需要说明的是这个功能非常强悍,因此插件版本会更新为v3.1。但是毕竟只是经过在少数几个网站上的测试,追求稳定的客户请先暂时不要使用。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

更新日志:

时间2010-12-05

内容
1.修正了当图片标签中有JS代码时,自动排版可能会显示乱码的问题。
2.给节点增加了可选择是否排除重复标题的选项,默认是排除重复标题。
3.修正了一个没有正确转换字符串编码,在SEO变量中插入时可能会造成乱码的问题。
4.增加了导出文档主表中的typeid2/shorttitle两个字段(如果存在值的话)。
5.修正了采集时自动修正url链接的一点小问题。
6.增加了自定义同义词词库的功能,可在线批量修改多个同义词词组,也可以通过导出、再导入的方式修改词库。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

更新日志:

时间2010-11-28

内容

1.根据客户的建议,将采集节点对应的预设栏目改成缓存的形式,只有当需要时才调用数据,改进了栏目超多时载入采集节点设置页面速度太慢的问题。
2.修正了一个可能会造成定时器时间判断错误,造成插件不能正常采集的问题。
3.在全局设置增加了触发文件名设置,启动插件时会检查该触发文件是否存在。
4.修正了一个PHP配置开启magic_quotes_gpc魔术引用,可能会造成SEO关键字显示不正确的问题。
5.修正了一个会造成列表页链接地址减少的逻辑错误。
6.改进了生成缩略图时的裁剪方式,从左上角裁剪改为从图片中间裁剪。
7.增加了自定义文章正文摘要的功能,需要在SEO变量设置里面先设置好,然后对每个具体的采集节点进行配置。
8.增加了标题关键字再插入的功能。在采集节点中打开此伪原创选项,会将在标题中插入的关键字,再插入到文章关键字、内容摘要及正文内容各一次。
9.增加了自动调整段落格式的功能,在采集节点中打开此伪原创选项,将自动调整文章正文段落格式,能带来更好的阅读体验。
10.给采集节点增加了自定义内容导入顺序功能,以前只能随机导入,现在可以选择:与目标站一致、相反以及随机顺序。
11.给采集节点增加了每日入库数量限制,达到入库上限的采集节点将停止入库。
12.大幅优化了采集流程,插件采集速度和以前相比更快。
13.大幅优化了文章入库流程,从以前的文章随机入库修改成节点轮询。默认情况下,即使不打开节点【文章入库数量限制】,已经可以做到每个节点入库文章数量基本均衡。


本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php


更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

目前,dede自动采集插件已经升级到V3版本。
v2跟v3在数据文件结构上有了很大的不同,v3版不能向下兼容。因此正在使用本插件的老用户,就有必要将v2的数据文件升级到v3版本。以下详细说明从v2升级到v3的整个过程。

如何将采集插件从v2升级到v3?

1.备份文件
请将以下文件用FTP下载到本地妥善放置,以免升级失败造成不必要的麻烦:

/plus/autocollect.php
/plus/autocollect/adcount.bin
/plus/autocollect/ck.bin
/plus/autocollect/cleanlog.bin
/plus/autocollect/coinfo.bin
/plus/autocollect/lock.bin
/plus/autocollect/makeinfo.bin
/plus/autocollect/replacewords.bin

友情提示:如果你在/plus/autocollect/这个目录还放置了其他重要的文件,也请备份到本地,升级过程会自动删除这个目录多余的文件。

2.上传升级文件

请各位老用户注意查收邮件,将邮件附件中的 从v2升级到v3.rar 解压,上传以下文件并覆盖到网站相应位置,请注意UTF8和GBK版本不同。
比如你的DEDE是v5.6gbk版本,那么你需要上传升级包内的/gbk/plus 目录到你的网站根目录进行覆盖。

/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/data/autocollect.php

3.升级配置文件

然后在浏览器地址栏运行(请将以下链接中的:www.dedeplus.com,换成你自己的域名。)

http://www.dedeplus.com/plus/autocollect.php?act=update

一直点下一步、下一步,直到网页提示:

恭喜,配置文件已经成功保存!

4.删除以前安装的自动采集插件

在DEDE后台->模块->模块管理,删除以前安装的dedeplus [自动采集更新]插件,先卸载后删除。删除的时候,请注意不要选择删除文件

如果没有在DEDE后台安装过本插件,那么请跳过这一步。

5.安装新的v3.0插件

点这里查看>> 如何安装dede自动采集插件v3

友情提示:新插件安装完以后,一定要在线升级一次才可以正常使用^_^

阅读全文..

更新日志:

时间:2010-10-19

内容
1.为增强兼容性,将POSIX扩展的正则表达式函数都替换成Perl兼容正则表达式函数。即使是这样DEDECMSv5.6依然还是无法在PHP5.3以上的环境中运行,但起码不会再有客户说是插件程序的问题了-_-!!!
2.修改了采集节点轮询的方式,不在配置文件中的节点将不再轮询,相当于该节点被手工禁用,能在一定程度上提高采集效率。
3.修正了一个,如果服务器禁用memory_get_usage函数,将造成插件程序不能触发自己的问题。
4.修正了一个,如果没有在PHP全局变量中设置memory_limit,将会导致插件出错的问题。
5.重写了图片操作类,不再使用DEDE系统函数,而是使用新函数给采集到的图片增加水印。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/cls_FoxImage.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20101011.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101019update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..