DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览 自动采集插件V3 里的文章

更新日志:

时间:2012-02-12

内容:
1.修正了一个由于未知原因造成JSON解析失败,插件控制面板处无法正常显示运行信息和一键采集信息的问题。
2.修正了一个可能跟DEDEV5.7SP1参数不兼容,造成插件在线升级失败的问题。
3.在【采集节点设置】页面,增加了一个批量【清除网址】的按钮,用来清除选定采集规则的网址和历史记录,方便重新采集该规则。
4.用户反映某些(无良:)网站故意将网页标题等文字,经过HTML特殊编码,在网页上能正常显示,但因标题太长无法正常采集入库。现已修正此问题。
5.根据用户要求,在【采集节点设置】页面增加了一个(自动)【匹配栏目】按钮,只要采集规则里面包含栏目的名字或者栏目ID,点击此按钮即可自动给采集规则匹配到正确的栏目。比如,栏目ID为:21,栏目名字为:国内新闻,那么给采集规则取名:xxx[ID:21],或者xxx国内新闻,都可以正确匹配到该栏目。
6.修正了一个在格式化图片标签时,会将正文内容全部转换成小写的错误。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

 

阅读全文..

祝大家圣诞节快乐!

 

更新日志:

时间:2011-12-24

内容:
1.修正了当采集规则使用“字符串匹配模式”时,插件可能不能100%兼容DEDE采集规则的问题。
2.根据用户要求,在节点参数设置,【发布选项】中增加“未审核”的选项,选中以后插件自动发布的文章将会成为:待审核未生成状态。
3.修正了一个,在某些特殊情况下,读取采集数据失败会造成插件控制面板变成“白板”的问题。
4.修正了一个,当没有在插件控制面板里面删除采集规则,造成采集规则与规则参数不匹配,日志提示“采集规则还没有设置”的问题。
5.在文章模型的节点参数中增加了【包含关键字】和【排除关键字】选项。
包含关键字:正文中必须包含设定的关键字才会采集入库,不包含的文章会被自动丢弃。
排除关键字:标题和正文中只要包含设定的关键字就被丢弃,不包含的文章会被采集入库。
图片集模型不使用此参数。
6.增加了从列表页自动匹配内容页网址,和从内容页自动匹配文章标题、文章内容的功能。
使用方法为:
当需要自动匹配列表页网址时,在【文章网址匹配规则】里面,将【区域开始的HTML】、【区域结束的HTML】和【网址匹配规则】都设置为[自动匹配],点击相应字段下面的自动匹配内容>>,即可设置。
自动匹配文章标题和文章内容,也是点击相应字段下面的自动匹配内容>>,进行设置。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-11-09

内容:
1.修正了文章内容页分页地址的匹配方式。
2.修正了一个UTF8网页中某些特殊字符不能被转换成GBK编码,从而显示成???的问题。
3.修正了一个在GBK环境下,自定义文章内容摘要可能失效的问题。
4.通过动态调整远程服务器连接时间,增强了插件采集的稳定性。
5.为服务器兼容性考虑,增加了强制使用单线程采集的选项。在全局设置里面,将【多线程采集最大并发量】设置为1既禁用多线程使用单线程采集。
6.修正了一个可能会导致列表页采集失败的逻辑问题。
7.修正了一个,在节点参数里面,可能无法将采集数量限制和入库数量限制设为不同的逻辑问题。
8.使用新的匹配算法,增强了插件匹配列表页网址的能力。
9.修正了在采集某些特殊网页时,不能正确的给图片增加ALT属性的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-10-07

内容:
1.给节点设置增加了一个【列表页采集频率】的选项,默认是【自动调整】,此时插件会根据该节点的“更新频率”自动调整列表页采集频率,能提高采集效率和节约系统资源;当然也可以选择成【高频率】选项,此时插件会强制高频率采集列表页,适用于对目标列表页更新响应速度比较敏感的情况。
2.通过优化采集流程,极大的增加了插件的采集效率。经测试,采集能力可以提高到每天1W文章以上。但并不建议使用这么快的采集速度。
3.在后台控制面板,运行信息页面,增加了自动刷新数据的功能。插件在运行时,此页面的数据每5秒更新一次。
4.修正了一个当目标网站列表页使用(80以外)非标准端口时,不能返回正确的内容页链接地址,造成内容页采集失败的问题。
5.修正了一个某些服务器会在UTF8网页前增加额外的3个字节(BOM),造成插件启动失败的问题。
6.因某些原因造成邮件发送地址失效,所以更换了一个邮件发送地址。如果您升级插件以后还是收不到每日邮件报告,请检查垃圾箱并将dpsender(alt)163.com设置为白名单。【请将(alt)替换成@】
7.修正了在DEDE5.7环境下,在插件控制面板编辑采集规则时,匹配网址【测试】和【常用规则】等按钮不能正常使用的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

 

阅读全文..

更新日志:

时间:2011-08-29

内容:
1.修正了一个在某些情况下,网页地址URL补全不正确的逻辑问题。
2.修正了一个内容页采集不受定时器控制的BUG。
3.修改了插件对服务器网络设置的验证方式。
4.修正了一个发送邮件报告时,百度收录数据可能不能正常显示的问题。
5.修正了一个全局设置里面的【自动审核文章】参数不能正确应用的问题。
6.增加了给文章中的图片增加ALT属性(自动设置为文章标题)的功能。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

DEDE自动采集插件 演示版发布

跟正式版相比,演示版本有以下特点:

1.不限制网站域名,可以任意安装测试。

2.安装包文件尺寸更小,精简了中文分词、拼音以及同义词词典,因此相关的功能也不能使用。

3.如果需要使用伪原创功能,那么在普通文章的采集节点中必须选择【在正文中插入SEO关键字】选项,并且该选项的参数不能更改。

4.不能修改定时器选项中的 【定时采集】时间。

5.不能发送邮件报告。

6.不能在线升级。

7.插件运行3天或者节点采集1000次以后,将自动停止运行并且无法再次启动。
只能将整个插件目录全部删掉以后重新安装,才能再次启动。

8.最重要的是,演示版肯定不提供任何技术支持,有问题要自己到网络上寻找解决方案。

演示版: 免费下载安装 及 使用

阅读全文..

本采集插件对网站服务器有一定的要求,并不是所有的网站都能使用。
函数测试包请从这里下载: http://www.dedeplus.com/test.rar ,包里有两个test文件,一般情况下只要测试test.php就可以了。
传这个test.php文件到网站根目录,然后在浏览器地址栏运行 http://www.dedeplus.com/test.php 看返回结果,测试必须的函数支持。
这里的www.dedeplus.com应该换成你自己的域名。

目前,主要需要以下几类组件支持:php_curl组件、mb_string.dll组件、zlib.dll组件以及几个延时函数。
以下配置方法都以windows服务器环境为例,LINUX服务器设置方法大同小异。

 

A) 支持php_curl组件

1.找到php.ini,(一般在c:\windows\php.ini),打开并编辑它,修改 ;extension=php_curl.dll 去掉前面的分号[;];如果没有,请增加这句 extension=php_curl.dll
2.检查 php安装目录/ext目录 下面是否有php_curl.dll文件;如果没有必须要找到相同PHP版本的php_curl.dll文件。
3.将php安装目录下面的2个dll, libeay32.dllssleay32.dll 复制到 c:\windows\system32 目录下。
4.重启php的服务。就是重启iis。

5.如果把以上步骤都做完了,还是不行,那么点击服务器: 我的电脑->属性->高级->环境变量->系统变量->Path->编辑

在变量值里面增加:
;D:\APMServ5.2.6\PHP;D:\APMServ5.2.6\PHP\ext

这里的 D:\APMServ5.2.6\PHP 应该换成你的PHP安装目录。

 

B) 支持mb_string.dll组件
修改php.ini文件(一般在c:\windows\php.ini):

修改; extension=php_mbstring.dll 去掉前面的分号[;]
如果没有,请增加这句 extension=php_mbstring.dll

重启php的服务

 

C) 支持zlib.dll组件
PHP 的 Windows 版本已经内置该扩展模块的支持,无需加载任何附加扩展库即可使用这些函数。

某些情况下,zlib.dll已经启用,但gzinflate函数被禁用,那么应该:
编辑php.ini文件,修改 disable_functions= 这一行,把等号后面的内容都留空,保存文件并重启php服务

 

D) 启用延时函数set_time_limit,usleep

编辑php.ini文件,修改 disable_functions= 这一行,把等号后面的内容都留空,保存文件并重启php服务

阅读全文..

更新日志:

时间:2011-07-08

内容:
1.修正了一个当DEDE安装在二级目录时,插件可能不能正常启动的逻辑问题。
2.修正了某些特殊的相对链接地址的补全规则。
3.增加了自动排除重复分页内容的功能,程序通过检测每个分页内容的crc32值,并将重复分页去除掉。
4.修正了一个当内容过滤规则中包含“逆向引用”时,编辑规则时“逆向引用”不能正常显示的问题。
5.应用户要求,给采集节点增加了一个批量启用/禁用的功能,方便使用。同时以前的【不选择预设栏目就相当于该节点禁用】的功能依然保留。
6.应用户要求,增加了两种内容伪原创方式:正文打乱【打乱文字顺序】和【替换为自定义标题】。前者只适合文章模型,会将文章内容完全打乱,重度伪原创,操作过的文章完全没有可读性;后者适合文章和图集模型,会将文档标题替换成自定义的多个标题中的一个。
7.修正了一个当使用图集模型时,文档可能不会出现推荐、特荐和头条等标志属性的逻辑问题。
8.在全局设置里面增加了【每天最多需要采集多少文章】的选项,同时以前在采集节点参数里面达到每天【采集数量限制】将会自动删除临时文档的功能,也改成了可选删除或者不删除。
9.针对某些用户反映服务器网络状态不稳定,在线升级困难的问题,特加设了一台升级服务器。以后就可以在升级程序文件时选择不同的升级服务器。
10.支持文章和图集模型的复制模型,新模型的识别id必须以article(复制文章模型)或者image(复制图集模型)开头,这样插件才能识别。例如可以将识别id取名为article2。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

应该说,dede自动采集插件的在线升级功能还是很方便的,激活插件或更新插件,都只需要点在线更新的按钮就可以完成。
但有时候可能不方便在线更新,这样的话就可以先将以前正常使用的插件相关文件备份一下,等到有需要的时候再恢复。
插件的域名授权文件及程序文件,主要都在 /plus/autocollect/data 目录,只需要备份这个目录就可以了。

具体的操作步骤如下:
1.[旧网站A]将目前正常使用的插件目录 /plus/autocollect/data 下面的所有文件一起备份(一个都不能少:-)
2.[新网站B]安装好DEDEcms,根据您自己的需要可能还需要恢复原来的文档和数据库;
3.[新网站B]安装好dede自动采集插件
4.[新网站B]将第一步从[旧网站A]备份的文件夹里面的所有文件,一起覆盖到[新网站B]的相同位置 /plus/autocollect/data
5.[新网站B]正常使用dede自动采集插件

需要说明的是:[旧网站A]和[新网站B]的域名设置必须完全一致
假设[旧网站A]的域名是:dedeplus.com[新网站B]的域名是:www.dedeplus.com ,将会被插件认为是两个不同的域名,而不能启动。
必须把[新网站B]的域名也设置成:dedeplus.com ,这样插件才能正常使用。

阅读全文..

更新日志:

时间:2011-06-07

内容:
1.增强了一键采集的健壮性。
2.修改了采集规则中内容过滤规则的匹配模式,从贪婪模式修正为非贪婪模式,和DEDE系统函数保持一致。
3.修正了一个,可能会导致在同义词词库里面找不到对应的词组的逻辑错误。
4.修正了一个在某些特定服务器里,判断当前URL路径错误,可能会导致插件无法启动的问题。
5.因程序发展,已经不再需要autocollect.php?act=show这种调试方式,从此版本起正式取消。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..