DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 更新日志 的文章

更新日志:

时间:2012-04-20

内容:
1.通过改进底层数据读取机制,彻底解决插件控制面板可能会出现的“白板”问题。
2.修改了文章栏目列表页分页的生成机制,从以前的会生成所有分页(当分页过多时会造成生成超时),修改成最多只生成前50个分页。
3.根据用户建议,给文章内容增加了一个【文章分页】的选项。该项目有3个选项,分别是:保持原始分页、去掉分页和自动分页。
4.修正了一个在采集规则中自定义【缩略图匹配规则】时,可能不能正确匹配的逻辑问题。
5.修正了一个当节点参数中【导入顺序】不是随机导入时,导入顺序可能会出现错误的逻辑问题。
6.修正了一个在GBK编码下,插件控制面板【运行信息】页面的信息可能不能正常刷新的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2012-03-17

内容:
1.修正了一个,在采集规则里面设置列表页【网址匹配规则】,在某些情况下可能不会起作用的问题。
2.修正了一个,某些网站(如17173)验证请求来源来进行图片防采集的问题。
3.修正了一个未知原因导致某些域名不能正常在线升级的问题。
4.根据客户建议,给普通文章的伪原创增加了一个【增加自动内链】的功能。此功能对SEO比较有用,建议开启。
5.修正了当同一篇文章中有多个图片被301重定向时,只采集到第一个图片的逻辑错误。
6.修正了一个,在某种特殊情况下可能会导致插件控制面板出现“白板”的逻辑问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

 

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2012-02-12

内容:
1.修正了一个由于未知原因造成JSON解析失败,插件控制面板处无法正常显示运行信息和一键采集信息的问题。
2.修正了一个可能跟DEDEV5.7SP1参数不兼容,造成插件在线升级失败的问题。
3.在【采集节点设置】页面,增加了一个批量【清除网址】的按钮,用来清除选定采集规则的网址和历史记录,方便重新采集该规则。
4.用户反映某些(无良:)网站故意将网页标题等文字,经过HTML特殊编码,在网页上能正常显示,但因标题太长无法正常采集入库。现已修正此问题。
5.根据用户要求,在【采集节点设置】页面增加了一个(自动)【匹配栏目】按钮,只要采集规则里面包含栏目的名字或者栏目ID,点击此按钮即可自动给采集规则匹配到正确的栏目。比如,栏目ID为:21,栏目名字为:国内新闻,那么给采集规则取名:xxx[ID:21],或者xxx国内新闻,都可以正确匹配到该栏目。
6.修正了一个在格式化图片标签时,会将正文内容全部转换成小写的错误。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

 

阅读全文..

祝大家圣诞节快乐!

 

更新日志:

时间:2011-12-24

内容:
1.修正了当采集规则使用“字符串匹配模式”时,插件可能不能100%兼容DEDE采集规则的问题。
2.根据用户要求,在节点参数设置,【发布选项】中增加“未审核”的选项,选中以后插件自动发布的文章将会成为:待审核未生成状态。
3.修正了一个,在某些特殊情况下,读取采集数据失败会造成插件控制面板变成“白板”的问题。
4.修正了一个,当没有在插件控制面板里面删除采集规则,造成采集规则与规则参数不匹配,日志提示“采集规则还没有设置”的问题。
5.在文章模型的节点参数中增加了【包含关键字】和【排除关键字】选项。
包含关键字:正文中必须包含设定的关键字才会采集入库,不包含的文章会被自动丢弃。
排除关键字:标题和正文中只要包含设定的关键字就被丢弃,不包含的文章会被采集入库。
图片集模型不使用此参数。
6.增加了从列表页自动匹配内容页网址,和从内容页自动匹配文章标题、文章内容的功能。
使用方法为:
当需要自动匹配列表页网址时,在【文章网址匹配规则】里面,将【区域开始的HTML】、【区域结束的HTML】和【网址匹配规则】都设置为[自动匹配],点击相应字段下面的自动匹配内容>>,即可设置。
自动匹配文章标题和文章内容,也是点击相应字段下面的自动匹配内容>>,进行设置。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-11-09

内容:
1.修正了文章内容页分页地址的匹配方式。
2.修正了一个UTF8网页中某些特殊字符不能被转换成GBK编码,从而显示成???的问题。
3.修正了一个在GBK环境下,自定义文章内容摘要可能失效的问题。
4.通过动态调整远程服务器连接时间,增强了插件采集的稳定性。
5.为服务器兼容性考虑,增加了强制使用单线程采集的选项。在全局设置里面,将【多线程采集最大并发量】设置为1既禁用多线程使用单线程采集。
6.修正了一个可能会导致列表页采集失败的逻辑问题。
7.修正了一个,在节点参数里面,可能无法将采集数量限制和入库数量限制设为不同的逻辑问题。
8.使用新的匹配算法,增强了插件匹配列表页网址的能力。
9.修正了在采集某些特殊网页时,不能正确的给图片增加ALT属性的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-10-07

内容:
1.给节点设置增加了一个【列表页采集频率】的选项,默认是【自动调整】,此时插件会根据该节点的“更新频率”自动调整列表页采集频率,能提高采集效率和节约系统资源;当然也可以选择成【高频率】选项,此时插件会强制高频率采集列表页,适用于对目标列表页更新响应速度比较敏感的情况。
2.通过优化采集流程,极大的增加了插件的采集效率。经测试,采集能力可以提高到每天1W文章以上。但并不建议使用这么快的采集速度。
3.在后台控制面板,运行信息页面,增加了自动刷新数据的功能。插件在运行时,此页面的数据每5秒更新一次。
4.修正了一个当目标网站列表页使用(80以外)非标准端口时,不能返回正确的内容页链接地址,造成内容页采集失败的问题。
5.修正了一个某些服务器会在UTF8网页前增加额外的3个字节(BOM),造成插件启动失败的问题。
6.因某些原因造成邮件发送地址失效,所以更换了一个邮件发送地址。如果您升级插件以后还是收不到每日邮件报告,请检查垃圾箱并将dpsender(alt)163.com设置为白名单。【请将(alt)替换成@】
7.修正了在DEDE5.7环境下,在插件控制面板编辑采集规则时,匹配网址【测试】和【常用规则】等按钮不能正常使用的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

 

阅读全文..

更新日志:

时间:2011-08-29

内容:
1.修正了一个在某些情况下,网页地址URL补全不正确的逻辑问题。
2.修正了一个内容页采集不受定时器控制的BUG。
3.修改了插件对服务器网络设置的验证方式。
4.修正了一个发送邮件报告时,百度收录数据可能不能正常显示的问题。
5.修正了一个全局设置里面的【自动审核文章】参数不能正确应用的问题。
6.增加了给文章中的图片增加ALT属性(自动设置为文章标题)的功能。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-07-08

内容:
1.修正了一个当DEDE安装在二级目录时,插件可能不能正常启动的逻辑问题。
2.修正了某些特殊的相对链接地址的补全规则。
3.增加了自动排除重复分页内容的功能,程序通过检测每个分页内容的crc32值,并将重复分页去除掉。
4.修正了一个当内容过滤规则中包含“逆向引用”时,编辑规则时“逆向引用”不能正常显示的问题。
5.应用户要求,给采集节点增加了一个批量启用/禁用的功能,方便使用。同时以前的【不选择预设栏目就相当于该节点禁用】的功能依然保留。
6.应用户要求,增加了两种内容伪原创方式:正文打乱【打乱文字顺序】和【替换为自定义标题】。前者只适合文章模型,会将文章内容完全打乱,重度伪原创,操作过的文章完全没有可读性;后者适合文章和图集模型,会将文档标题替换成自定义的多个标题中的一个。
7.修正了一个当使用图集模型时,文档可能不会出现推荐、特荐和头条等标志属性的逻辑问题。
8.在全局设置里面增加了【每天最多需要采集多少文章】的选项,同时以前在采集节点参数里面达到每天【采集数量限制】将会自动删除临时文档的功能,也改成了可选删除或者不删除。
9.针对某些用户反映服务器网络状态不稳定,在线升级困难的问题,特加设了一台升级服务器。以后就可以在升级程序文件时选择不同的升级服务器。
10.支持文章和图集模型的复制模型,新模型的识别id必须以article(复制文章模型)或者image(复制图集模型)开头,这样插件才能识别。例如可以将识别id取名为article2。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-06-07

内容:
1.增强了一键采集的健壮性。
2.修改了采集规则中内容过滤规则的匹配模式,从贪婪模式修正为非贪婪模式,和DEDE系统函数保持一致。
3.修正了一个,可能会导致在同义词词库里面找不到对应的词组的逻辑错误。
4.修正了一个在某些特定服务器里,判断当前URL路径错误,可能会导致插件无法启动的问题。
5.因程序发展,已经不再需要autocollect.php?act=show这种调试方式,从此版本起正式取消。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-05-03

内容:
1.修正了【一键采集】有时可能会返回乱码的问题。
2.修正了一个,当dedecms没有安装在网站根目录上时,后台控制面板不能正常启动插件的问题。
3.修正了一个没有设置SEO变量,但却在伪原创选项里面选择了对应的SEO选项,造成程序出错的问题。
4.修正了一个当DEDE安装在二级目录时,自动判断到的触发文件路径名不正确的问题。
5.增加了对单个日志文件大小的限制,防止当日志文件过大时引起灾难性的后果。目前日志文件最大为20M,超过此大小将自动清空重新记录。
6.修正了在内容过滤规则里面设置了特定的规则,可能会导致错误的将内容全部清空的问题。
7.修正了一个自动发送邮件报告时,【文章入库】数量总是显示为0的问题。
8.修正了一个,当采集的图片是特定格式的BMP图片时,可能会造成灾难性后果的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..