DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览 更新日志 里的文章

祝大家圣诞节快乐!

 

更新日志:

时间:2011-12-24

内容:
1.修正了当采集规则使用“字符串匹配模式”时,插件可能不能100%兼容DEDE采集规则的问题。
2.根据用户要求,在节点参数设置,【发布选项】中增加“未审核”的选项,选中以后插件自动发布的文章将会成为:待审核未生成状态。
3.修正了一个,在某些特殊情况下,读取采集数据失败会造成插件控制面板变成“白板”的问题。
4.修正了一个,当没有在插件控制面板里面删除采集规则,造成采集规则与规则参数不匹配,日志提示“采集规则还没有设置”的问题。
5.在文章模型的节点参数中增加了【包含关键字】和【排除关键字】选项。
包含关键字:正文中必须包含设定的关键字才会采集入库,不包含的文章会被自动丢弃。
排除关键字:标题和正文中只要包含设定的关键字就被丢弃,不包含的文章会被采集入库。
图片集模型不使用此参数。
6.增加了从列表页自动匹配内容页网址,和从内容页自动匹配文章标题、文章内容的功能。
使用方法为:
当需要自动匹配列表页网址时,在【文章网址匹配规则】里面,将【区域开始的HTML】、【区域结束的HTML】和【网址匹配规则】都设置为[自动匹配],点击相应字段下面的自动匹配内容>>,即可设置。
自动匹配文章标题和文章内容,也是点击相应字段下面的自动匹配内容>>,进行设置。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-11-09

内容:
1.修正了文章内容页分页地址的匹配方式。
2.修正了一个UTF8网页中某些特殊字符不能被转换成GBK编码,从而显示成???的问题。
3.修正了一个在GBK环境下,自定义文章内容摘要可能失效的问题。
4.通过动态调整远程服务器连接时间,增强了插件采集的稳定性。
5.为服务器兼容性考虑,增加了强制使用单线程采集的选项。在全局设置里面,将【多线程采集最大并发量】设置为1既禁用多线程使用单线程采集。
6.修正了一个可能会导致列表页采集失败的逻辑问题。
7.修正了一个,在节点参数里面,可能无法将采集数量限制和入库数量限制设为不同的逻辑问题。
8.使用新的匹配算法,增强了插件匹配列表页网址的能力。
9.修正了在采集某些特殊网页时,不能正确的给图片增加ALT属性的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-10-07

内容:
1.给节点设置增加了一个【列表页采集频率】的选项,默认是【自动调整】,此时插件会根据该节点的“更新频率”自动调整列表页采集频率,能提高采集效率和节约系统资源;当然也可以选择成【高频率】选项,此时插件会强制高频率采集列表页,适用于对目标列表页更新响应速度比较敏感的情况。
2.通过优化采集流程,极大的增加了插件的采集效率。经测试,采集能力可以提高到每天1W文章以上。但并不建议使用这么快的采集速度。
3.在后台控制面板,运行信息页面,增加了自动刷新数据的功能。插件在运行时,此页面的数据每5秒更新一次。
4.修正了一个当目标网站列表页使用(80以外)非标准端口时,不能返回正确的内容页链接地址,造成内容页采集失败的问题。
5.修正了一个某些服务器会在UTF8网页前增加额外的3个字节(BOM),造成插件启动失败的问题。
6.因某些原因造成邮件发送地址失效,所以更换了一个邮件发送地址。如果您升级插件以后还是收不到每日邮件报告,请检查垃圾箱并将dpsender(alt)163.com设置为白名单。【请将(alt)替换成@】
7.修正了在DEDE5.7环境下,在插件控制面板编辑采集规则时,匹配网址【测试】和【常用规则】等按钮不能正常使用的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

 

阅读全文..

更新日志:

时间:2011-08-29

内容:
1.修正了一个在某些情况下,网页地址URL补全不正确的逻辑问题。
2.修正了一个内容页采集不受定时器控制的BUG。
3.修改了插件对服务器网络设置的验证方式。
4.修正了一个发送邮件报告时,百度收录数据可能不能正常显示的问题。
5.修正了一个全局设置里面的【自动审核文章】参数不能正确应用的问题。
6.增加了给文章中的图片增加ALT属性(自动设置为文章标题)的功能。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-07-08

内容:
1.修正了一个当DEDE安装在二级目录时,插件可能不能正常启动的逻辑问题。
2.修正了某些特殊的相对链接地址的补全规则。
3.增加了自动排除重复分页内容的功能,程序通过检测每个分页内容的crc32值,并将重复分页去除掉。
4.修正了一个当内容过滤规则中包含“逆向引用”时,编辑规则时“逆向引用”不能正常显示的问题。
5.应用户要求,给采集节点增加了一个批量启用/禁用的功能,方便使用。同时以前的【不选择预设栏目就相当于该节点禁用】的功能依然保留。
6.应用户要求,增加了两种内容伪原创方式:正文打乱【打乱文字顺序】和【替换为自定义标题】。前者只适合文章模型,会将文章内容完全打乱,重度伪原创,操作过的文章完全没有可读性;后者适合文章和图集模型,会将文档标题替换成自定义的多个标题中的一个。
7.修正了一个当使用图集模型时,文档可能不会出现推荐、特荐和头条等标志属性的逻辑问题。
8.在全局设置里面增加了【每天最多需要采集多少文章】的选项,同时以前在采集节点参数里面达到每天【采集数量限制】将会自动删除临时文档的功能,也改成了可选删除或者不删除。
9.针对某些用户反映服务器网络状态不稳定,在线升级困难的问题,特加设了一台升级服务器。以后就可以在升级程序文件时选择不同的升级服务器。
10.支持文章和图集模型的复制模型,新模型的识别id必须以article(复制文章模型)或者image(复制图集模型)开头,这样插件才能识别。例如可以将识别id取名为article2。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-06-07

内容:
1.增强了一键采集的健壮性。
2.修改了采集规则中内容过滤规则的匹配模式,从贪婪模式修正为非贪婪模式,和DEDE系统函数保持一致。
3.修正了一个,可能会导致在同义词词库里面找不到对应的词组的逻辑错误。
4.修正了一个在某些特定服务器里,判断当前URL路径错误,可能会导致插件无法启动的问题。
5.因程序发展,已经不再需要autocollect.php?act=show这种调试方式,从此版本起正式取消。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-05-03

内容:
1.修正了【一键采集】有时可能会返回乱码的问题。
2.修正了一个,当dedecms没有安装在网站根目录上时,后台控制面板不能正常启动插件的问题。
3.修正了一个没有设置SEO变量,但却在伪原创选项里面选择了对应的SEO选项,造成程序出错的问题。
4.修正了一个当DEDE安装在二级目录时,自动判断到的触发文件路径名不正确的问题。
5.增加了对单个日志文件大小的限制,防止当日志文件过大时引起灾难性的后果。目前日志文件最大为20M,超过此大小将自动清空重新记录。
6.修正了在内容过滤规则里面设置了特定的规则,可能会导致错误的将内容全部清空的问题。
7.修正了一个自动发送邮件报告时,【文章入库】数量总是显示为0的问题。
8.修正了一个,当采集的图片是特定格式的BMP图片时,可能会造成灾难性后果的问题。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-04-17

内容:
1.修正了一个,在节点参数里面选择了【自动调整段落格式】时,图片下方说明文字可能不会正确居中的问题。
2.修正了一个,在插件控制面板里面提示“获取采集锁状态失败”的问题。
3.重新规划了插件程序流程设计,缩短了插件进程执行时间,最短可至30秒。使得绝大部分的服务器均能使用本插件。
4.增强了采集规则,可自定义列表网址匹配规则。
5.增强后台管理面板对DEDE5.7的兼容性。
6.【一键采集】改成使用AJAX方式操作,在提高速度的同时,也改善了用户体验。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。
如果已经在全局设置里面勾选【自动升级到最新的发行版】,则可以自动升级到此版本,不需要手工在线升级。

阅读全文..

更新日志:

时间:2011-03-28

内容:
1.增加对dedeV5.7版本的支持。
2.修正了一个在采集图片,不能添加水印的逻辑错误。
3.修正了一个当目标网页使用gzip压缩时,可能会造成采集失败的逻辑错误。
4.修正了一个即使在织梦后台关掉了水印,采集的图片依然带水印的逻辑错误。
5.应客户要求,增加了一个【重置插件运行数据】的功能。
6.增加邮件自动发送每天采集报告的功能,默认开启,在全局设置里面可关闭。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

更新日志:

时间:2011-03-15

内容:
1.修正了一个采集正文时,如果目标服务器没有设置content_type头,可能会造成正文采集失败的问题。
2.在采集节点处增加了“采集数量限制”选项,用来限制当列表页链接地址很多,但只需要取最近更新的一部分。
3.采集节点【在标题中插入关键字】选项,增加了随机插入到标题中间的的功能。
4.采集节点【在标题中插入关键字】选项,增加了一个插入【间隔字符】的功能。
5.在全局设置里面,增加了限制图片最大宽度和最大高度的功能,超过限定尺寸的图片,将会被等比例缩放。
6.在全局设置里面,增加了【JPEG图片质量参数】,数值越大图片效果越好,但文件也越大。
7.在采集节点中增加了【最小标题长度】和【最小正文长度】选项,不满足条件的文章将不会入库。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..