DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 Dede自动采集 的文章

DEDE全自动采集插件第三版已经发布,以下是跟 自动采集插件第一版 的功能对比:

阅读全文..

更新日志:

时间2010-12-05

内容
1.修正了当图片标签中有JS代码时,自动排版可能会显示乱码的问题。
2.给节点增加了可选择是否排除重复标题的选项,默认是排除重复标题。
3.修正了一个没有正确转换字符串编码,在SEO变量中插入时可能会造成乱码的问题。
4.增加了导出文档主表中的typeid2/shorttitle两个字段(如果存在值的话)。
5.修正了采集时自动修正url链接的一点小问题。
6.增加了自定义同义词词库的功能,可在线批量修改多个同义词词组,也可以通过导出、再导入的方式修改词库。

本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php

更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

更新日志:

时间2010-11-28

内容

1.根据客户的建议,将采集节点对应的预设栏目改成缓存的形式,只有当需要时才调用数据,改进了栏目超多时载入采集节点设置页面速度太慢的问题。
2.修正了一个可能会造成定时器时间判断错误,造成插件不能正常采集的问题。
3.在全局设置增加了触发文件名设置,启动插件时会检查该触发文件是否存在。
4.修正了一个PHP配置开启magic_quotes_gpc魔术引用,可能会造成SEO关键字显示不正确的问题。
5.修正了一个会造成列表页链接地址减少的逻辑错误。
6.改进了生成缩略图时的裁剪方式,从左上角裁剪改为从图片中间裁剪。
7.增加了自定义文章正文摘要的功能,需要在SEO变量设置里面先设置好,然后对每个具体的采集节点进行配置。
8.增加了标题关键字再插入的功能。在采集节点中打开此伪原创选项,会将在标题中插入的关键字,再插入到文章关键字、内容摘要及正文内容各一次。
9.增加了自动调整段落格式的功能,在采集节点中打开此伪原创选项,将自动调整文章正文段落格式,能带来更好的阅读体验。
10.给采集节点增加了自定义内容导入顺序功能,以前只能随机导入,现在可以选择:与目标站一致、相反以及随机顺序。
11.给采集节点增加了每日入库数量限制,达到入库上限的采集节点将停止入库。
12.大幅优化了采集流程,插件采集速度和以前相比更快。
13.大幅优化了文章入库流程,从以前的文章随机入库修改成节点轮询。默认情况下,即使不打开节点【文章入库数量限制】,已经可以做到每个节点入库文章数量基本均衡。


本次更新涉及的文件:
/plus/autocollect/data/class.php
/plus/autocollect/data/template.php
/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php


更新操作:
请v3用户在插件后台控制面板上,点 在线升级插件 ,根据提示操作,就可以完成升级。

阅读全文..

dede自动采集插件 历时半年的开发,终于迎来了v3版本。

阅读全文..

相对 自动采集插件第二版的安装 来说,第三版安装方法还是比较简单的,请按照步骤进行:

阅读全文..

目前,dede自动采集插件已经升级到V3版本。
v2跟v3在数据文件结构上有了很大的不同,v3版不能向下兼容。因此正在使用本插件的老用户,就有必要将v2的数据文件升级到v3版本。以下详细说明从v2升级到v3的整个过程。

如何将采集插件从v2升级到v3?

1.备份文件
请将以下文件用FTP下载到本地妥善放置,以免升级失败造成不必要的麻烦:

/plus/autocollect.php
/plus/autocollect/adcount.bin
/plus/autocollect/ck.bin
/plus/autocollect/cleanlog.bin
/plus/autocollect/coinfo.bin
/plus/autocollect/lock.bin
/plus/autocollect/makeinfo.bin
/plus/autocollect/replacewords.bin

友情提示:如果你在/plus/autocollect/这个目录还放置了其他重要的文件,也请备份到本地,升级过程会自动删除这个目录多余的文件。

2.上传升级文件

请各位老用户注意查收邮件,将邮件附件中的 从v2升级到v3.rar 解压,上传以下文件并覆盖到网站相应位置,请注意UTF8和GBK版本不同。
比如你的DEDE是v5.6gbk版本,那么你需要上传升级包内的/gbk/plus 目录到你的网站根目录进行覆盖。

/plus/autocollect/fun_gen.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/data/autocollect.php

3.升级配置文件

然后在浏览器地址栏运行(请将以下链接中的:www.dedeplus.com,换成你自己的域名。)

http://www.dedeplus.com/plus/autocollect.php?act=update

一直点下一步、下一步,直到网页提示:

恭喜,配置文件已经成功保存!

4.删除以前安装的自动采集插件

在DEDE后台->模块->模块管理,删除以前安装的dedeplus [自动采集更新]插件,先卸载后删除。删除的时候,请注意不要选择删除文件

如果没有在DEDE后台安装过本插件,那么请跳过这一步。

5.安装新的v3.0插件

点这里查看>> 如何安装dede自动采集插件v3

友情提示:新插件安装完以后,一定要在线升级一次才可以正常使用^_^

阅读全文..

更新日志:

时间:2010-10-19

内容
1.为增强兼容性,将POSIX扩展的正则表达式函数都替换成Perl兼容正则表达式函数。即使是这样DEDECMSv5.6依然还是无法在PHP5.3以上的环境中运行,但起码不会再有客户说是插件程序的问题了-_-!!!
2.修改了采集节点轮询的方式,不在配置文件中的节点将不再轮询,相当于该节点被手工禁用,能在一定程度上提高采集效率。
3.修正了一个,如果服务器禁用memory_get_usage函数,将造成插件程序不能触发自己的问题。
4.修正了一个,如果没有在PHP全局变量中设置memory_limit,将会导致插件出错的问题。
5.重写了图片操作类,不再使用DEDE系统函数,而是使用新函数给采集到的图片增加水印。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/cls_FoxImage.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20101011.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101019update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间2010-10-11

内容
1.针对漫画等特殊网页,增强了对文章分页链接的采集能力。
2.修正了一个,可能会造成入库文章标题为空的问题。
3.修正了一个逻辑错误,造成的媒体采集选项不正确的问题。具体表现为即使选择了采集选项为不采集或者去掉媒体,插件有时仍然会下载媒体到本地。
4.应客户要求,大幅增强了插件相对空闲时的节点采集能力。按照默认配置,当采集节点在50个以下,插件相对空闲时,以前可能会等待3-4小时,现在1小时内必定会采集到目标站点的更新。

本次更新不需要另外设置参数,因此不需要修改配置文件

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100927.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20101011update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-27

内容:
1.修正了一个,可能会导致不能正常进行正文同义词替换的问题。
2.因某些虚拟主机不支持sleep函数,故将所有的sleep替换成usleep函数,增强插件兼容性。
3.修正了一个,如果采集链接中存在&等特殊字符,可能会导致不能正常进行采集的问题。
4.有客户反映,如果开启关键字插入拼音伪原创,插入的拼音数量较多,影响了文章可读性。为此增加了拼音插入控制,现在插入比例控制在大概正文长度的5%左右。
5.应客户要求,增加了从目标网页采集内容摘要及关键字的功能。
6.应客户要求,增加了自动审核文章的功能。与此相配合,修改了已审核的文章才能生成HTML,未审核的将不能再生成HTML。

如想使用从目标网页采集内容摘要及关键字的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=========设置文章关键字及摘要==========
//================================

$autoTags=1; //设置文章关键字及摘要,取值[1/2/3]

//1:强制通过中文分词设置关键字及摘要,2:强制通过原始网页取关键字及摘要,3:先通过原始网页取,取不到再用中文分词取
//默认是1,强制通过中文分词设置关键字及摘要

//================================
//================================

如想使用自动审核文章的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//======自动审核文章==================
//================================

$autoReview=true; //是否自动审核文章,取值[true/false],默认为false不自动审核。

//开启以后默认自动设置以下变量:每次自动审核的数量=10;栏目ID=不限制栏目;排序方式=随机;
//如果想要改变默认值,可以这么写:
//$autoReview=array(20,3,’desc’);
//其中,20是每次自动审核的数量,栏目ID为3,排序方式为按照文章ID倒序.排序方式可以设置为[‘asc’:按照文章ID顺序;’desc’:按照文章ID倒序;false:排序方式为随机]

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100920.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100927update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-20

内容:
1.修正了一个,在设置采集节点时“区域匹配模式”使用“字符串”模式,如果匹配规则不正确,可能造成程序出错自动退出的问题。
2.修正了一个在采集文章内容页时如果匹配不到文章标题,可能会造成程序出错自动退出的问题,将尝试使用列表页文章标题。
3.修正了一个正则表达式书写错误,可能造成在插入文章SEO头尾段落时出错退出的问题。
4.应客户要求,将XML站点地图[google站点地图/google资讯站点地图/百度站点地图]中的文章数量从100篇,增加到1000篇。
5.应客户要求,增加了一个在文章标题前后自动插入设定的标题关键字的功能。如需开启,请将伪原创选项加64。
如果想使用此功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======标题关键字配置=================
//================================

/*必须要在上面正文采集选项中,正文伪原创开启64才能使用*/
$titleKeys=array();
$titleKeys[]=’dede自动采集’; //标题中最好不要带链接等特殊字符
$titleKeys[]=’dede全自动采集插件’; //会随机在标题的前面或者后者,插入这些关键字中的某一个
$titleKeys[]=’采集插件for Dede’; //写多少行都行,根据你自己的需要
$titleKeys[]=’dede采集’;
$titleKeys[]=’织梦自动采集’;
$titleKeys[]=’织梦采集插件’;

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100904.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100920update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..