DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览发布于 2010九月 的文章

更新日志:

时间:2010-09-27

内容:
1.修正了一个,可能会导致不能正常进行正文同义词替换的问题。
2.因某些虚拟主机不支持sleep函数,故将所有的sleep替换成usleep函数,增强插件兼容性。
3.修正了一个,如果采集链接中存在&等特殊字符,可能会导致不能正常进行采集的问题。
4.有客户反映,如果开启关键字插入拼音伪原创,插入的拼音数量较多,影响了文章可读性。为此增加了拼音插入控制,现在插入比例控制在大概正文长度的5%左右。
5.应客户要求,增加了从目标网页采集内容摘要及关键字的功能。
6.应客户要求,增加了自动审核文章的功能。与此相配合,修改了已审核的文章才能生成HTML,未审核的将不能再生成HTML。

如想使用从目标网页采集内容摘要及关键字的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=========设置文章关键字及摘要==========
//================================

$autoTags=1; //设置文章关键字及摘要,取值[1/2/3]

//1:强制通过中文分词设置关键字及摘要,2:强制通过原始网页取关键字及摘要,3:先通过原始网页取,取不到再用中文分词取
//默认是1,强制通过中文分词设置关键字及摘要

//================================
//================================

如想使用自动审核文章的功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//======自动审核文章==================
//================================

$autoReview=true; //是否自动审核文章,取值[true/false],默认为false不自动审核。

//开启以后默认自动设置以下变量:每次自动审核的数量=10;栏目ID=不限制栏目;排序方式=随机;
//如果想要改变默认值,可以这么写:
//$autoReview=array(20,3,’desc’);
//其中,20是每次自动审核的数量,栏目ID为3,排序方式为按照文章ID倒序.排序方式可以设置为[‘asc’:按照文章ID顺序;’desc’:按照文章ID倒序;false:排序方式为随机]

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100920.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100927update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-20

内容:
1.修正了一个,在设置采集节点时“区域匹配模式”使用“字符串”模式,如果匹配规则不正确,可能造成程序出错自动退出的问题。
2.修正了一个在采集文章内容页时如果匹配不到文章标题,可能会造成程序出错自动退出的问题,将尝试使用列表页文章标题。
3.修正了一个正则表达式书写错误,可能造成在插入文章SEO头尾段落时出错退出的问题。
4.应客户要求,将XML站点地图[google站点地图/google资讯站点地图/百度站点地图]中的文章数量从100篇,增加到1000篇。
5.应客户要求,增加了一个在文章标题前后自动插入设定的标题关键字的功能。如需开启,请将伪原创选项加64。
如果想使用此功能,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======标题关键字配置=================
//================================

/*必须要在上面正文采集选项中,正文伪原创开启64才能使用*/
$titleKeys=array();
$titleKeys[]=’dede自动采集’; //标题中最好不要带链接等特殊字符
$titleKeys[]=’dede全自动采集插件’; //会随机在标题的前面或者后者,插入这些关键字中的某一个
$titleKeys[]=’采集插件for Dede’; //写多少行都行,根据你自己的需要
$titleKeys[]=’dede采集’;
$titleKeys[]=’织梦自动采集’;
$titleKeys[]=’织梦采集插件’;

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php

更新操作:
插件版本为DedePlus_AutoCollect_V2.4_20100904.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100920update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

更新日志:

时间:2010-09-04

内容:
1.修正了一个关键字替换伪原创时,会对文章进行多次替换的问题。比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在会被替换成:小阿姨->小姨妈。
2.增加了在文章中增加关键字拼音的伪原创选项,这个功能比关键字替换的可读性要好很多。如需开启,请将伪原创选项加16。
3.应客户要求,增加了一个在文章头尾自动插入SEO段落的功能。如需开启,请将伪原创选项加32。
其中文章头尾的段落内容是可以自定义的,如果想改变默认的设置,请在配置文件[ /plus/autocollect.php ]中增加以下橙黄色内容:
//=======SEO插入头尾配置==============
//================================

/*必须要在上面正文采集选项中,正文伪原创开启32才能使用*/
//每个不同的句子中间用竖线隔开|,每一句后面不用跟标点符号。插件会随机从你设定好的句子当中随机抽取组成一段,添加标点符号以后,自动插入到你的文章头部和尾部。
//支持标签替换,如果你在句子中间插入{title},那么最后会被自动替换成文章的标题。
//支持以下标签:{title},文章标题;{keywords},文章关键字;{summary},文章摘要;{sitename},你的网站名字;{siteurl},你的网站链接

//这里插入到文章头部的句子
$seoHeads=array(); //这句必须要,$seoHeads[]=”这里的内容才能自己设定|这是可能随机抽取到的第二句|加多少句都可以”;
$seoHeads[]=”《{title}》是一篇好文章|无意中在网上看到《{title}》|今天在网上看到《{title}》|{sitename}最近发表了一篇名为《{title}》的文章|本页是{sitename}最新发布的《{title}》的详细页面”;
$seoHeads[]=”感觉写的不错|好久没看到这么好的文章|感觉很有用处|觉得有用就收藏了|觉得应该跟大家分享|好东西应该跟大家分享”;
$seoHeads[]=”这里给大家转摘到{sitename}|重新排版了一下发到这里[{siteurl}]|重新编辑了一下发到{sitename}|改了一下错别字|把错别字改掉了|改掉错别字就发到了{sitename}”;
$seoHeads[]=”为了大家阅读方便|为了方便大家的阅读|希望大家能有所收获|希望对网友有用|看完如果觉得有用请记得收藏|觉得好就请收藏下”;
//并没有规定一定只能写4行,写多少行都行,只要最终组合看起来通顺。

//这是插入到文章尾部的句子
$seoFoots=array(); //这句必须要
$seoFoots[]=”以上就是《{title}》的全部内容|以上是《{title}》的详细内容|《{title}》是篇好文章|以上就是这篇文章的详细内容|以上就是这篇文章的全部内容|这是篇好文章”;
$seoFoots[]=”主要描述{keywords}|讲的是关于{keywords}等方面的内容|涉及到{keywords}等方面|涉及到{keywords}等”;
$seoFoots[]=”希望大家能有所收获|希望网友能有所收获|希望对大家有用|希望对网友有用|看完如果觉得有用请记得收藏|觉得好就请收藏下|觉得好就按CTRL+D收藏下”;
//并没有规定一定只能写3行,写多少行都行,只要最终组合看起来通顺。

//================================
//================================

以上内容请根据自己的需要加以修改。

本次更新涉及的文件:
/plus/autocollect/cls_FoxCollection.php
/plus/autocollect/cls_FoxSpider.php
/plus/autocollect/cls_FoxHttpDown.php
/plus/autocollect/fun_image.php
/plus/autocollect/cls_FoxSplitWord.php
/plus/autocollect/cls_FoxSql.php
/plus/autocollect/fun_gen.php
/plus/autocollect/pinyin.bin

更新操作:
插件版本为DedePlus_AutoCollect_V2.3_20100827.rar的用户,
请注意查收邮件,将附件中的DedePlus_AutoCollect_V2.4_20100904update.rar解压,
将适合你的更新文件直接覆盖到对应目录下,就可以完成升级。

阅读全文..

DEDE全自动采集插件第二版已经发布,以下是跟 自动采集插件第一版 的功能对比:

第一版(试用版) 第二版(正式版)
支持版本 仅支持v5.5 GBK 支持v5.3/v5.5/v5.6 GBK和UTF8
采集效率 使用DEDE系统自带函数,效率不高 专门针对采集设计的函数,性能更好
编码检测 需要自己判断网页编码 插件自己判断并进行编码转换
网页重定向 × 无法采集 √ 插件自动转向新地址并进行采集
gzip压缩 × 无法采集 √ 插件自动判断并解压缩
多线程采集 × 不支持 √ 支持多线程采集,如果失败还会转到单线程
采集重试 × 不支持 √ 如果采集失败,会再尝试采集最多3次
图片采集 支持,但可能采集不到/采集到半张图片/黑图片 支持,采集失败会自动重试,并且对于图片也有专门的检测函数,不会出现半截图片或者黑图片
采集节点 随机选择节点,有可能一个采集节点被采集多次,其他节点却怎么也轮不到,效率不高 节点轮询,所有正常节点的机会均等
文章重复 × 无法避免,只要PV触发速度快,必然会出现重复文章 √ 设置了进程锁定机制,同一时间内只允许一个采集进程,从流程设计上避免了文章重复的问题
内容为空 × 没有判断,无法避免 √ 内容为空的文章自动丢弃不入库
栏目乱发 × 流程设计不合理,无法避免 √ 重新设计了采集流程,在入库时自动重新计算文章所属栏目,从流程设计上避免了栏目乱发的问题
内容伪原创 只支持对所有文章全部进行关键字替换,而且替换中还可能出现乱码 文章标题关键字替换/文章内容关键字替换/文章句子随机打乱/插入SEO关键字/插入拼音/插入SEO段落,各伪原创方式可以自由组合,也可以不使用
SEO关键字 × 不支持 √ 支持,每隔一段中文随机插入SEO关键字
文章属性 × 不支持自动设置文章属性 √ 自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等
文章关键字 × 不支持自动设置文章关键字 √ 增加了基于词库的中文分词系统,因此能自动获取文章关键字(TAG)和文章摘要
文章数量 × 完全没办法控制 √ 可设置每日最大入库数量,到了以后继续采集但停止入库,等待第二天再行入库
丢弃过时采集 × 不支持 √ 增加了对采集文章时限的设置,可设置超过一段时间的文章不再采集直接丢弃,非常适合对文章时效要求特别严格的站点(比如新闻站点)
站点地图 × 不支持自动生成站点地图 √ 自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]
资源限制 × 不支持,PV触发过多可能直接挂掉服务器 √ 支持,有进程锁机制保证单进程,还有多个选项可以限制资源占用
插件触发 完全靠PV触发,来多少PV采集多少次,不来就一个也采集不到 主要靠插件自己触发(95%以上),PV触发只作为保险措施
定时采集 × 不支持 √ 支持,可以设置多个采集时间段
运行日志 × 没有日志,插件在后台运行,不知道它在干嘛 √ 有运行日志,通过分析日志还可以看到采集节点失效、栏目设置不合理等潜在问题
采集能力 纠结,PV触发少了可能采集不到什么;触发多了每天可能采集上千篇文章,但会出现很多重复文章 就算只有100PV,每天也可以稳定采集4000-5000,绝不会重复

需要本插件者,请点这里

阅读全文..