DEDE全自动采集插件

DedeCms织梦内容管理系统自动采集、伪原创、发布、更新一体化插件

正在浏览标签为 V2 的文章

DEDE全自动采集插件第二版已经发布,以下是跟 自动采集插件第一版 的功能对比:

第一版(试用版) 第二版(正式版)
支持版本 仅支持v5.5 GBK 支持v5.3/v5.5/v5.6 GBK和UTF8
采集效率 使用DEDE系统自带函数,效率不高 专门针对采集设计的函数,性能更好
编码检测 需要自己判断网页编码 插件自己判断并进行编码转换
网页重定向 × 无法采集 √ 插件自动转向新地址并进行采集
gzip压缩 × 无法采集 √ 插件自动判断并解压缩
多线程采集 × 不支持 √ 支持多线程采集,如果失败还会转到单线程
采集重试 × 不支持 √ 如果采集失败,会再尝试采集最多3次
图片采集 支持,但可能采集不到/采集到半张图片/黑图片 支持,采集失败会自动重试,并且对于图片也有专门的检测函数,不会出现半截图片或者黑图片
采集节点 随机选择节点,有可能一个采集节点被采集多次,其他节点却怎么也轮不到,效率不高 节点轮询,所有正常节点的机会均等
文章重复 × 无法避免,只要PV触发速度快,必然会出现重复文章 √ 设置了进程锁定机制,同一时间内只允许一个采集进程,从流程设计上避免了文章重复的问题
内容为空 × 没有判断,无法避免 √ 内容为空的文章自动丢弃不入库
栏目乱发 × 流程设计不合理,无法避免 √ 重新设计了采集流程,在入库时自动重新计算文章所属栏目,从流程设计上避免了栏目乱发的问题
内容伪原创 只支持对所有文章全部进行关键字替换,而且替换中还可能出现乱码 文章标题关键字替换/文章内容关键字替换/文章句子随机打乱/插入SEO关键字/插入拼音/插入SEO段落,各伪原创方式可以自由组合,也可以不使用
SEO关键字 × 不支持 √ 支持,每隔一段中文随机插入SEO关键字
文章属性 × 不支持自动设置文章属性 √ 自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等
文章关键字 × 不支持自动设置文章关键字 √ 增加了基于词库的中文分词系统,因此能自动获取文章关键字(TAG)和文章摘要
文章数量 × 完全没办法控制 √ 可设置每日最大入库数量,到了以后继续采集但停止入库,等待第二天再行入库
丢弃过时采集 × 不支持 √ 增加了对采集文章时限的设置,可设置超过一段时间的文章不再采集直接丢弃,非常适合对文章时效要求特别严格的站点(比如新闻站点)
站点地图 × 不支持自动生成站点地图 √ 自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]
资源限制 × 不支持,PV触发过多可能直接挂掉服务器 √ 支持,有进程锁机制保证单进程,还有多个选项可以限制资源占用
插件触发 完全靠PV触发,来多少PV采集多少次,不来就一个也采集不到 主要靠插件自己触发(95%以上),PV触发只作为保险措施
定时采集 × 不支持 √ 支持,可以设置多个采集时间段
运行日志 × 没有日志,插件在后台运行,不知道它在干嘛 √ 有运行日志,通过分析日志还可以看到采集节点失效、栏目设置不合理等潜在问题
采集能力 纠结,PV触发少了可能采集不到什么;触发多了每天可能采集上千篇文章,但会出现很多重复文章 就算只有100PV,每天也可以稳定采集4000-5000,绝不会重复

需要本插件者,请点这里

阅读全文..

如果文章正文中包含图片,DEDE将默认生成一个标准尺寸的预览图片。该标准尺寸,是在 系统设置->系统基本参数->附件设置 里面设置:缩略图默认宽度(cfg_ddimg_width)和缩略图默认高度(cfg_ddimg_height),这两个参数进行设置的。

在模板调用时,如果刚刚好需要显示这个尺寸的预览图,那么图片看起来就比较舒服,否则就是变形的。
杯具的是:绝大多数时候,模板要求的图片尺寸,都恰恰不是DEDE标准预览图尺寸。

本插件自诩为DEDE自动采集、伪原创、更新一体化插件,当然对这个预览图也是有处理方案的。
废话不多说,上图大家自己看:

这个功能要如何使用呢?
你只需要在DEDE模板显示预览图的代码段,比如像这样一段:
<img src='[field:litpic/]’ width=’143px’ height=’106px’/>

将它修改成:
<img src=”[field:litpic function=getLitPath(@me,143,106)/]” />

这里143是宽度,106是高度。如果宽度和高度一样都是143,这段代码还可以简写为:
<img src=”[field:litpic function=getLitPath(@me,143)/]” />

然后就可以手工生成看一下效果,使用起来就是这么简单。
这种既简单又方便的功能,只有 本自动采集插件第二版 才支持。

 

2011-12-05更新,感谢 【至诚】网友的反馈
—————————————————————–
【小技巧】生成多种缩略图的情况下,系统默认缩略图尺寸最好比自定义尺寸要大!例如:默认310X250 自定义可以是180X130 只要比默认的尺寸小即可。

阅读全文..

更新日志:

2010-06-13

1.调整了采集流程,现在每次程序运行最多只处理一个临时文档,缩短了程序执行时间。
2.将采集线程锁的默认锁定时间调整为180秒,因以前已经调整过相关代码段,现在不会再出现两篇相同标题的文章。
3.修正了一个处理预览图片时,如果输入图片格式不正确将导致程序出错线程锁定的错误。
4.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页。
5.给采集程序增加了一个调试选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?act=show

在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
6.应网友要求,增加了采集某一特定节点的采集选项,具体用法是:
http://www.xxx.com/plus/autocollect.php?nid=54
nid后面对应的是采集节点ID,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
这个选项也可以和上面的act=show选项混合使用,具体用法为:
http://www.xxx.com/plus/autocollect.php?act=show&nid=54
这样就是对id为54的采集节点进行调试。

阅读全文..

更新日志:

2010-06-08

1.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。
2.在日志的帮助下发现了一个采集线程锁定的逻辑错误,现已修正。

阅读全文..

更新日志:

2010-06-06

1.修正了一个正则表达式错误,造成不能自动判断网页字符编码的错误。
2.修改了采集节点与栏目ID的对应数组定义,使之更有效率。
3.修正了一个不能正确判断文章标题,可能造成相同标题的文章会采集入库两次的问题。
4.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。
5.采集链接增加了一个选项,用于检查采集节点设置是否正确。
6.修正了一个路径错误导致不能正确生成缩略图的问题。

阅读全文..

DEDE全自动采集插件第二版正式发布,第二版在保留原有功能的基础上,改进或增加了以下功能:

1.此版本全面支持DEDECMS V5.3/V5.5/V5.6,第一版对DEDE5.6的支持不够完善。
2.增加了UTF8版本,第一版只支持GBK。推荐大家使用UTF8版本,插件的执行效率比GBK版本更高。
3.重写了采集代码,执行效率更高。现在不会出现采集出现半张图片或者一张全黑图片。
4.重写了采集代码,现在不需要用户判断被采集的网页到底是GBK还是UTF8编码,系统自动判断并进行编码转换
5.重写了DEDE获取网页区域代码,现在支持使用简单而又强大的正则表达式。
6.采集到的文章内容如果为空,将自动丢弃不入库。
7.彻底修改了采集文章分类机制,现在不会再出现采集到的文章随机乱发的现象。
8.改进了关键字替换功能,现在不会再出现第一版中关键字替换乱码的情况。
9.增加了基于词库的文章分词,因此自动获取文章关键字(TAG)和文章摘要成为可能,并已经实现。将自动获取的文章摘要放在文章头部,非常有利于伪原创。
10.所有相关的词库都基于物理文件系统,不需要再增加数据表,既减少了系统出错的可能,也提高了执行效率。
11.增加了线程锁定机制,不会再出现当采集速度过快时,采集到两篇同样文章的情况。
12.改进了预览图机制,现在可以自定义预览图大小,清晰非缩放的预览图片能来更好的访问体验。
13.修改了采集流程,将采集节点随机选择改成采集节点轮询,提高了采集效率。 更新日志20100606
14.增加了采集日志记录功能,生成的日志按照日期自动生成文件名,并存放在/plus/autocollect/log 目录。 更新日志20100608
15.增加了解压缩gzip编码的功能,支持采集经过gzip编码的网页更新日志20100613
16.给采集程序增加了一个调试选项,在调试状态下,将会显示一些具体的执行步骤信息,并且日志将不记录本次操作。
17.应网友要求,增加了采集某一特定节点的采集选项,打开这个选项将只采集该节点,以及只处理该节点采集到的文档。
18.对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。经过不完全测试,采集速度至少提高30%。 更新日志20100616
19.文章伪原创方式改进,除了以前的文章正文关键字替换以外,还增加了文章标题关键字替换(可选)和文章正文句子完全打乱的方式。 更新日志20100623
20.可以限制每天入库文章数量,和入库文章最短间隔时间。形成规律以后,对蜘蛛比较友好。
21.可限制采集间隔时间,不会在网站流量巨大时,采集过于频繁造成占用太多CPU资源。
22.可设置定时采集,想几点采集就几点采集。避过网站PV高峰期,在流量比较小的夜晚等时间段自动采集。 更新日志20100629
23.解决了第一版中如果采集时间超长,将会出现数据库服务器掉线,出现“MySQL server has gone away”的问题。 更新日志20100707
24.现在插件可以自己触发自己,开始再次采集,PV触发现在只作为保险措施。通过分析日志文件发现,超过90%以上的触发是插件自己完成的。 更新日志20100718
25.针对新闻等对文章时效要求特别严格的站点,特别增加了对采集文章时限的设置,可以设置超过一段时间的文章不再采集直接丢弃。 更新日志20100729
26.增加了对采集目标服务器返回301或302网页代码,地址被重定向的采集支持。
27.根据客户要求,增加了在文件中插入SEO关键字的功能。每隔一段中文就可以随机插入设定的许多关键字中的某一个。SEO关键字的内容由用户自己设定,可以是任何合法的HTML代码。 更新日志20100803
28.自动给采集到的文章增加属性,包括[图片/滚动/推荐/特荐/头条/幻灯/加粗]等.
29.自动生成网站站点地图,包括[全站HTML地图/全站Rss地图/google站点地图/google资讯站点地图/百度站点地图/每个栏目的RSS数据]。 更新日志20100810
30.同类采集插件中傲视群雄的采集能力,每天4000+,甚至有客户报告采集能力可以达到每天1W。 更新日志20100827
31.同义词不会再被循环替换,比如以前非常经典的替换:小阿姨->么姨妈,因为小阿姨->小姨妈->么姨妈,现在只会被替换成:小阿姨->小姨妈。
32.增加了可在文章头尾自动插入SEO段落的功能。
33.可在文章中关键字后面自动插入拼音,这个伪原创功能比同义词替换的可读性要好很多。 更新日志20100904
34.可自动审核从其他采集软件(比如火车头)采集并入库到DEDE的文章,可设置每次自动审核的文章数量、文章栏目、排序方式以及自动审核文章的间隔时间。 更新日志20100927

看到这么多文字是不是头有点晕?^_^ 点这里看-> 自动采集插件第二版跟第一版的功能对比表格

以下是其他相关资料链接:
DEDE全自动采集插件第二版安装方法
DEDE全自动采集插件第二版设置及使用
常见问题及解答
第二版更新日志

如果您对本插件还有其他功能上的要求,可以在 开发计划 页面留言,我会酌情增加。

需要本插件者,请点这里

阅读全文..