目前,自动采集插件 已经升级到了V2.2,为了把开发过程中的一些想法记下来备忘,所以有了这个页面。

本列表是从下往上的,以前的放在下面,现在的放在上面。

2010-11-27.增加对内容页分页匹配规则、过滤规则以及自定义处理接口。

——————————————————————————————–

2011-01-27已经实现。详见 第三版更新日志20110127

 

 

2010-11-27.增加对列表页缩略图自定义匹配规则、过滤规则以及自定义处理接口。

——————————————————————————————–

2011-01-27已经实现。详见 第三版更新日志20110127 

 

2010-11-20.增加对XML文本采集的支持。

2010-11-20.缩略图裁剪的时候从中间开始取内容,这样生成的缩略图的显示效果要比原来的要好得多。

——————————————————————————————–

2010-11-28已经实现。详见 第三版更新日志20101128

 

 

2010-11-20.文章的description也能自己定义随机内容

——————————————————————————————–

2010-11-28已经实现。详见 第三版更新日志20101128

 

 

2010-11-20.随机插入标题的那个$titleKeys写入到keywords 1个跟别的自动抓取到的关键词用,隔开、description 2次、content 3-4次。

——————————————————————————————–

2010-11-28已经实现。详见 第三版更新日志20101128

 

 

2010-11-20.增加对文章正文段落混排的功能。

2010-11-20.增加在文章里面随机添加以前文章的标题链接的功能。

2010-11-20.增加伪静态不生成HTML、以及强制定时生成HTML功能(主要是首页)

——————————————————————————————–

2010-12-19已经实现。详见 第三版更新日志20101219

 

 

2010-11-20.增加自定义同义词替换词库功能。

——————————————————————————————–

2010-12-05已经实现。详见 第三版更新日志20101205

 

 

2010-11-20.给采集节点增加每日入库数量限制,这个功能对节点采集数量不均衡时,随机更新数量分配也极不均衡的现象应该会有所改观。

——————————————————————————————–

2010-11-28已经实现。详见 第三版更新日志20101128

 

 

2010-11-20.给采集节点增加内容导入顺序:与目标站一致、相反以及随机顺序。

——————————————————————————————–

2010-11-28已经实现。详见 第三版更新日志20101128

 

 

2010-10-22.群众纷纷表示,后台控制面板是必须要的。

——————————————————————————————–

2010-11-20已经实现。详见 第三版正式发布

 

 

2010-9-25.有客户要求增加一个自动审核文章的功能,就是每隔一段时间自动从许多未审核的文章中取几篇自动审核,并生成HTML。

——————————————————————————————–

2010-09-27已经实现。详见 第二版更新日志20100927

 

 

2010-9-25.有客户要求采集时不使用中文分词获取文章摘要和关键字TAG,直接从目标网页里面采集,计划加一个选项做成可选的。

——————————————————————————————–

2010-09-27已经实现。详见 第二版更新日志20100927

 

 

2010-9-4.本插件理论上来说支持多个模型,但目前大量应用的其实还是文章模型,下一步计划测试并完善对其他模型的支持

——————————————————————————————–

2010-12-20开始支持图集模型。详见 第二版更新日志20101219

 

 

2010-8-31.给插件增加一种伪原创的方式,就是将词组后增加拼音,这种方式既可以达到伪原创的目的,可读性又比同义词替换效果要好。

——————————————————————————————–

2010-09-04已经实现。详见 第二版更新日志2010-09-04

 

 

2010-8-20.目前插件的采集能力大概在每天大几百,不上一千。计划通过优化采集流程,提高插件的采集能力

——————————————————————————————–

此功能2010-08-27已经实现。保守估计,现在插件的采集能力在每天4000+,详见 第二版更新日志2010-08-27

 

 

2010-08-17.有客户建议增加一种伪原创方式:自动随机调用设置的每句的表里的组成第一段和最后一段,设title、keywords、description为变量,可以插入到规则里。

也就是说在文章开头和最后,各自动插入一段文字。该文字由客户自己设置的一组句子组成,其中可以包括文章的title、keywords、description三个变量。

——————————————————————————————–

2010-09-04已经实现。详见 第二版更新日志2010-09-04

 

 

2010-08-09.有客户发现文章生成时,不能自动更新上一篇文章,导致几乎所有文章的下一篇文章都是空的,列入计划修正。

——————————————————————————————–

2010-08-27已经修正。详见 第二版更新日志2010-08-27

 

 

2010-07-27.给采集到的文章自动增加推荐、幻灯、热门等标志

——————————————————————————————–

此功能2010-08-10已经实现,详见 第二版更新日志20100810

 

 

4.应某客户的要求,看能否给插件增加一个自动将采集到的图片传到图片服务器上的功能。也就是文章和图片不在同一个服务器上面。

3.应某客户的要求,给采集插件增加一个自动创建 GOOGLE资讯站点地图 的功能,该地图的详细格式见这里:

http://www.google.com.hk/support/news_pub/bin/answer.py?hl=cn&answer=74288

——————————————————————————————–

此功能2010-08-10已经实现,详见 第二版更新日志20100810

 

 

2.自我感觉生成HTML页面的时候,所花的时间不少。文章页是肯定要生成的,但列表页应该不需要每次都生成。计划下一步从这里着手进行优化。

———————————————-

此功能2010-07-22已经实现,详见 第二版更新日志20100722

 

 

 

1.插件不需要PV触发,启动以后就能自动持续运行。

——————————————————————————————–

此功能2010-7-18日已经实现,详见 第二版更新日志20100718

理论上来说,本插件不再需要PV触发。插件在启动以后,每过一段时间(最短60秒)以后,就会触发自己开始再次采集。

但在稳定性测试中发现,可能会因为服务挂掉、或者网络故障(比如DNS解析错误)、又或者程序运行出错等原因,造成插件运行到一半中止,当然也就没办法触发自己再次采集。结论是最好还是加上PV触发,这样插件触发会更加稳定。

本来想做成守护进程的形式,但实现守护进程以后发现有两个问题无法解决只好放弃:

1.有些服务器不支持超长运行的进程,比如GODADDY LINUX服务器,进程最长运行时间只有120秒。

2.PHP内存释放问题,无论怎么搞总是有一些内存无法正常释放,造成内存使用量越来越高,最终把进程挂掉。