更新日志:

2010-06-20

1.修正了一个单进程多线程采集图片时,文件保存路径错误导致图片不能正常保存的问题。
2.增加了采集时检查采集到的文章百度是否已经收录的选项,如果已经收录那么不入库。默认选项为不检查百度收录直接入库。
3.增加了采集时不采集并去掉文章中的图片的选项,默认为采集图片。
4.应网友要求,增加了入库时打乱句子排列顺序的伪原创选项。打开这个选项会自动去掉文章中的图片。默认为不打开此选项。

以上三个选项的用法是,在配置文件里面进行配置:
配置文件原来的写法:
$coNodes[76]=24;
现在依然可以这么写,但那些采集选项将自动设置为默认的。如果想改变采集选项,那么应该这么写:
$coNodes[76]=array(24,0,1,0);

这个数组有4个元素,一个是栏目ID,这里是24
,第二个元素是媒体采集选项,0[(默认)2采集该媒体到本地,1不采集使用原始媒体链接,0不采集去掉媒体]
,第三个元素1[1检查百度收录,(默认)0不检查]
,第四个元素0[0不使用伪原创,(默认)1关键字替换伪原创,2打乱句子排列顺序(会强制去掉图片等),
可以组合使用比如同时想要关键字替换和打乱句子那么这里就是1+2=3]