使用说明1–运行数据解读 (以下所有图片点击都可以放大)

 

这是一幅比较典型的运行信息数据图

主要包括节点(也就是列表页)采集、内容页采集和文章入库统计数据,当天的数据和总数据都有。

从图中我们可以看到,当天节点采集成功31次,内容页采集成功5391次,文章入库发布29篇。

内容页采集成功了5391次但只发布29篇,并不相等。这是因为内容页采集和文章入库发布并不是同时进行的,当天已经采集到但没有发布完的文章,会延续到第二天继续发布。

另外,图中的红框特别标示,可以看到节点采集的成功率不高。

因为这里的【节点采集成功】定义是:只要列表页没有采集到更新的文章,都算做失败!和我们通常理解的有点不同,至于为什么要这么定义,后面会讲。

 

 

 

前面的运行信息是总的数据,这幅图是每个节点单独的数据

其中A区的数据是:节点采集、内容采集和入库发布统计数据,比如有一个数据是这样:

它的含义是:今天,节点采集成功1次/节点总采集7次,内容页采集成功449次/内容页总采集458次,文章发布入库1篇
插件程序采集列表页的时候, 会一次性的把所有匹配到的网址都保存下来(有效的网址,准备内容页的采集)。第二次再去采集这个列表页,如果发现还是以前的那些文章网址(这些网址第一次已经记录过了,算是无效网址),就没有必要再记录。因为第二次没有采集到新的网址(有效的网址),程序就认为这一次采集失败了。

B区的数据是:节点下一次采集的时间。
通常来说,目标网站的列表页都不会是实时更新的,有的一天甚至几天才更新几篇。所以没有必要经常去采集它,默认情况下插件程序会自动调整列表页采集频率。
这里的时间就是插件程序下一次最早采集它的时间,至少要等这个时间到了以后,程序才会采集这个节点。

当然也可能有那种几分钟就更新一篇的列表页,或者你对目标网站的文章更新时间非常敏感,需要时时的监控列表页。这时可以在节点参数中将【列表页采集频率】设置为【高频率】,这样设置以后,【下次采集】时间会显示成随时,就像下图这样:

 

C区的数据是该节点库存的网址,因为有一些网址可能会采集不到,或者标题重复了被排除等等原因,最终能入库发布的文章数量通常都会比库存网址少。

 

 

 

A区的数据,如果出现这种红色数据要特别注意。

节点采集:0/10,节点(列表页)采集了10次,没有一次匹配到有效的网址,这种情况有两种可能:采集规则的列表页规则那里有问题,匹配不到内容页网址(解决办法是重新调整该采集规则);或者对方网站一直没有更新过,这个节点已经废了(解决办法是再找一个新的目标列表页,重写采集规则)。总之不管是哪种情况,都是需要人工干预的。
A区的红色数据,就是提示存在要人工干预的情况。

上图提示的是节点采集出现红色数据,同样内容页采集也可能存在红色数据的情况,一样的需要人工干预,分析方法和节点采集类同。