更新日志:

2010-06-16

1.将版本号正式升级为V2.1
因对采集代码进行了大幅调整,将原来的同一进程时间内只采集一个网页(单进程单线程),修改成同一进程时间内可采集多个网页(单进程多线程)。
经过不完全测试,采集速度至少提高30%。
如某个包含7个采集列表页面的采集节点,单进程单线程采集完7个页面时间为:7655毫秒,单进程多线程采集完7个页面时间为:5030毫秒
2.将中文分词代码进行了简化,去掉了反向分词部分的代码。
因分词这里占用时间不少,去掉反向分词可以减少词库容量,加速程序执行速度。