八爪鱼采集器的优缺点

首先,我本人使用过八爪鱼、火车头采集器、火车头浏览器、集搜客采集器、神箭手采集器、其他一些不太知名的采集器(比如发源地、前嗅数据等等),还有我自己会用Python写基本的爬虫(包括Scrapy框架和简单的分布式,我是产品狗,coding能力很一般),综上所述,大部分主流数据采集工具都尝试了,也不同程度感受了。所以我的观点角度来说,不会像小白用户,也不像技术大牛,属于折中的产品汪角度。

下面来说八爪鱼优点:

1,小白用户福音(简单易用、规则好找、可视化界面、容易学习和模仿)

如果我是小白用户,我不太懂Html和Http协议,那么我看完所有上面所说的工具之后,我可能会做出这样的选择:

直接去某数据平台购买数据(比如数多多和发源地等)
直接去淘宝买规则(火车头采集器和八爪鱼居多)

小白用户是啥:

领导让我采集这些数据,臣妾不会啊,臣妾做不到啊……
老师让我采集数据做论文啊,臣妾做不到啊……
数据看样子可以买到,但是没人给我掏钱啊,臣妾没钱啊……

综上所述,一老子没钱,二老子不懂技术,三老子还想要数据。最简单便宜省钱的方法就是用八爪鱼,几乎没有其他可选的。为啥?

火车采集器(499元起)你得用旧版才能免费导出csv出来,excel都没戏,新版你连这个都导不出来。火车浏览器本来就得花钱买(2180元起),否则也没法用,而且学习成本有些高。其他几个采集工具很难或者没有导入规则的方法,网上也没什么卖规则的,神箭手采集虽然可以免费采集一些数据,但是导出也是要收费的,而且数据多了还得单独下载数据导出工具。

八爪鱼怎么省钱?完善信息1000积分,每天签到还30积分,网上下个规则或者买个规则,剩下的靠积分就足够搞定初期的采集了,再不行充值一些积分也能随需随用,导出excel、数据库都可以。

2,直观看到网页变化,不管是测试还是采集的时候都容易避坑

很多人说,火车采集器采集速度快啊,八爪鱼好慢啊,弱爆了。不可否认的是,火车采集器是无需完整显示页面就可以采集数据的,这样的好处就是它介于爬虫和八爪鱼中间,速度确实快一些。但是不好的地方就是,它必须自己拼网址啊!拼网址啊!拼网址啊!本来八爪鱼点一下就可以搞定的东西,因为火车头看不见,只能自己去浏览器里看页面代码才行。采集的时候因为看不到网页变化,只能看到说采集了xxx条数据,说实话每次测试火车头我都头疼,谁知道采集了一大堆,是否都是正确数据,又看不到页面的具体变化……

你说一开始写火车头规则的时候测试可以看到,嗯,对,可以看到,但是网站都是傻子么,让你随便采集的网站已经越来越少了,动不动就给你403或者加验证了。条件判断呢?火车头哪有这玩意啊……八爪鱼虽然慢点,但是测试的时候可以看到页面是如何变化的,出了问题可以追溯和调整,否则慢慢哭去吧。

另外一个优点就是看着数据唰唰的采集上来的时候,我才不会告诉你感觉很爽……

3,写规则速度快

先不管小白用户,我们这种有一定经验的用户,写八爪鱼规则,比如采集汽车之家某车型全部文章全部评论的规则,第一次写需要40分钟。也许你会问,这玩意还要这么久,你弱爆了……我的解释是汽车之家用了ajax加载,而且有的页面需要分析一下“下一页”的跳转链接定位,避免无限循环翻页还有页面丢失的问题。第一次写规则需要一个一个页面查看一下xpath定位,并且单机测试一下。所以实际上大部分时间用在分析页面上了,写规则的时间其实也就十几分钟就足够了。如果用火车头或者别的工具,那就头疼了……网址如何拼配琢磨10分钟,ajax加载的问题,火车头的老版免费版根本解决不了,新版还得买高级的json解析才好弄,即使如此还得抓包自己搞清楚网址如何组合……除非是老鸟,否则谁敢说第一次写三四十分钟就能搞定这个规则?神箭手就更不用说了,写之前先去把js学一遍,然后开发文档看一遍……

其他优点不说了,请各位看官自行摸索,说多了就有软文嫌疑了。

下面进入大家喜闻乐见的批斗环节:

1,莫名其妙的错误,简单粗暴的解决办法

如果我只是从0开始写一个规则,通常问题不大,但是当我修改或者复制规则里的某些部分再添加到另一个规则里的时候,有时候就会出现一些莫名其妙问题。比如规则逻辑结构显示乱套了、规则执行出错等等,尤其是逻辑判断加入比较多的规则,就容易乱套。

解决办法倒是很简单,全部删了按照新的想法重新做一个规则……

2,云采集不是号称10倍速,多IP么?怎么感觉还那么慢

这个是很多人的误解,云采集是10个节点跑,但是应该不是什么时候都能到10个节点,也不是10个节点就是10个IP。所以速度并不一定是10倍速,但是我是真心希望可以10个节点,10个IP,最好还可以选择多长时间换IP,这样才能解决很多烦人的采集问题,这些功能多收钱也是正常的。

3,云采集丢数据问题

因为看不见云采集的具体运行过程,也没有追溯方法,所以丢了什么数据,哪些页面没采集到完全不知道。最好能有个云采集的详细每个节点的运行日志允许用户导出查看。

4,自动IP代理啥时候才能有

目前除了云采集(还不确定多长时间IP切换),本机的单机采集只能自己写代理服务器IP和端口进来,于是只能网上先买个自动切换的代理IP再填进来,不方便啊。八爪鱼官网说快要添加好这些功能了,我们拭目以待吧,目前反正切换IP不好弄。

这里说一个邪恶的办法……网上买一个快速切换IP的VPS主机,然后让八爪鱼在上面跑单机,就可以实现IP自动切换了,记得买IP自动切换型的,PPPOE拨号切换的不行,因为八爪鱼没这个自动拨号的功能。

5,最后的批斗,那就是某些情况下没有神箭手采集器省事

以下神箭手采集器的功能,八爪鱼的产品经理需要想一下八爪鱼现在是否有,如何简化操作。

神箭手可以购买专门人员开发的规则,并且规则还可以更新,确保采集不会出错(而且是一键更新)
神箭手可以采集图片,并且还可以托管到临时存储空间里
神箭手可以一键勾选是否IP代理,采集节点数量还可以随时增减
神箭手可以输出日志,还可以查看详细的日志信息
神箭手可以设置自动采集(每天几点到几点,间隔多长时间,是否检测页面变化,变化的数据是更新还是增量采集等等,一个页面就搞定)
神箭手可以自动导出数据到数据库,后台自动的,不需要打开软件,因为它就是个平台而已
神箭手可以自动发布数据到博客、论坛,同理,因为就是个平台,不用开电脑也可以继续运行

所谓人无完人,机无完机,采集器也没有最理想的。如果让我选,我会八爪鱼优先用,神箭手弥补,Python代码搞定剩下的。火车头?我用Py写代码又不花钱,我用火车头这种差不多的东西有啥用……