八爪鱼应用教程:京东商品信息采集图解

考虑到毕业设计的题目涉及到WEB数据,经过向前辈的咨询,学习了一个目前最简单也是最常用的爬虫工具——八爪鱼,以获得互联网上的数据。

虽然官方给出了视频教程,但是考虑到视频教程比较费时,反复参考起来也比较复杂,所以决定制作该图解教程。

第一步:确认要采集数据的网址。这里我选择了京东商城中的JAVA分类,可以看到一共有85页,记录下此时地址栏中的地址。QQ截图20170227134637

第二步:在左侧【我的任务栏】右键新建任务组,自定义名称,确定完成之后,右键该任务组,新建任务(高级模式),并自定义任务名,有必要的话可以在此处稍微记录一下采集数据的网址,以备日后方便查询。QQ截图20170227133839QQ截图20170227134402

第三步:点击右上方的按钮【下一步】,跳转至设计工作流程页面。选中流程框左侧第一个【打开网页】,并拖入流程框中。QQ截图20170227134919

在右侧url框中粘贴刚刚复制好的数据源网址,点击保存,软件就会在下方自动跳转到该地址。QQ截图20170227135235

第四步:首先必须知道,我们要采集的不仅仅只是我们看到的这一个页面,例如示例的这85个页面,我们都需要采集。所以我们必须先为工具设定好循环翻页这一任务。将视线转移至软件正下方,也就是刚刚打开url的页面,拖动右侧滚轮,找到位于商品底部的翻页栏,对着【下一页】按钮,右键,就会跳出对话框,选择【循环点击下一页】。这样,就是完成了为工具设定翻页操作。QQ截图20170227135928 QQ截图20170227135937

第五步:由于我们要采集的是每一个商品的信息,所以我们不能简单的获取现在这个页面上的文字信息,需要一个打开链接的过程。选择该页中的第一个商品,对准文字描述,右键,在弹出的任务框中选择【创建一个元素列表以处理一组元素】QQ截图20170227142541

此处要注意,要把层次改到【A】,点击【A】就可以了。然后点击下方的【添加到列表】,将刚刚选中的链接加入列表中。

QQ截图20170227142559

添加之后,不要着急点击完成,因为还要为之后的几十个链接加入列中,所以在这里点击【继续编辑列表】

QQ截图20170227142613

回到最底部的页面,对着该页面中最后一个商品的链接右键,还是跳出列表元素窗口。这里要注意一下,我们要统一列表的层次,所以还是把层次改到【A】。随后再点击【添加到列表】

QQ截图20170227142634

点击之后就会发现,整个页面上所有的商品链接名都被添加了进来。这时候点击【创建列表完成】,接着点击【循环】,于是八爪鱼就可以循环的打开该页面上的每一个链接了。

QQ截图20170227142647 QQ截图20170227142656

第六步:完成了上一步之后,就会自动跳转到商品链接页面,于是我们可以开始抓取数据了。点击页面上一些常用的数据,例如商品名称、商品价格等,然后选择【抓取这个元素的文本】,于是,该文本就加入了字段队列。在抓取了几项之后,我们可以修改默认的字段名,以方便我们的理解。QQ截图20170227150315 QQ截图20170227150347

如果要抓取商品图片的话,我们就要用另外一种方法。首先,我们找一下商品图片所在的层级,如下图所示,一整片蓝色区域覆盖的位置就是该图片所处于的层级,右键,在跳出的对话框中选择【抓取这个元素的OuterHtml】。在这段Html的代码中,我们可以轻易的找到商品图片的地址。

QQ截图20170227150402 QQ截图20170227150443

点击字段下方的“小齿轮”,也就是【自定义数据字段】,点击【添加】,接着选择【格式化数据】,再选择【正则表达式匹配】

QQ截图20170227150457 QQ截图20170227150509 QQ截图20170227150534

这里少截了一张图,在选择【正则表达式匹配】之后,弹出来的对话框中左下方有一行红字【……试试正则表达式工具】,点击,进入正则表达式工具,找到图片的url,然后设定开始和结束,设置完成之后,依次点击【生成】-【匹配】-【应用】

QQ截图20170227152324

如果我们需要直接下载或打开图片的话,刚刚采集到的url是无法直接打开的,所以我们这里要用到【替换】。在完成上一步之后,再点击一次【添加】,然后在任务框中选择【替换】,把“//”替换成“http://”。

QQ截图20170227152405 QQ截图20170227152426 QQ截图20170227152513

第七步:最顶部的数据采集完了,我们还需要采集一些藏在下一级页面的数据,由于京东这里的数据位置是不固定的,例如出版社这个选项,在某件商品中排第一位,在另外一个商品中就可能排在别的位置,所以不能通过固定位置来提取数据。这里还是用到刚刚抓取图片的方法,从Html代码中找到我们需要的信息。

QQ截图20170227152623 QQ截图20170227152640 QQ截图20170227153345

检查一下我们需要的字段是否齐全,检查完毕就可以点击下一步了。

QQ截图20170227153529

由于我使用的是免费版,相较正式版少了一些功能,所以在【设置执行计划】这里没有太多能更改的地方。再在下一步中选择【启动单机采集】

QQ截图20170227153637

QQ截图20170227155647

成功采集到京东页面上指定关键词的商品数据,接下来怎么用就看你的啦。

QQ截图20170227155731

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据