Python+Selenium爬坑记录——煮机网爬虫

现在的目标是使用Python+Selenium完成一个本体指导智能爬虫的工具。目标网站为煮机网。

流程如下:
1、把煮机网上所有文章爬取下来,一共2000篇,对每篇文章进行爬取、分词、存储工作。
2、对文章进行打分
3、对打好分的文章进行排序
4、人工分析,多少分以上的文章是可靠的,设定分数标准,将低于标准的文章删除
分词使用的是结巴分词器,使用方法如下:
import jieba
header_mode = jieba.cut(header)
对于怎么创建、写入文档,也找了一下方法,最后发现以下代码可以实现:
f = open(header,"w")
f.write(str(content_mode))
f.close()
在第二行,一开始写的是f.write(content_mode),出现报错:TypeError: expected a string or other character buffer object
网上搜了一下,是类型问题,要写入的话必须是str类型的,转换一下就OK了。
但是打开看了一下,并没有成功写入,文档里只有一行:<generator object cut at 0x00000000037B1870>
不知道是什么错,尝试改成f.write(str(content)),出现新报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-32: ordinal not in range(128)
在其他人的博客(http://wangye.org/blog/archives/629/)里找到了答案,似乎是因为编码问题,Unicode编码与ASCII编码不兼容,通过以下三行代码可以解决:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
同时,再去文档里看,已经解决,文本内容可以成功写入文档。

继续阅读Python+Selenium爬坑记录——煮机网爬虫

八爪鱼应用教程:京东商品信息采集图解

考虑到毕业设计的题目涉及到WEB数据,经过向前辈的咨询,学习了一个目前最简单也是最常用的爬虫工具——八爪鱼,以获得互联网上的数据。

虽然官方给出了视频教程,但是考虑到视频教程比较费时,反复参考起来也比较复杂,所以决定制作该图解教程。

第一步:确认要采集数据的网址。这里我选择了京东商城中的JAVA分类,可以看到一共有85页,记录下此时地址栏中的地址。QQ截图20170227134637

继续阅读八爪鱼应用教程:京东商品信息采集图解