python爬虫入门介绍
作者:wanrong发布时间:2021年03月26日 15:17

  随着技术的进步,python语言如今使用的人也是越来越多了,有许多人用python来进行数据分析,那么,搜集数据就变得十分关键,python搜集数据就是python爬虫,python爬虫入门介绍来了,一起来跟着小编学习以下吧。

  

  1.首先是获取目标页面,这个对用python来说,很简单。

  

  运行结果和打开百度页面,查看源代码一样。这里针对python的语法有几点说明。

  

  a).import 就是引入的意思,java也用import,C/C++用的是include,作用一样

  b).urllib 这个是python自带的模块,在以后开发的时候,如果遇到自己需要的功能,python自带的模块中没有的时候,可以试着去网上找一找,比如需要操作MySql数据  库,这个时候python是没有自带的,就可以在网上找到MySQLdb,然后安装引入就行了。

  c).res是一个变量,不用像java,C语言那样声明。用的时候直接写就行了

  d).标点符号。像java,C这些语言,每行代码后面都要用分号或者别的符号,作为结束标志,python不用,用了反了会出错。不过有的时候,会用标点符号,比如冒号,这个后面再说

  e).关于print,在python2.7中,有print()函数,也有print 语句,作用基本差不多。

  f).#注释

  g).encoding=utf8代表使用utf8编码,这个在代码中有中文的时候特别有用

  

  2.解析获取的网页中的元素,取得自己想要的。

  

  首先获取页面代码:

  

  获取结果,通过分析页面源代码(建议用firefox浏览器,按F12,可看到源代码),可以定位到有效代码如下:

  

  

  

  

  

  下面我们开始解析(这里用BeautifulSoup,自行下载安装),基本流程:

  a).缩小范围,这里我们通过id="book"获取所有的书

  b).然后通过class="title",遍历所有的书名。

  代码如下:  

  

  代码说明:

  a).book_div    通过id=book获取div标签

  b).book_a    通过class="title"获取所有的book  a标签

  c).for循环     是遍历book_a所有的a标签

  d).book.string  是输出a标签中的内容

  结果如下:

  

  

  

  3.存储获取的数据,比如写入数据库,我的数据库用的Mysql,这里就以Mysql为例(下载安装MySQLdb模块这里不做叙述),只写怎么执行一条sql语句。

  

  代码如下:

  

  说明:

  a).这段代码是执行sql语句的流程,针对不同的sql语句,会有不同的处理。比如,执行select的语句,我怎么获取执行的结果,执行update语句,怎么之后成没成功。那就要自己动手了。

  b).创建数据库的时候一定要注意编码,建议使用utf8。


  4.至此,一个简单的爬虫就完成了。之后是针对反爬虫的一些策略,比如,用代理突破ip访问量限制。

  

  小编今天给大家提供了利用python入门爬虫的方法,跟着步骤做,就可以学会这个技术了,如果你还想学习更多深入的操作,就请课下认真去看小编的每个课程。

  

  本篇文章使用以下硬件型号:联想小新Air15;系统版本:win10;软件版本:python 3。

点击观看视频教程
Flask框架和Python爬虫技术
初级练习186022人已学视频时长:17:22
立即学习
特别声明:以上文章内容仅代表作者wanrong本人观点,不代表虎课网观点或立场。如有关于作品内容、版权或其它问题请与虎课网联系。
500+精品图书
20G学习素材
10000+实用笔刷
持续更新设计模板
立即领取

下载虎课APP

随时随地学技能
APP更方便
每天免费学课程
下载虎课网APP
随时随地学海量会员教程
特惠
充值
7折购
今日还在继续学习的你,太棒了!
7
折扣券可用于
年费无限VIP
立 即
使 用
此活动优惠不可与其他活动叠加使用
有效期:000000
消息
登录即可查看消息记录
建议
意见
官方
客服
在线咨询客服热线

您可以与在线客服进行沟通获得帮助

工作日:9:00~22:00节假日:9:00~18:00

联系在线客服

您可以电话联系客服进行沟通获得帮助

工作日:9:30~18:30

400-862-9191
虎课
积分
免费学习89000+个教程!
配套素材、源文件一键下载!
昨日学员已学习了36,588
并提交了234份作业!
登录后立即学习!
loading
微信扫码关注即可登录
您需要同意协议才可以进行登录
登录虎课网,每天免费学课程全站 89000+ 视频会员教程 | 每日可免费学 1
为确保账户信息安全
请先进行真实姓名验证后进行充值付款
立即验证