首页 > 课程库 > Python 爬虫基础
Python 爬虫基础

Python 爬虫基础

小到从网络获取一些感兴趣的数据,大到搜索引擎,都能看到爬虫的应用。爬虫的本质就是利用程序自动地从网络获取感兴趣的信息,爬虫技术是大数据和云计算的基础。 这门课将带你走进爬虫的世界。在这门课程里,您将领略到怎么样通过几十行的 Python 代码从网络获取有趣的数据。

Python Web开发

21章节|64819次播放

查看课程视频学习交流群
338985564

6小时学习时长
更全面的职业课程大纲立即查看
  • 学习Python爬虫

    Python爬虫基础课程介绍

    什么是爬虫?我们把它定义为一个自动从网络获取数据的程序。爬虫能干什么?新闻数据:今日头条,实际上今日头条他们不做新闻编辑,他们的新闻来自后台的爬虫程序,从各大新闻网站上去把这些新闻下来,到它们自己的服务器上,然后做一些自己的分析,它们有一个特别的的功能就是会根据用户的习惯。比如你自己喜欢什么样的新闻... 查看原文

  • 学习Python爬虫

    python爬虫之http协议

    http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道。http报文展示:http报文打开开发者工具,查看http的包抓包查看完整的http请求http请求及构成http请求报文介绍1)方法:GET/POST GET获取远程服务器;/  远程服务器的相对路径,这里是... 查看原文

  • 学习Python爬虫

    python爬虫之url

    URL组成部分组成部分:schema://path?query1)协议2)路径3)参数比如我们进行百度输入的时候举例:URL编码规则编码规则:除英文字母,数字和部分符号以外,其他的全部使用百分号+十六进制码值进行编码例子:百度搜索中文我们看一下这个中文到底是怎么编码的,怎么发给服务器的。最终,我们的... 查看原文

  • 学习Python爬虫

    python爬虫之cookie

    Cookies基础cookie数据长什么样:清除浏览器历史数据登录www.douban.com(http://www.douban.com)查看cookies数据查看第一个请求,这里是比较干净的,它没有cookie,应答也没有cookie,应答码是301,实际请求是location这个地方,所以我们... 查看原文

  • 学习Python爬虫

    python之urllib.urlopen

    Urllib.urlopen#Urllib.urlopen打开一个远程的http连接,然后可以对这个参数进行读取1.urllib.urlopen1)Url:scheme(http:/file:)指定远程的服务器地址,当然它也支持本地的软件读取2)data:如果有,变成POST方法,也就是对服务器PO... 查看原文

  • 学习Python爬虫

    HTTPMassage方法

    探求HTTPMassage的方法#方法HTTPMassage没有官方的文档,如何找出其有用的方法?info():返回httplib.HTTPMassage实例通过httplib.HTTPMassage可以看到更多的关于应答的信息httplib.HTTPMassage:1)Headers 头信息2)g... 查看原文

  • 学习Python爬虫

    python urllib.urlretrieve

    urllib.urlretrieveurllib.urlretrieve:(它提供了一个更便捷的功能,就是直接把远程的文件,下载到本地)1)url:远程地址2)filename:要保存到本地的文件3)reporthook:下载状态报告4)data:POST的application/x-www-for... 查看原文

  • 学习Python爬虫

    python urllib工具函数

    urllib.urlencode1)把字典数据转化成URL编码2)用途  a)对URL参数进行编码  b)对post上去的form数据进行编码示例:# -*- coding: utf-8 -*-import urllibdef urlencode():    params = {'score': 1... 查看原文

  • 学习Python爬虫

    python爬虫urllib实例

    简单的爬虫实例:从雅虎财经获取股票数据雅虎财经股票数据接口介绍1)股票数据2)时间参数A,b,c表示开始的时间,d,e,f,表示结束的时间,s表示源代码,这个的月份是0,因为月份的接口是从0开始的。我们来看一下深市数据,这个就是完整的股票数据,这个数据的格式是日交易数据,其中包含时间,开盘价,最高价... 查看原文

  • 学习Python爬虫

    python爬虫之urllib2

    urllib和urllib2的区别urllib2提供了比urllib更丰富的功能1)urllib2.Resquest -提供http header定制能力,Resquest能够更好的表达请求。2)提供更强大的功能,包括cookie处理,鉴权,可定制化等一系列http高级的特性。urllib2能不能完... 查看原文

  • 学习Python爬虫

    python爬虫实例之豆瓣

    热播电影数据格式使用Chrome的开发者工具查看豆瓣热播电影的数据格式示例:我们要爬下来的东西打开Chrome的开发者工具查看我们要爬的区域是用哪些http来展示的呢?我们选中这个正在上映的区域。点击一下,它会自动进入点击查看,我们可以看到,我们要查看的内容实际上是一个列表解析出url下面的所有的l... 查看原文

  • 学习Python爬虫

    python爬虫之requests

    requests基础知识requests简介:对http协议实现的一个库Http for humans:具有标准的Python风格的一个库和urllib/urllib2的区别:1)requests不是标准库2)最后的http库,PythonIC风格安装pip install requests请求:1... 查看原文

  • 学习Python爬虫

    python爬虫之登陆豆瓣

    爬虫实例:登录豆瓣功能1)登录豆瓣2)修改签名登录流程分析1)向哪个url发送请求?2)发送哪些数据?3)有哪些特殊的头字段?4)验证码问题如何解决?登录使用的技术1)使用requests.Session来处理cookies2)模拟浏览器的登录行为示例:在这里面我们需要去观察这个数据到底交互是什么样... 查看原文

  • 学习Python爬虫

    python爬虫之修改签名

    修改签名流程分析1)向哪个url发送请求2)发送哪些数据3)有哪些特殊的头字段4)返回值长什么样5)示例:我们可以看到签名发送的url,是下面这样的url,它发送的是一个POST的数据,还有一些特殊的头字段,数据体有两个,一个是ck,一个是signature,也就是我们的签名,我们编辑的这个东西。所... 查看原文

  • 学习Python爬虫

    python Requests实例

    用Requests重构豆瓣电影爬虫1)用Requests重构代码2)增加功能:下载每个电影的海报的图片热播电影数据格式:使用Chrome开发者工具查看豆瓣热播电影格式示例:使用Requests重构代码代码如下:# -*- coding: utf-8 -*-import requestsfrom HT... 查看原文

  • 学习Python爬虫

    python正则表达式re模块

    认识正则表达式程序员分两种:(这个分类原则突出了正则表达式的重要性,因为正则表达式不仅仅是在Python里面,在很多语言里面,包括在shell脚本里面都有广泛的应用。所以正则表达式对程序员来讲是个很重要的技能。)1)懂正则表达式2)不懂正则表达式Python里面的正则表达式re1)pattern:匹... 查看原文

  • 学习Python爬虫

    正则表达式matchobject

    MatchObject能匹配到正则表达式时返回re.MatchObjec1)group():返回匹配的组  a.索引0表示全部匹配的字符串  b.索引1开始表示匹配的子组  c.参数可以一个也可以多个  d.命名组# -*- coding: utf-8 -*-import redef re_matc... 查看原文

  • 学习Python爬虫

    python正则表达式通配符

    dot示例:# -*- coding: utf-8 -*-import redef re_pattern_syntax():    # dot    print(re.match(r'.*', 'abc\nedf').group())  //.可以匹配任意的字符,*这个字符可以任意的0到多个   i... 查看原文

  • 学习Python爬虫

    正则表达式之greedy

    greedy:(贪婪)找出html前面的标签<H1># -*- coding: utf-8 -*-import redef re_pattern_syntax():   # greedy    s = '<H1>title</H1>'    print(re.match(r'<.*>', s).gr... 查看原文

  • 学习Python爬虫

    python正则表达式之r

    r表示我的这个正则表达式里面的字符串,在Python里面不再进行转义处理了。举例:# -*- coding: utf-8 -*-import redef re_pattern_syntax():   # 转义字符 \ 用来匹配特殊字符   print(re.search(r'\\', 'The\\ ... 查看原文

  • 课件所属章节:课件
    下载
  • 项目制作资料所属章节:项目制作资料
    下载
  • 课件2所属章节:课件2
    下载
Python Web开发黄永昌

黄永昌

TA的课程

12年开发经验,超过6年的团队管理和培训经验。精通 C/JAVA/Python 语言,从嵌入式到 Android ;从 Django 到数据挖掘,机器学习,具备完整地计算机体系结构知识和丰富的应用开发经验。

更专业的职业课程

Python Web开发24127位同学正在学习

Python Web开发

一名课程顾问想与您沟通

免费电话咨询