巴西足球
Python 3网络爬虫开发实战
28推荐 收藏
53.3K阅读
图灵原创

Python 3网络爬虫开发实战

崔庆才 (作者)
上市销售
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布?#21462;?/p>

PS:?#19981;?#22312;图灵社区电报频道更新

出版信息

  • 书  名Python 3网络爬虫开发实战
  • 系列书名图灵原创
  • 执行编辑关于本书的内容有任何问题,请联系 王军花
  • 出版日期2018-04-16
  • 书  号978-7-115-48034-7
  • 定  价99.00 元
  • ?#22330; ?#25968;594
  • 印刷方式单色
  • 开  本16开
  • 出版状态上市销售

所属分类

同系列书

  • Linux就是这个范儿

    赵鑫磊   Jie Zhang(张洁)  

    本书内容源自?#21592;?#25216;术大学的培训实战。由来自阿里巴?#22270;?#22242;的资深Linux系统专家赵鑫磊和同样来自阿里巴?#22270;?#22242;的支...

  • Go语?#21592;?#31243;

    本书以介绍Go语言特性为主,示例则尽量采用作者开发团队平常的实践,内容涉及内存管理(堆和栈)、错误处理、OOP...

  • 一个64位操作系统的设计与实现

    田宇  

    本书讲述了一个64位多核操作系统的自制过程。此操作系统自制过程是先?#26377;?#25311;平台构筑起一个基础框架,随后再将基础框...

  • 翻译漫谈——怎样翻译更地道

    余晟  

    翻译是一门非常强调实践并依赖练习的手?#26632;睿?#36825;本书是作者从翻译“票友”出发,走“野路”逐渐成长为翻译“熟手”的经...

  • 推荐系统实践

    项亮   陈义   王益  

    本书从数据出发,一?#35762;?#22320;介绍在得到什么数据的时候可以设计怎样的推荐系?#22330;?#38754;向广大的推荐系统开发人员,以实战为基...

本书特色

案例丰富,注重实战
博客文章过百万的静觅大神力作
全面介绍了数据采集、数据存储、动态网站爬取、App爬取、验证码?#24179;狻?#27169;拟登录、代理使用、爬虫框架、分布式爬取等知识
涉及的库或工具:urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、Bloom Filter、Gerapy等

目录

序 一 阅读
序 二 阅读
前 言 阅读
第1章 开发环境配置
第2章 爬虫基础 阅读
第3章 基本库的使用
第4章 解析库的使用
第5章 数据存储
第6章 Ajax数据爬取
第7章 动态渲染页面爬取
第8章 验证码的识别
第9章 代理的使用
第10章 模拟登录 
第11章 App的爬取
第12章 pyspider框架的使用
第13章 Scrapy框架的使用
第14章 分布式爬虫
第15章 分布式爬虫的部署

作者介绍

崔庆才,?#26412;?#33322;空航天大学硕士,静觅博客(https://cuiqingcai.com/)博主,爬虫博文访问量已过百万,?#19981;?#38075;研,热爱生活,乐于分享。?#38431;?#20851;注个人微信公众号“进击的Coder”。

大家也?#19981;?/h4>

  • Python数据科学与机器学习:从入门到实践

    【美】弗兰克?凯恩(Frank Kane)   陈光欣   译

    本书介绍了使用Python进行数据分析和高效的机器学习,首先从一节Python速成课开始,然后回顾统计学和概率...

  • 深入理解Python特性

    [德]达恩·巴德尔(Dan Bader)   孙波翔   译

    本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性,避免重复劳动,同时写出简洁、流畅、易读、...

  • 精通特征工程

    爱丽丝·郑   阿曼达·卡萨丽   陈光欣   译

    本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流程中 的基本概念,数值型数据的基础...

  • 本书?#28304;?#38646;开发一个博客系统为例,介绍Django在日常工作中的应用。 本书共分为四部分。第一部分介绍编码之前...

  • 本书旨在介绍开源的Python算法库和数学工具包SciPy。近年来,基于NumPy和SciPy的完整生态系统迅...

    • 没电子版
      置顶 崔庆才  发表于 2018-03-12 15:50:13
      推荐
      • 请问为什么没有电子版呢,海外党没办法拿到实体书

        Jason_zhou  发表于 2018-04-13 23:30:26
      • 第11章里,在mac下使用brew install mitmproxy后,其python解析器用的不是常用的anaconda或者系统的python,那么有办法更换其python解析器或者如何安装mitmproxy对应的python版本的模块?比如想在mitmproxy的脚本中使用pymongo,如何安装其pymongo包

        凡星  发表于 2018-05-10 18:00:30
      • 最后发现应该在一个虚拟环境下安装比较合适:
        conda env list
        conda create --name mitmproxy python=3.5
        source activate mitmproxy
        pip install mitmproxy==2
        pip install pymongo

        目前好像pymongo与mitmproxy3有冲突

        凡星  发表于 2018-05-11 09:09:49
      • @Jason_zhou 应?#27809;?#26159;为了保护版权吧

        那句诺言  发表于 2018-05-17 09:17:04
      • 第217页中的表5-3中 $in 和 $nin 你写的含义是“在范围内”,"不在范围内"。我觉得应该把这两个含义改为“包含?#20445;?#19981;包含"

        小牛头  发表于 2018-08-10 10:11:56
      • @Jason_zhou 电子版容易被盗版

        自由之翼ncl  发表于 2018-09-07 22:59:03
    • 书中不少内容已经过期了,估计作者只是拿以前的项目加到了书中。
      1. Selenium 爬?#21592;Γ?#27809;有考虑搜索结果展示方式——大图样式或者是条目样式,对应的展示方式不同,样式也有变。而示例中搜索关键字 iPad 默认不再是大图模式展示搜索结果,而改为了条目模式。
      2. 对于 8.3 节中的点触验证码识别表示怀疑。主要原因是所给示例中的验证码相对简单,目前所见的验证码不仅有背景图片,关键是图片中的?#26088;?#20837;了干扰——字体倾斜、扭曲。
      3. 第 9.2 节代理池维护,要抓取的3个公共代理网站有2个失效,第2个网站早就关了,第3个现在做成了付费模式。
      4. 书名《Python 3网络爬虫开发实战》名?#29615;?#23454;,到第9章为止,能算的上实战的只有?#22909;?#30524;电影排行,Ajax爬今日头条,Selenium爬?#21592;?#21830;品,代理爬取微信公众号。至于利用Regex分析网页,这个真算不上实战,没有人用urllib获取网页,同样也没人用re解析页面结构。验证码识别其实讲的不错,《Python网络数据采集》一书就是这部分讲的浅而且不接地气儿。本书后半部分还有可能4、5个实战项目。

      至于本书后半部分,由于没有读完,不好做评论。我想这本书主要问题是前边基础太多了,基础占比太大,有辱实战之名。前边开发环境配置和爬虫基础,另外数据库介绍部分等等也都是基础,尤其是 5.3.2 Redis 存储完全就是在贴文档。或许我读得技术书不算多,但我理解的实战就是类似于《Bootstrap实战》,每一章自开头到结尾就是一个项目的开发过程;至于Boostrap是什么,基本语法怎么用,根本没有这些,全书都是Bootstrap应用和定制化。
      从内容范围上看,基本该说的都说了,范围要远大于爬虫新手书《Python网络数据采集》。本书更类似于《Python编程:从入门到实践》这样,从基础到项目的教学。
      laggard  发表于 2018-08-20 01:54:53
      推荐
    • 请?#23454;?#23376;版?#26032;穡?
      杰克琼斯  发表于 2018-03-01 13:22:18
      推荐
    • (?????)っ 需要电子版哦
      Bence Zhu  发表于 2018-04-14 19:09:31
      推荐
    • ?#23478;?#32463;2018年了,没有电子版真说不过去。
      isLishude  发表于 2018-04-15 13:56:54
      推荐
    • 出个电子版吧。。。
      LokiSharp  发表于 2018-04-17 09:22:55
      推荐
    • 我就要电子版!书都是电子版,不然不好搬。。。
      学好IT吊打小学僧  发表于 2018-07-17 10:18:52
      推荐
    • 都8012年了,没有电子版说不过去呀
      学好IT吊打小学僧  发表于 2018-08-27 18:42:05
      推荐
    • lxml安装后无法import到etree模块
      查了后才发现我用 的是3.7版本的python
      其实虽然网上说的是python 3.5之后的lxml中不再有etree,但是其实这种说法是有问题的,虽然新版本无法直接from lxml import etree这样,但是它只不过是换了一个办法引出etree模块而已!??正确的引用方法是:

      from lxml import html
      text=```xxx```//测试的html文本
      etree = html.etree
      htmlDiv = etree.HTML(text)
      title = htmls.xpath("//meta[1]/@content")
      print(title)
      1
      2
      3
      4
      5
      6

      shaoyan  发表于 2019-01-08 09:26:24
      推荐
    • 在mysql关系型数据存储章节中,插入数据前要使用cursor.execute(‘use 数据库名’)语句吧数据库加载,不然会报错,无法找到数据库,这个没有用过数据库的人估计一头雾水
      shaoyan  发表于 2019-01-08 09:33:36
      推荐
    • 作者作为一个北航研三(2019年毕业)的大佬,不得不说真是我辈之楷模,尤其是暑假期间去微软亚?#24615;?#23567;冰组实习,获得了?#31508;?#30340;院长的极力推荐,前?#25913;?#30475;过他的博客,可谓是一步一个脚印,?#30001;?#19996;大学计算机?#24403;?#30740;到北航计算机系,师从现今最热门的深度学习方向,在今年这种悲惨的计算机汪洋大海中,作者依然能够迎风破浪,走向人生巅峰,不得不说,像大佬这样的人物,实在是应该好好向他学习,学习!
      ?#20040;?#30721;的小哥  发表于 2019-03-13 20:23:55
      推荐
    • 你好 第一个问题是 在github网站上 标题都对应不了相关的章节,如何找到代码????
      第二个问题是 phantomjs 已经停止开发, 用什?#21019;?#26367;比较好????
      AronWater  发表于 2018-09-16 17:10:45
      推荐
      • 无头Chrome (Chrome Headless)

        列公子  发表于 2019-02-28 17:57:32
    • selenium停止了对phantomjs的支持
      CarreyKing  发表于 2018-11-04 13:29:42
      推荐
    • 这本书真的是水,小白可以看看,有点编程经验的人不要看了。
      就Scrapy这一章来说,写的跟官方文档一模一样,https://scrapy-chs.readthedocs.io/zh_CN,其实每个模块,例如pyQuery,BQ,等都是官方文档的简单copy。
      hanshanjie  发表于 2019-02-22 15:08:08
      推荐
    • windows下mitmdunmp无法导入pymongo模块,好像其他的模块都不能导入,怎么解决?
      ps:win10,python3.7(anaconda),mitmdump4.04
      蒙奇D路飞  发表于 2019-05-11 21:44:25
      推荐
    巴西足球 雷恩·凯利 足球拉霸送彩金 腾讯五分彩合法吗 河南麻将官网 新疆11选5遗漏 优乐江西麻将下载安装 英雄杀卡牌 广西11选5开奖5结果 财神捕鱼外挂 川崎前锋对蔚山现代