巴西足球
Python数据科学与机器学习:从入门到实践
4推荐 收藏
4.5K阅读
图灵程序设计丛书

Python数据科学与机器学习:从入门到实践

【美】弗兰克?凯恩(Frank Kane) (作者) 陈光欣 (译者)
上市销售
寓?#19995;?#38382;题于简单实践,轻松掌握Python数据分析和机器学习技能
本书介绍了使用Python进行数据分析和高效的机器学习,首先从一节Python速成课开始,然后回顾统计学和概率论的基础知识,接着深入讨论与数据挖掘和机器学习相关的60多个主题,包括贝叶斯定理、聚类、决策树、回归分析、实验设计等。

出版信息

  • 书  名Python数据科学与机器学习:从入门到实践
  • 系列书名图灵程序设计丛书
  • 执行编辑关于本书的内容有任何问题,请联系 张海艳
  • 出版?#25484;?/strong>2019-06-12
  • 书  号978-7-115-51241-3
  • 定  价69.00 元
  • 页  数273
  • 印刷方式单色
  • 开  本16开
  • 出版状态上市销售
  • 原书名Data Science and Machine Learning with Python - Hands On!
  • 原书号9781787280748
  • JavaScript高级程序设计(第3版)

    Nicholas C.Zakas   李松峰   曹力   译

    本书是JavaScript超级畅销书的新版。ECMAScript 5 和HTML5在标准之争中双双胜出,使大量...

  • 计算机科学的基础

    Al Aho   Jeff Ullman   傅尔也   译

    本书全面而详?#20613;?#38416;述了计算机科学的理论基础,从抽象概念的机械化到各种数据模型的建立,用算法、数据抽象等核心思想...

  • Java技术手册(第6版)

    Benjamin J Evans   David Flanagan   安道   译

    通过学习本书,你将能够: 掌握最新的语言细节,包括Java 8的变化 使用基本的Java句法学习面向对...

  • 机器学习实战

    Peter Harrington   李锐   李鹏   曲亚东   王斌   译

    机器学习是?#26031;?#26234;能研究领域中一个极其重要的研究方向,在现今的大数据?#36125;?#32972;景下,捕获数据并从中萃取有价值的信息或...

  • 本书特色

    本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地进行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。

    ●清理和准备数据,使其可用于分析
    ●应用Python中流行的聚类和回归方法
    ●使用决策树和随机森林训练高效的机器学习模型
    ●使用Python Matplotlib库对分析结果进行可视化
    ●使用Apache Spark的MLlib包在大型数据库上进行机器学习

    目录

    第 1 章 入门 1
    1.1 安装Enthought Canopy 1
    1.2 使用并理解IPython/Jupyter Notebook 6
    1.3 Python基础——第 一部分 9
    1.4 理解Python代码 11
    1.5 导入模块 13
    1.5.1 数据结构 13
    1.5.2 使用列表 14
    1.5.3 元组 17
    1.5.4 ?#20540;洹?8
    1.6 Python基础——第二部分 20
    1.6.1 Python中的函数 20
    1.6.2 循环 23
    1.6.3 探索活动 24
    1.7 运行Python脚本 24
    1.7.1 运行Python代码的其他方式 25
    1.7.2 在命令行中运行Python脚本 25
    1.7.3 使用Canopy IDE 26
    1.8 小结 28
    第 2 章 统计与概率复习以及Python实现 29
    2.1 数据类型 29
    2.1.1 数值型数据 30
    2.1.2 分类数据 30
    2.1.3 定序数据 31
    2.2 均值、中位数和众数 32
    2.2.1 均值 32
    2.2.2 中位数 33
    2.2.3 众数 34
    2.3 在Python中使用均值、中位数和众数 35
    2.3.1 使用NumPy包计算均值 35
    2.3.2 使用NumPy包计算中位数 36
    2.3.3 使用SciPy包计算众数 37
    2.4 标准差和方差 40
    2.4.1 方差 40
    2.4.2 标准差 42
    2.4.3 总体方差与样本方差 42
    2.4.4 在直方图上分析标准差和方差 44
    2.4.5 使用Python计算标准差和方差 44
    2.4.6 自己动手 45
    2.5 概率密度函数和概率质量函数 45
    2.5.1 概率密度函数 45
    2.5.2 概率质量函数 46
    2.6 各种类型的数据分布 47
    2.6.1 均匀分布 47
    2.6.2 正态分布或高斯分布 48
    2.6.3 指数概率分布与指数定律 50
    2.6.4 二项式概率质量函数 50
    2.6.5 泊松概率质量函数 51
    2.7 百分位数和矩 52
    2.7.1 百分位数 53
    2.7.2 矩 56
    2.8 小结 60
    第 3 章 Matplotlib与概率高级概念 61
    3.1 Matplotlib快速学习 61
    3.1.1 在一张图形上进行多?#20301;?#22270; 62
    3.1.2 将图形保存为文件 63
    3.1.3 调整坐标轴 64
    3.1.4 添加网格 65
    3.1.5 修改线型和颜色 65
    3.1.6 标记坐标轴并添加图例 68
    3.1.7 一个有趣的例?#21360;?9
    3.1.8 生成饼图 70
    3.1.9 生成条形图 71
    3.1.10 生成散点图 72
    3.1.11 生成直方图 72
    3.1.12 生成箱线图 73
    3.1.13 自己动手 74
    3.2 协方差与相关系数 74
    3.2.1 概念定义 75
    3.2.2 相关系数 76
    3.2.3 在Python中计算协方差和相关系数 76
    3.2.4 相关系数练习 80
    3.3 条件概率 80
    3.3.1 Python中的条件概率练习 81
    3.3.2 条件概?#39318;?#19994; 84
    3.3.3 作业答案 85
    3.4 贝叶斯定理 86
    3.5 小结 88
    第 4 章 预测模型 89
    4.1 线性回归 89
    4.1.1 普通最小二乘法 90
    4.1.2 梯度下降法 91
    4.1.3 判定系数或r方 91
    4.1.4 使用Python进行线性回归并计算r方 92
    4.1.5 线性回归练习 94
    4.2 多项式回归 95
    4.2.1 使用NumPy实现多项式回归 96
    4.2.2 计算r方误差 98
    4.2.3 多项式回归练习 98
    4.3 多元回归和汽车价格预测 99
    4.3.1 使用Python进行多元回归 100
    4.3.2 多元回归练习 102
    4.4 多水平模型 102
    4.5 小结 104
    第 5 章 使用Python进行机器学习 105
    5.1 机器学习及训练/测试法 105
    5.1.1 非监督式学习 106
    5.1.2 监督式学习 107
    5.2 使用训练/测试法防止多项式回归中的过拟合 109
    5.3 贝叶斯方法——概念 113
    5.4 使用朴素贝叶斯实现垃圾?#22987;?#20998;类器 115
    5.5 k均值聚类 118
    5.6 基于收入与年龄进行人群聚类 121
    5.7 熵的度量 123
    5.8 决策树——概念 124
    5.8.1 决策树实例 126
    5.8.2 生成决策树 127
    5.8.3 随机森林 127
    5.9 决策树——使用Python预测录用决策 128
    5.9.1 集成学习——使用随机森林 132
    5.9.2 练习 133
    5.10 集成学习 133
    5.11 支持向量机简介 135
    5.12 使用scikit-learn通过SVM进行人?#26412;?#38598; 137
    5.13 小结 140
    第 6 章 推荐系统 141
    6.1 什么是推荐系统 141
    6.2 基于项目的协同过滤 145
    6.3 基于项目的协同过滤是如何工作的 146
    6.4 ?#39029;?#30005;影相似?#21462;?49
    6.5 改善电影相似度结果 155
    6.6 向人们推荐电影 159
    6.7 改善推荐结果 165
    6.8 小结 167
    第 7 章 更多数据挖掘和机器学习技术 168
    7.1 k最近邻的概念 168
    7.2 使用KNN预测电影评分 170
    7.3 数据降维与主成分分析 176
    7.3.1 数据降维 176
    7.3.2 主成分分析 177
    7.4 对鸢尾花数据集的PCA示例 178
    7.5 数据仓库简介 182
    7.6 强化学习 184
    7.6.1 Q-learning 185
    7.6.2 探索问题 186
    7.6.3 时髦名词 186
    7.7 小结 188
    第 8 章 处理真实数据 189
    8.1 偏差-方差权衡 189
    8.2 使用k折交叉验证避免过拟合 192
    8.3 数据清理和标准化 196
    8.4 清理Web日志数据 198
    8.4.1 对Web日志应用正则表达式 198
    8.4.2 修改1——筛选请求字段 200
    8.4.3 修改2——筛选post请求 201
    8.4.4 修改3——检查用户代理 203
    8.4.5 筛选爬虫与机器人 204
    8.4.6 修改4——使用网站专用筛选器 205
    8.4.7 Web日志数据练习 206
    8.5 数值型数据的标准化 207
    8.6 检测异常值 208
    8.6.1 处理异常值 209
    8.6.2 异常值练习 211
    8.7 小结211
    第 9 章 Apache Spark——大数据上的机器学习 212
    9.1 安装Spark 212
    9.1.1 在Windows系统中安装Spark 213
    9.1.2 在其他操作系?#25104;习?#35013;Spark 214
    9.1.3 安装Java Development Kit 214
    9.1.4 安装Spark 217
    9.2 Spark简介 227
    9.2.1 可伸缩 227
    9.2.2 速度快 228
    9.2.3 充满活力 229
    9.2.4 易于使用 229
    9.2.5 Spark组件 229
    9.2.6 在Spark中使用Python还是Scala 230
    9.3 Spark和弹性分布式数据集 231
    9.3.1 SparkContext对象 231
    9.3.2 创建RDD 232
    9.3.3 更多创建RDD的方法 233
    9.3.4 RDD操作 233
    9.4 MLlib简介 235
    9.4.1 MLlib功能 235
    9.4.2 MLlib特殊数据类型 236
    9.5 在Spark中使用MLlib实现决策树 236
    9.6 在Spark中实现k均值聚类 245
    9.7 TF-IDF 250
    9.7.1 TF-IDF实战 250
    9.7.2 使用TF-IDF 251
    9.8 使用Spark MLlib搜索维基百科 251
    9.8.1 导入语句 252
    9.8.2 创建初始RDD 252
    9.8.3 创建并转换HashingTF对象 253
    9.8.4 计算TF-IDF得分 254
    9.8.5 使用维基百科搜索引擎算法 254
    9.8.6 运行算法 255
    9.9 使用Spark 2.0中的MLlib数据框API 255
    9.10 小结 259
    第 10 章 测试与实验设计 260
    10.1 A/B测试的概念 260
    10.1.1 A/B测试 260
    10.1.2 A/B测试的转化效果测量 262
    10.1.3 小心方差 263
    10.2 t检验与p值 263
    10.2.1 t统计量或t检验 264
    10.2.2 p值 264
    10.3 使用Python计算t统计量和p值 265
    10.3.1 使用实验数据进行A/B测试 265
    10.3.2 样本量有关系吗 267
    10.4 确定实验?#20013;?#26102;间 268
    10.5 A/B测试中的陷阱 269
    10.5.1 新奇性效应 270
    10.5.2 季节性效应 271
    10.5.3 选择性偏差 271
    10.5.4 数据污染 272
    10.5.5 归因错误 272
    10.6 小结 273

    作者介绍

    Frank Kane,Sundog Software公司创始人,曾在Amazon和IMDb工作近9年,在分布式计算、数据挖掘和机器学习等领域持有17项专利。

    【译者简介】

    陈光欣,毕业于清华大学并留校工作,主要兴趣为数据分析与数据挖掘。

    大家也喜欢

    • 深入理解Python特性

      [德]达恩·巴德尔(Dan Bader)   孙波翔   译

      本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性,避免重复劳动,同时写出简洁、流畅、易读、...

    • 特征工程入门与实践

      Sinan Ozdemir   Divya Susarla   庄?#38382;?   译

      本书将带你了解特征工程的完整过程,使机器学习更加系统、高效。你会从理解数据开始学习,机器学习模型的成功正是取决...

    • 精通特征工程

      爱丽丝·郑   阿曼达·卡萨丽   陈光欣   译

      本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流?#35752;? 的基本概念,数值型数据的基础...

    • 白话机器学习算法

      ?#35780;?#23159;   苏川集   武传海   译

      与使用数学语言或计算机编程语言讲解算法的书不同,本书另辟蹊径,用通俗易懂的人类语言以及大量有趣的示例和插图讲解...

    • 大话数据分析——Tableau数据可视化实战

      高云龙   孙辰  

      本书讲述了一个现代企业从最初的报表开发模式转向敏捷型分析模式的故事,通篇以对话的?#38382;?#27169;拟职场人员在日常工作中使...

    • 大概什么时候能出版?
      卡萨诺瓦  发表于 2018-05-13 01:23:47
      推荐
      • 6月份上市。

        张海艳  发表于 2019-05-27 11:57:16
    • 有电子书吗?
      Huis  发表于 2019-05-27 22:58:13
      推荐
      • 您好,有电子书。

        张海艳  发表于 2019-05-28 08:35:25
      • @张海艳 有电子版太棒了!

        蹦极高?#32440;?#27931;特  发表于 2019-06-03 10:20:00
      • @张海艳 (摩擦手掌中.....)20190614还没见有。

        MossFlippingGood  发表于 2019-06-14 21:15:45
      • @MossFlippingGood 摩擦手掌中.....)20190615还没见有。

        hanshanjie  发表于 2019-06-15 19:07:29
      • @MossFlippingGood @hanshanjie 再稍等一下,本周应该能上电子版。

        张海艳  发表于 2019-06-17 09:44:04
    • 请?#23454;?#23376;版怎么能买到?
      zhancat200801  发表于 2019-06-14 12:27:40
      推荐
    巴西足球 2012斯图加特赛 马德里竞技英文 第戎队 雷恩体育出售假椰子 福彩快3app 巴列卡诺皇马 下载红警 埃瓦尔德证明布拉格 时时彩开奖结果记录表 黑龙江快乐十分走势