精通数据科学:从线性回归到深度学习_唐亘 著_AZW3_MOBI_EPUB_PDF_电子书(无页码)_唐亘 著
内容节选
第2章 Python安装指南与简介:告别空谈If you are immune to boredom, there is literally nothing you cannot accomplish. (如果你能忍耐乏味,你将无往不利。) ——David Foster Wallace 2.1 Python简介 2.2 Python安装 2.3 Python上手实践 2.4 本章小结 本章介绍数据科学中最常用的IT工具:Python以及相关第三方库。本书后面章节的代码示例和模型实现都基于此。正所谓“工欲善其事,必先利其器”,为了更深入地理解数据科学,读者需要确保已安装好所需的IT工具,并基本熟悉其使用方法。 如果读者对此已十分熟悉,可选择跳过本章。虽然如此,作者仍推荐阅读本章。 2.1 Python简介 记得在几年前,数据科学刚刚兴起的时候,我有幸参加了一次行业里的聚会,探讨数据科学的内涵、机会以及难点等。其中有一页PPT给我留下了深刻的印象,如图2-1所示。 图2-1 当时看到后一笑而过,程序员总会强调自己使用的语言是最好的,比如著名的“PHP是世界上最好的语言”。这里用略带戏谑口吻的段子来强调Python语言的重要性,感觉很新颖。但是经过这几年的工作实践,我愈发感到:这虽然是个段子,却在很大程度上真实地描述了数据科学这个行业的工作状态,甚至可以说是直击痛点。 为了更形象地说明这个问题,我们不妨假设我们有个小伙伴叫小安。数学系毕业的她刚刚获得了一份数据科学相关的工作。上班的第一天,她满怀热情而且迫不及待地想接触这个崭新的行业。但是她很快就发现自己面临着一个巨大的困难: 工作所需要处理的数据并不存放在她的个人电脑里,而是都保存在远程服务器上,有的存放在传统的关系型数据库里,有的存放在Hadoop集群上。与个人电脑大多使用的Windows不同,远程服务器上使用的都是类Linux系统[1]。小安很不习惯这种操作系统,因为熟悉的图形化界面不见了。一切操作,比如最简单的读取文件都需要自己编程来实现。因此,小安很想找到一款书写简单、易学易用的编程语言。 更致命的是,小安所熟悉的数据建模软件,比如SPSS、MATLAB等在新的工作环境里都没办法使用了。而小安在平时的工作里会经常用到这些软件提供的一些基础的算法,比如线性回归、逻辑回归等。所以,她希望所找到的编程语言也有可以方便使用的算法库,当然最好是免费的。 小安的日常工作流程大致如图2-2所示。 图2-2 整个过程和小安最爱的乒乓球很像,把假设当成“球”发给数据,再根据数据的“回球”,做出调整,并重复上述的动作。因此,小安又在她的要求里多加了一条:编程语言能随时修改随时使用,不需要编译。最好能有个即时响应的命令窗口,方便她快速验证自己的想法。 经过一番搜索,小安激动地告诉大家,她找到了满足她所有要求的IT工具:Python。下面我们就让小安来给我们介绍一下她的选择。 2.1.1 什么是Python Python(发音:/ˈpaɪθən/ ),是一种面向对象、解释型的计算机程序语言。它的语法简单,并且包含了一组功能完备的标准库,能够轻松完成很多常见的任务[2]。说起Python,它的诞生也颇有意思。1989年的圣诞假期,荷兰程序员Guido van Rossum待在家里,发现自己无所事事。于是为了打发“无聊”的时光,他编写了第一版的Python。 Python的使用范围非常广,根据开源社区GitHub的统计(见图2-3),在近10年它一直是最流行的编程语言之一,比传统的C、C++语言以及Windows系统下十分常用的C#都更为流行。 图2-3 小安在使用Python一段时间后,觉得它是一个专门为非专业程序员设计的编程语言。 它的语法结构十分简洁,鼓励大家尽量写容易看明白的代码,尽量写少的代码。 从功能方面来说,Python有大量的标准库和第三方库。小安在这些已有程序的基础上开发自己的应用,能事半功倍,加快开发进度。 更方便的是,Python可以跨平台运行。比如小安常在自己熟悉的Windows系统下面编写Python代码,然后将开发好的程序部署到Linux系统的服务器上。 总结起来就一句话:好学而且好用。 2.1.2 Python在数据科学中的地位 在掌握Python这门编程语言后,小安可以做很多有趣的事情:比如编写网络爬虫程序、从互联网上收集所需要的数据、开发任务调度系统、定时更新模型等。当然作为数据科学工作者的小安,她最常用Python做下面这4件事情,如图2-4所示。 图2-4 数据清洗:在得到原始数据后,小安首先会对这些数据做初步处理,比如统一字符串的大小写、将明显错误的数据做更正等。这也就是所谓的将“脏”数据“清洗干净”,使数据更适合做分析。小安借助Python以及它的第三方库pa......
- 信息
- 内容提要
- 序一
- 序二
- 序三
- 前言
- 资源与支持
- 第1章 数据科学概述
- 第2章 Python安装指南与简介:告别空谈
- 第3章 数学基础:恼人但又不可或缺的知识
- 第4章 线性回归:模型之母
- 第5章 逻辑回归:隐藏因子
- 第6章 工程实现:计算机是怎么算的
- 第7章 计量经济学的启示:他山之石
- 第8章 监督式学习:目标明确
- 第9章 生成式模型:量化信息的价值
- 第10章 非监督式学习:聚类与降维
- 第11章 分布式机器学习:集体力量
- 第12章 神经网络:模拟人的大脑
- 第13章 深度学习:继续探索