Python Data Science 简明教程

Data Science Python - Getting Started

What is Data Science ?

数据科学是通过组织、处理和分析数据从庞大且多样化的数据集获取知识和见解的过程。它涉及许多不同的学科,如数学和统计建模、从来源提取数据以及应用数据可视化技术。通常,它还涉及处理大数据技术以收集结构化和非结构化数据。下面我们将看到数据科学得到应用的一些示例场景。

Recommendation systems

随着在线购物变得更加普遍,电子商务平台能够捕捉用户购物偏好以及市场上各种产品的性能。这导致创建推荐系统,这些系统创建模型来预测购物者的需求,并显示购物者最有可能购买的产品。

Financial Risk management

通过使用客户的过去支出习惯、过去的违约、其他财务承诺和许多社会经济指标,可以更好地分析涉及贷款和信贷的金融风险。这些数据以不同格式从各种来源收集。将它们组织在一起并深入了解客户特征需要数据科学的帮助。结果是通过避免坏账来最大程度地减少金融组织的损失。

Improvement in Health Care services

医疗保健行业处理着各种数据,这些数据可归类为技术数据、财务数据、患者信息、药物信息和法律规则。所有这些数据都需要以协调的方式进行分析,以产生既能为医疗保健提供者节省成本,又能为医疗保健接收者提供便利,同时保持法律合规性的见解。

Computer Vision

通过计算机识别图像的进步涉及处理来自同一类别的多个对象的大量图像数据。例如,面部识别。对这些数据集进行建模,并创建算法将该模型应用于更新的图像以获得令人满意的结果。处理这些大量数据集和创建模型需要数据科学中使用的各种工具。

Efficient Management of Energy

随着能源消耗需求的激增,能源生产公司需要更有效地管理能源生产和分配的各个阶段。这涉及优化生产方法、储存和分配机制,以及研究客户的消费模式。将来自所有这些来源的数据联系起来并获得见解似乎是一项艰巨的任务。通过使用数据科学工具,这变得更加容易。

Python in Data Science

数据科学的编程要求需要一门非常通用且灵活的语言,该语言既易于编写代码,又能处理高度复杂的数学处理。 Python 最适合此类要求,因为它已经确立了自己作为通用计算以及科学计算的语言。此外,它正在不断升级,形式是对其针对不同编程要求的众多库的新增。下面我们将讨论 Python 的这些特点,这些特点使其成为数据科学的首选语言。

  1. 一种简单易学的语言,其用比 R 等其他类似语言更少的代码行即可实现结果。它的简单性还使其能够使用最少的代码处理复杂的情况,并且对程序的总体流程造成的困惑要少得多。

  2. 它是跨平台的,所以相同的代码可以在多个环境中工作而无需任何更改。这使其非常适合轻松地用于多环境设置。

  3. 它比用于数据分析的其他类似语言(如 R 和 MATLAB)执行得更快。

  4. 其出色的内存管理功能,尤其是垃圾回收,使其能够灵活地优雅地管理海量的数据转换、切片、切块和可视化。

  5. 最重要的是,Python 拥有大量用作特殊用途分析工具的库。例如——NumPy 包处理科学计算,其数组管理数字数据所需的内存比传统的 Python 列表少得多。此类包的数量也在不断增加。

  6. Python 有一些可以直接使用 Java 或 C 等其他语言代码的软件包。这有助于通过使用其他语言的现有代码来优化代码性能,只要它能够给出更好的结果。

在后续章节中,我们将看到如何利用这些 Python 特性来完成数据科学各个领域的所需所有任务。