Python Data Science 简明教程

Python Data Science - Pandas

What is Pandas?

熊猫是一个开源 Python 库,用于使用其强大数据结构进行高性能数据处理和数据分析。带有熊猫的 Python 在各种学术和商业领域中都在使用,包括金融、经济、统计学、广告、网络分析等。使用熊猫,我们能够完成数据处理和分析中的五个典型步骤,而不管数据的来源 - 加载、组织、处理、建模和分析数据。

以下是熊猫的一些重要特性,专门用于数据处理和数据分析工作。

Key Features of Pandas

  1. 使用默认和自定义索引的快速高效的数据框对象。

  2. 将数据从不同文件格式加载到内存数据对象中的工具。

  3. 数据对齐和缺失数据的集成处理。

  4. 重新整形和旋转数据集。

  5. 基于标签的大数据集的切片、索引和子集。

  6. 可以删除或插入数据结构的列。

  7. 按数据分组进行聚合和转换。

  8. 高性能的数据合并和连接。

  9. Time Series functionality.

熊猫处理以下三个数据结构 −

  1. Series

  2. DataFrame

这些数据结构建立在 Numpy 数组之上,使其快速而高效。

Dimension & Description

思考这些数据结构的最佳方式是,高维数据结构是其低维数据结构的一个容器。例如,数据框是序列的容器,面板是数据框的容器。

Data Structure

Dimensions

Description

Series

1

1D 标记的齐次数组,大小不可变。

Data Frames

2

通用 2D 标记,具有可变大小的表格结构,具有潜在的异构类型列。

DataFrame 广泛应用,是目前最重要的数据结构。

Series

Series 是具有齐次数据的一维类似数组的结构。例如,以下系列收集了整数 10、23、56、…

10

23

56

17

52

61

73

90

26

72

Key Points of Series

  1. Homogeneous data

  2. Size Immutable

  3. Values of Data Mutable

DataFrame

DataFrame 是一个具有异构数据的二维数组。例如,

Name

Age

Gender

Rating

Steve

32

Male

3.45

Lia

28

Female

4.6

Vin

45

Male

3.9

Katie

38

Female

2.78

该表表示一个组织的销售团队及其总体绩效评级的表示,数据以行和列表示。每一列表示一个属性,每一行表示一个人。

Data Type of Columns

四列的数据类型如下 −

Column

Type

Name

String

Age

Integer

Gender

String

Rating

Float

Key Points of Data Frame

  1. Heterogeneous data

  2. Size Mutable

  3. Data Mutable

我们将在下一章中看到大量有关在数据科学工作中使用 python 的 pandas 库的示例。