Python Pandas 简明教程

Introduction to Data Structures

熊猫处理以下三个数据结构 −

  1. Series

  2. DataFrame

  3. Panel

这些数据结构建立在 Numpy 阵列的基础上,也就是说它们很快。

Dimension & Description

思考这些数据结构的最佳方式是,高维数据结构是其低维数据结构的一个容器。例如,数据框是序列的容器,面板是数据框的容器。

Data Structure

Dimensions

Description

Series

1

1D 标记的同类阵列,大小不可变。

Data Frames

2

通用 2D 标记,具有可变大小的表格结构,具有潜在的异构类型列。

Panel

3

常规 3D 标记的、大小可变阵列。

构建和处理两个或多个维度阵列是一项繁琐的任务,在编写函数时考虑数据集的方向负担由用户承担。但是,使用 Pandas 数据结构,用户的脑力负担会减轻。

例如,对于表格数据(DataFrame),考虑 index (行)和 columns 比考虑轴 0 和轴 1 在语义上更有帮助。

Mutability

所有 Pandas 数据结构都是值可变的(可以更改),但除了 Series 之外,其余的大小都是可变的。Series 的大小不可变。

Note − DataFrame 用途广泛,是最重要的数据结构之一。Panel 用途少得多。

Series

Series 是具有齐次数据的一维类似数组的结构。例如,以下系列收集了整数 10、23、56、…

10

23

56

17

52

61

73

90

26

72

Key Points

  1. Homogeneous data

  2. Size Immutable

  3. Values of Data Mutable

DataFrame

DataFrame 是一个具有异构数据的二维数组。例如,

Name

Age

Gender

Rating

Steve

32

Male

3.45

Lia

28

Female

4.6

Vin

45

Male

3.9

Katie

38

Female

2.78

该表表示一个组织的销售团队及其总体绩效评级的表示,数据以行和列表示。每一列表示一个属性,每一行表示一个人。

Data Type of Columns

四列的数据类型如下 −

Column

Type

Name

String

Age

Integer

Gender

String

Rating

Float

Key Points

  1. Heterogeneous data

  2. Size Mutable

  3. Data Mutable

Panel

Panel 是一个具有异类数据的三个维度数据结构。很难以图形方式表示 Panel。但可以将 Panel 阐释为 DataFrame 的容器。

Key Points

  1. Heterogeneous data

  2. Size Mutable

  3. Data Mutable