Python Data Science 简明教程
Python Data Science - Pandas
What is Pandas?
熊猫是一个开源 Python 库,用于使用其强大数据结构进行高性能数据处理和数据分析。带有熊猫的 Python 在各种学术和商业领域中都在使用,包括金融、经济、统计学、广告、网络分析等。使用熊猫,我们能够完成数据处理和分析中的五个典型步骤,而不管数据的来源 - 加载、组织、处理、建模和分析数据。
以下是熊猫的一些重要特性,专门用于数据处理和数据分析工作。
Key Features of Pandas
-
使用默认和自定义索引的快速高效的数据框对象。
-
将数据从不同文件格式加载到内存数据对象中的工具。
-
数据对齐和缺失数据的集成处理。
-
重新整形和旋转数据集。
-
基于标签的大数据集的切片、索引和子集。
-
可以删除或插入数据结构的列。
-
按数据分组进行聚合和转换。
-
高性能的数据合并和连接。
-
Time Series functionality.
熊猫处理以下三个数据结构 −
-
Series
-
DataFrame
这些数据结构建立在 Numpy 数组之上,使其快速而高效。
Dimension & Description
思考这些数据结构的最佳方式是,高维数据结构是其低维数据结构的一个容器。例如,数据框是序列的容器,面板是数据框的容器。
Data Structure |
Dimensions |
Description |
Series |
1 |
1D 标记的齐次数组,大小不可变。 |
Data Frames |
2 |
通用 2D 标记,具有可变大小的表格结构,具有潜在的异构类型列。 |
DataFrame 广泛应用,是目前最重要的数据结构。