pandas有哪些核心使用方法？

关于问题pandas 有哪些核心使用方法？一共有 2 位热心网友为你解答:

【1】、来自网友【我是数学天才】的最佳回答：

▲本文二级目录

01 关于 pandas

pandas，Python+data+analysis 的组合缩写，是 Python 中基于 Numpy 和 Matplotlib 的第三方数据分析库，与后两者共同构成了 Python 数据分析的基础工具包，享有数分三剑客之名。

正因为 pandas 是在 Numpy 基础上实现，其核心数据结构与 Numpy 的 ndarray 十分相似，但 pandas 与 Numpy 的关系不是替代，而是互为补充。二者之间主要区别是：

从数据结构上看：

Numpy 的核心数据结构是 ndarray，支持任意维数的数组，但要求单个数组内所有数据是同质的，即类型必须相同；而 pandas 的核心数据结构是 series 和 dataframe，仅支持一维和二维数据，但数据内部可以是异构数据，仅要求同列数据类型一致即可

Numpy 的数据结构仅支持数字索引，而 pandas 数据结构则同时支持数字索引和标签索引

从功能定位上看：

Numpy 虽然也支持字符串等其他数据类型，但仍然主要是用于数值计算，尤其是内部集成了大量矩阵计算模块，例如基本的矩阵运算、线性代数、fft、生成随机数等，支持灵活的广播机制
pandas 主要用于数据处理与分析，支持包括数据读写、数值计算、数据处理、数据分析和数据可视化全套流程操作

pandas 主要面向数据处理与分析，主要具有以下功能特色：

按索引匹配的广播机制，这里的广播机制与 Numpy 广播机制还有很大不同
便捷的数据读写操作，相比于 Numpy 仅支持数字索引，pandas 的两种数据结构均支持标签索引，包括 bool 索引也是支持的
类比 SQL 的 join 和 groupby 功能，pandas 可以很容易实现 SQL 这两个核心功能，实际上，SQL 的绝大部分 DQL 和 DML 操作在 pandas 中都可以实现
类比 Excel 的数据透视表功能，Excel 中最为强大的数据分析工具之一是数据透视表，这在 pandas 中也可轻松实现
自带正则表达式的字符串向量化操作，对 pandas 中的一列字符串进行通函数操作，而且自带正则表达式的大部分接口
丰富的时间序列向量化处理接口
常用的数据分析与统计功能，包括基本统计量、分组统计分析等
集成 Matplotlib 的常用可视化接口，无论是 series 还是 dataframe，均支持面向对象的绘图接口

正是由于具有这些强大的数据分析与处理能力，pandas 还有数据处理中”瑞士军刀”的美名。

02 数据结构

pandas 核心数据结构有两种，即一维的 series 和二维的 dataframe，二者可以分别看做是在 Numpy 一维数组和二维数组的基础上增加了相应的标签信息。正因如此，可以从两个角度理解 series 和 dataframe：

series 和 dataframe 分别是一维和二维数组，因为是数组，所以 Numpy 中关于数组的用法基本可以直接应用到这两个数据结构，包括数据创建、切片访问、通函数、广播机制等
series 是带标签的一维数组，所以还可以看做是类字典结构：标签是 key，取值是 value；而 dataframe 则可以看做是嵌套字典结构，其中列名是 key，每一列的 series 是 value。所以从这个角度讲，pandas 数据创建的一种灵活方式就是通过字典或者嵌套字典，同时也自然衍生出了适用于 series 和 dataframe 的类似字典访问的接口，即通过 loc 索引访问。

注意，这里强调 series 和 dataframe 是一个类字典结构而非真正意义上的字典，原因在于 series 中允许标签名重复、dataframe 中则允许列名和标签名均有重复，而这是一个真正字典所不允许的。

考虑 series 和 dataframe 兼具 Numpy 数组和字典的特性，那么就不难理解二者的以下属性：

ndim/shape/dtypes/size/T，分别表示了数据的维数、形状、数据类型和元素个数以及转置结果。其中，由于 pandas 允许数据类型是异构的，各列之间可能含有多种不同的数据类型，所以 dtype 取其复数形式 dtypes。与此同时，series 因为只有一列，所以数据类型自然也就只有一种，pandas 为了兼容二者，series 的数据类型属性既可以用 dtype 也可以用 dtypes 获取；而 dataframe 则只能用 dtypes。
index/columns/values，分别对应了行标签、列标签和数据，其中数据就是一个格式向上兼容所有列数据类型的 array。为了沿袭字典中的访问习惯，还可以用 keys()访问标签信息，在 series 返回 index 标签，在 dataframe 中则返回 columns 列名；可以用 items()访问键值对，但一般用处不大。

这里提到了 index 和 columns 分别代表行标签和列标签，就不得不提到 pandas 中的另一个数据结构：Index，例如 series 中标签列、dataframe 中行标签和列标签均属于这种数据结构。

既然是数据结构，就必然有数据类型 dtype 属性，例如数值型、字符串型或时间类型等，其类型绝大多数场合并不是我们关注的主体，但有些时候值得注意，如后文中提到的通过[ ]执行标签切片访问行的过程。

此外，index 数据结构还有名字属性 name（默认为 None）、形状属性 shape 等。

关于 series 和 dataframe 数据结构本身，有大量的方法可用于重构结构信息：

rename，可以对标签名重命名，也可以重置 index 和 columns 的部分标签列信息，接收标量（用于对标签名重命名）或字典（用于重命名行标签和列标签）
reindex，接收一个新的序列与已有标签列匹配，当原标签列中不存在相应信息时，填充 NAN 或者可选的填充值
set_index/reset_index，互为逆操作，前者是将已有的一列信息设置为标签列，而后者是将原标签列归为数据，并重置为默认数字标签
set_axis，设置标签列，一次只能设置一列信息，与 rename 功能相近，但接收参数为一个序列更改全部标签列信息（rename 中是接收字典，允许只更改部分信息）
rename_axis，重命名标签名，rename 中也可实现相同功能

在 pandas 早些版本中，除一维数据结构 series 和二维数据结构 dataframe 外，还支持三维数据结构 panel。这三者是构成递进包容关系，panel 即是 dataframe 的容器，用于存储多个 dataframe。

2019 年 7 月，随着 pandas 0.25 版本的推出，pandas 团队宣布正式弃用 panel 数据结构，而相应功能建议由多层索引实现。

也正因为 pandas 这 3 种独特的数据结构，个人一度认为 pandas 包名解释为：pandas = panel + dataframe + series，根据维数取相应的首字母个数，从而构成 pandas，这是个人非常喜欢的一种关于 pandas 缩写的解释。

03 数据读写

pandas 支持大部分的主流文件格式进行数据读写，常用格式及接口为：

文本文件，主要包括 csv 和 txt 两种等，相应接口为 read_csv()和 to_csv()，分别用于读写数据
Excel 文件，包括 xls 和 xlsx 两种格式均得到支持，底层是调用了 xlwt 和 xlrd 进行 excel 文件操作，相应接口为 read_excel()和 to_excel()
SQL 文件，支持大部分主流关系型数据库，例如 MySQL，需要相应的数据库模块支持，相应接口为 read_sql()和 to_sql()

此外，pandas 还支持 html、json 等文件格式的读写操作。

04 数据访问

series 和 dataframe 兼具 Numpy 数组和字典的结构特性，所以数据访问都是从这两方面入手。同时，也支持 bool 索引进行数据访问和筛选。

[ ]，这是一个非常便捷的访问方式，不过需区分 series 和 dataframe 两种数据结构理解：

series：既可以用标签也可以用数字索引访问单个元素，还可以用相应的切片访问多个值，因为只有一维信息，自然毫无悬念
dataframe：无法访问单个元素，只能返回一列、多列或多行：单值或多值（多个列名组成的列表）访问时按列进行查询，单值访问不存在列名歧义时还可直接用属性符号” . “访问。切片形式访问时按行进行查询，又区分数字切片和标签切片两种情况：当输入数字索引切片时，类似于普通列表切片；当输入标签切片时，执行范围查询（即无需切片首末值存在于标签列中），包含两端标签结果，无匹配行时返回为空，但要求标签切片类型与索引类型一致。例如，当标签列类型（可通过 df.index.dtype 查看）为时间类型时，若使用无法隐式转换为时间的字符串作为索引切片，则引发报错

▲切片形式返回行查询，且为范围查询

▲切片类型与索引列类型不一致时，引发报错

loc/iloc，最为常用的两种数据访问方法，其中 loc 按标签值访问、iloc 按数字索引访问，均支持单值访问或切片查询。与[ ]访问类似，loc 按标签访问时也是执行范围查询，包含两端结果
at/iat，loc 和 iloc 的特殊形式，不支持切片访问，仅可以用单个标签值或单个索引值进行访问，一般返回标量结果，除非标签值存在重复
isin/notin，条件范围查询，即根据特定列值是否存在于指定列表返回相应的结果
where，仍然是执行条件查询，但会返回全部结果，只是将不满足匹配条件的结果赋值为 NaN 或其他指定值，可用于筛选或屏蔽值

query，按列对 dataframe 执行条件查询，一般可用常规的条件查询替代

get，由于 series 和 dataframe 均可以看做是类字典结构，所以也可使用字典中的 get()方法，主要适用于不确定数据结构中是否包含该标签时，与字典的 get 方法完全一致

lookup，loc 的一种特殊形式，分别传入一组行标签和列标签，lookup 解析成一组行列坐标，返回相应结果：

pandas 中支持大量的数据访问接口，但万变不离其宗：只要联想两种数据结构兼具 Numpy 数组和字典的双重特性，就不难理解这些数据访问的逻辑原理。当然，重点还是掌握[]、loc 和 iloc 三种方法。

loc 和 iloc 应该理解为是 series 和 dataframe 的属性而非函数，应用 loc 和 iloc 进行数据访问就是根据属性值访问的过程。

另外，在 pandas 早些版本中，还存在 loc 和 iloc 的兼容结构，即 ix，可混合使用标签和数字索引，但往往容易混乱，所以现已弃用。

05 数据处理

pandas 最为强大的功能当然是数据处理和分析，可独立完成数据分析前的绝大部分数据预处理需求。简单归纳来看，主要可分为以下几个方面：

1. 数据清洗

数据处理中的清洗工作主要包括对空值、重复值和异常值的处理：

空值

判断空值，isna 或 isnull，二者等价，用于判断一个 series 或 dataframe 各元素值是否为空的 bool 结果。需注意对空值的界定：即 None 或 numpy.nan 才算空值，而空字符串、空列表等则不属于空值；类似地，notna 和 notnull 则用于判断是否非空
填充空值，fillna，按一定策略对空值进行填充，如常数填充、向前/向后填充等，也可通过 inplace 参数确定是否本地更改
删除空值，dropna，删除存在空值的整行或整列，可通过 axis 设置，也包括 inplace 参数

重复值

检测重复值，duplicated，检测各行是否重复，返回一个行索引的 bool 结果，可通过 keep 参数设置保留第一行/最后一行/无保留，例如 keep=first 意味着在存在重复的多行时，首行被认为是合法的而可以保留
删除重复值，drop_duplicates，按行检测并删除重复的记录，也可通过 keep 参数设置保留项。由于该方法默认是按行进行检测，如果存在某个需要需要按列删除，则可以先转置再执行该方法

异常值，判断异常值的标准依赖具体分析数据，所以这里仅给出两种处理异常值的可选方法

删除，drop，接受参数在特定轴线执行删除一条或多条记录，可通过 axis 参数设置是按行删除还是按列删除
替换，replace，非常强大的功能，对 series 或 dataframe 中每个元素执行按条件替换操作，还可开启正则表达式功能

2. 数值计算

由于 pandas 是在 Numpy 的基础上实现的，所以 Numpy 的常用数值计算操作在 pandas 中也适用：

通函数 ufunc，即可以像操作标量一样对 series 或 dataframe 中的所有元素执行同一操作，这与 Numpy 的特性是一致的，例如前文提到的 replace 函数，本质上可算作是通函数。如下实现对数据表中逐元素求平方

广播机制，即当维度或形状不匹配时，会按一定条件广播后计算。由于 pandas 是带标签的数组，所以在广播过程中会自动按标签匹配进行广播，而非类似 Numpy 那种纯粹按顺序进行广播。例如，如下示例中执行一个 dataframe 和 series 相乘，虽然二者维度不等、大小不等、标签顺序也不一致，但仍能按标签匹配得到预期结果

字符串向量化，即对于数据类型为字符串格式的一列执行向量化的字符串操作，本质上是调用 series.str 属性的系列接口，完成相应的字符串操作。尤为强大的是，除了常用的字符串操作方法，str 属性接口中还集成了正则表达式的大部分功能，这使得 pandas 在处理字符串列时，兼具高效和强力。例如如下代码可用于统计每个句子中单词的个数

需注意的是，这里的字符串接口与 Python 中普通字符串的接口形式上很是相近，但二者是不一样的。

时间类型向量化操作，如字符串一样，在 pandas 中另一个得到”优待”的数据类型是时间类型，正如字符串列可用 str 属性调用字符串接口一样，时间类型列可用 dt 属性调用相应接口，这在处理时间类型时会十分有效。

3. 数据转换

前文提到，在处理特定值时可用 replace 对每个元素执行相同的操作，然而 replace 一般仅能用于简单的替换操作，所以 pandas 还提供了更为强大的数据转换方法

map，适用于 series 对象，功能与 Python 中的普通 map 函数类似，即对给定序列中的每个值执行相同的映射操作，不同的是 series 中的 map 接口的映射方式既可以是一个函数，也可以是一个字典

apply，既适用于 series 对象也适用于 dataframe 对象，但对二者处理的粒度是不一样的：apply 应用于 series 时是逐元素执行函数操作；apply 应用于 dataframe 时是逐行或者逐列执行函数操作（通过 axis 参数设置对行还是对列，默认是行），仅接收函数作为参数

applymap，仅适用于 dataframe 对象，且是对 dataframe 中的每个元素执行函数操作，从这个角度讲，与 replace 类似，applymap 可看作是 dataframe 对象的通函数。

4. 合并与拼接

pandas 中又一个重量级数据处理功能是对多个 dataframe 进行合并与拼接，对应 SQL 中两个非常重要的操作：union 和 join。pandas 完成这两个功能主要依赖以下函数：

concat，与 Numpy 中的 concatenate 类似，但功能更为强大，可通过一个 axis 参数设置是横向或者拼接，要求非拼接轴向标签唯一（例如沿着行进行拼接时，要求每个 df 内部列名是唯一的，但两个 df 间可以重复，毕竟有相同列才有拼接的实际意义）
merge，完全类似于 SQL 中的 join 语法，仅支持横向拼接，通过设置连接字段，实现对同一记录的不同列信息连接，支持 inner、left、right 和 outer4 种连接方式，但只能实现 SQL 中的等值连接
join，语法和功能与 merge 一致，不同的是 merge 既可以用 pandas 接口调用，也可以用 dataframe 对象接口调用，而 join 则只适用于 dataframe 对象接口
append，concat 执行 axis=0 时的一个简化接口，类似列表的 append 函数一样

实际上，concat 通过设置 axis=1 也可实现与 merge 类似的效果，二者的区别在于：merge 允许连接字段重复，类似一对多或者多对一连接，此时将产生笛卡尔积结果；而 concat 则不允许重复，仅能一对一拼接。

▲建表语句

▲通过设置参数，concat 和 merge 实现相同效果

06 数据分析

pandas 中的另一大类功能是数据分析，通过丰富的接口，可实现大量的统计需求，包括 Excel 和 SQL 中的大部分分析过程，在 pandas 中均可以实现。

1. 基本统计量

pandas 内置了丰富的统计接口，这是与 Numpy 是一致的，同时又包括一些常用统计信息的集成接口。

info，展示行标签、列标签、以及各列基本信息，包括元素个数和非空个数及数据类型等
head/tail，从头/尾抽样指定条数记录
describe，展示数据的基本统计指标，包括计数、均值、方差、4 分位数等，还可接收一个百分位参数列表展示更多信息

count、value_counts，前者既适用于 series 也适用于 dataframe，用于按列统计个数，实现忽略空值后的计数；而 value_counts 则仅适用于 series，执行分组统计，并默认按频数高低执行降序排列，在统计分析中很有用

unique、nunique，也是仅适用于 series 对象，统计唯一值信息，前者返回唯一值结果列表，后者返回唯一值个数(number of unique）

sort_index、sort_values，既适用于 series 也适用于 dataframe，sort_index 是对标签列执行排序，如果是 dataframe 可通过 axis 参数设置是对行标签还是列标签执行排序；sort_values 是按值排序，如果是 dataframe 对象，也可通过 axis 参数设置排序方向是行还是列，同时根据 by 参数传入指定的行或者列，可传入多行或多列并分别设置升序降序参数，非常灵活。另外，在标签列已经命名的情况下，sort_values 可通过 by 标签名实现与 sort_index 相同的效果。

2. 分组聚合

pandas 的另一个强大的数据分析功能是分组聚合以及数据透视表，前者堪比 SQL 中的 groupby，后者媲美 Excel 中的数据透视表。

groupby，类比 SQL 中的 group by 功能，即按某一列或多列执行分组。一般而言，分组的目的是为了后续的聚合统计，所有 groupby 函数一般不单独使用，而需要级联其他聚合函数共同完成特定需求，例如分组求和、分组求均值等。

▲pandas 官网关于 groupby 过程的解释

级联其他聚合函数的方式一般有两种：单一的聚合需求用 groupby+聚合函数即可，复杂的大量聚合则可借用 agg 函数，agg 函数接受多种参数形式作为聚合函数，功能更为强大。

▲两种分组聚合形式

pivot，pivot 英文有”支点”或者”旋转”的意思，排序算法中经典的快速排序就是不断根据 pivot 不断将数据二分，从而加速排序过程。用在这里，实际上就是执行行列重整。例如，以某列取值为重整后行标签，以另一列取值作为重整后的列标签，以其他列取值作为填充 value，即实现了数据表的行列重整。以 SQL 中经典的学生成绩表为例，给定原始学生—课程—成绩表，需重整为学生 vs 课程的成绩表，则可应用 pivot 实现：

另外，还有一对函数也常用于数据重整，即 stack 和 unstack，其中 unstack 执行效果与 pivot 非常类似，而 stack 则是 unstack 的逆过程。

pivot_table，有了 pivot 就不难理解 pivot_table，实际上它是在前者的基础上增加了聚合的过程，类似于 Excel 中的数据透视表功能。仍然考虑前述学生成绩表的例子，但是再增加一列班级信息，需求是统计各班级每门课程的平均分。由于此时各班的每门课成绩信息不唯一，所以直接用 pivot 进行重整会报错，此时即需要对各班各门课程成绩进行聚合后重整，比如取平均分。

07 数据可视化

pandas 集成了 Matplotlib 中的常用可视化图形接口，可通过 series 和 dataframe 两种数据结构面向对象的接口方式简单调用。

两种数据结构作图，区别仅在于 series 是绘制单个图形，而 dataframe 则是绘制一组图形，且在 dataframe 绘图结果中以列名为标签自动添加 legend。另外，均支持两种形式的绘图接口：

plot 属性+相应绘图接口，如 plot.bar()用于绘制条形图
plot()方法并通过传入 kind 参数选择相应绘图类型，如 plot(kind=‘bar‘)

不过，pandas 绘图中仅集成了常用的图表接口，更多复杂的绘图需求往往还需依赖 Matplotlib 或者其他可视化库。

【2】、来自网友【外星人玩 Python】的最佳回答：

看到很多答非所问或者列出一大堆具体方法。本质上大多的核心使用都是围绕着

DataFrame 进行。

我来说说以下要点(下文用 df 表示 DataFrame)：

1. 筛选

处理数据最经常做的就是过滤筛选数据，因此怎么对 df 做过滤筛选就很重要。

loc , iloc , xs :这 3 个方法必须熟练。
query ：高效的过滤，注意学会怎么对多层索引进行过滤。
表达式过滤： df[df[‘col‘]==value] ，这种也需要很熟练。

2. 汇总数据

我们需要经常对数据进行分组汇总。

groupby ：理解这个过程。
分组后的操作： apply , agg , transform 。需要理解他们的机制，并且知道他们是为了解决啥问题的。
pivot_table : 很多人把透视作为 groupby 的简化操作，这个理解不够深入。透视是让你用支点固定数据，把长表变宽。学会使用他很容易，但怎么把自己的数据思维快速应用透视表去表达却是不容易。特别注意关于 index，column，values 是分别为了解决数据哪些维度的问题。
melt : 透视的逆向操作。