【Python】如何使用Pandas进行数据可视化?
创始人
2025-05-29 08:27:25
0

如何使用Pandas进行数据可视化?

  • 1. 如何创建简单图?
    • 1.1 创建线型图
    • 1.2 绘制直方图
    • 1.3 绘制条形图
    • 1.4 绘制饼图
    • 1.5 绘制散点图
  • 2. Plot方法有哪些?
  • 3. 如何定制图表的样式和颜色?
  • 4. 如何同时对多个DataFrame绘图?
  • 5. 总结
  • 参考资料

数据可视化对于理解数据具有重要的意义。Pandas是最常见的于数据分析的 Python 库,它基于 Matplotlib扩展了一些常用的可视化图表,可以方便的调用。本文举出一些示例,供大家参考。这里我们使用Google的Colab notebook。

首先,导入依赖库和数据集:

import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

我们使用泰坦尼克的示例数据集,包含有乘客的信息,包括他们的船舱等、年龄、票价和生存状态等信息。查看数据:
查看数据
在本文中,我们介绍使用Pandas进行数据可视化的基础知识,包括创建简单图、自定义图以及使用多个DF进行绘图。

1. 如何创建简单图?

Pandas的plot方法提供了创建基本图(例如线图、条形图和散点图)的简单方法。举个例子:

1.1 创建线型图

线型图用于表示连续间隔或时间段内的数据趋势。要创建线型图,调用plot方法时需要将kind参数指定为line

# 线型图
df.plot(kind='line', x='age', y='fare')

line

1.2 绘制直方图

可以在字段后直接使用hist方法来生成数据的直方图:

# 直方图
df.age.hist(figsize=(7.3,4),grid=False)

hist

1.3 绘制条形图

条形图用于表示分类数据,其中每个条代表一个特定类别。要创建条形图,可以在pandas的DataFrame上使用plot方法并将kind参数指定为bar

# 条形图
df['class'].value_counts().plot(kind='bar')

条形图

1.4 绘制饼图

饼图与条形图类似,但是它主要来查看数据的占比

# 饼图
df['embark_town'].value_counts().plot(kind='pie', rot=0)

饼图

1.5 绘制散点图

散点图用于表示两个连续变量之间的关系。要创建散点图使用plot方法将kind参数指定为scatter

# 散点图
df.plot(kind='scatter', x='age',y='fare')

散点图

2. Plot方法有哪些?

Pandas的可视化主要使用.plot()方法,它有几个可选参数。其中最重要的是kind参数,它可以接受11 个不同的字符串值,并根据这些值创建不同的图表:

  1. “area”面积图
  2. “bar”垂直条形图
  3. “barh”水平条形图
  4. “box”箱线图
  5. “hexbin” hexbin 图
  6. “hist”直方图。
  7. “kde”内核密度估计图表
  8. “density”是“kde”的别名
  9. “line”折线图
  10. “pie”饼图
  11. “scatter”散点图

如果不指定kind 参数,它的默认值为“line”。也就是折线图如果不向.plot() 提供任何参数,那么它会创建一个线图,其中索引位于 x 轴上,所有数字列位于 y 轴上。虽然这对于只有几列的数据集来说是一个有用的默认值,但并不适用于大型数据集。

还有一种方法就是:将数据列名作为字符串传递画板函数,是上面给.plot()kind传递参数的一种替代方法,DataFrame 对象有以下几种方法可用于创建上述各种类型的图:

.area()
.bar()
.barh()
.box()
.hexbin()
.hist()
.kde()
.density()
.line()
.pie()
.scatter()

在上面的直方图,我们就是使用的.hist方法。而不是kind=‘hist’。

3. 如何定制图表的样式和颜色?

可以通过使用不同的参数来自定义图表的外观,例如标记的颜色、大小和形状、标签和标题。

# 定制图表样式颜色
df.plot(kind="scatter", x="age", y="fare", color="red", alpha=0.5)
plt.xlabel("Age")
plt.ylabel("Fare")
plt.title("Relationship between Age and Fare")
plt.show()

定制图表和颜色
Pandas绘图的底层是使用Matplotlib,所以这些参数都是与Matplotlib一致的,可以根据需要进行调整。

4. 如何同时对多个DataFrame绘图?

Pandas还没有提供多个DataFrame的方法,所以只能使用Matplotlib,就像下面这样:

# 多个DataFrame绘图
df_survived = df[df["survived"] == 1] # datafrane 1
df_not_survived = df[df["survived"] == 0] # dataframe 2plt.scatter(df_survived["age"], df_survived["fare"], color="green", label="Survived")
plt.scatter(df_not_survived["age"], df_not_survived["fare"], color="red", label="Not Survived")
plt.xlabel("Age")
plt.ylabel("Fare")
plt.title("Relationship between Age and Fare")
plt.legend()
plt.show()

多个Dataframe绘图

5. 总结

作为最常用的数据分析库,Pandas提供了一种创建图表的简单方法,这种方法可以帮我们快速对数据集进行简单的分析,快速的了解数据集的情况。但是如果需要对数据进行更高级的可视化,可以使用SeabornPlotly等更高级的库。

参考资料

Pandas可视化手册:https://pandas.pydata.org/docs/user_guide/visualization.html

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWR报告解读 WORKLOAD REPOSITORY PDB report (PDB snapshots) AW...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
群晖外网访问终极解决方法:IP... 写在前面的话 受够了群晖的quickconnet的小水管了,急需一个新的解决方法&#x...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
Azure构建流程(Power... 这可能是由于配置错误导致的问题。请检查构建流程任务中的“发布构建制品”步骤,确保正确配置了“Arti...