下面是一个示例代码,用于编写一个函数来量化数据框中每列的空值,但不删除这些空值:
import pandas as pd
def quantify_missing_values(df):
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100
missing_data = pd.DataFrame({'Missing Values': missing_values, 'Missing Percentage': missing_percentage})
return missing_data
# 示例用法
data = {'A': [1, 2, None, 4, 5],
'B': [6, None, 8, 9, 10],
'C': [None, 12, 13, 14, None]}
df = pd.DataFrame(data)
result = quantify_missing_values(df)
print(result)
输出结果为:
Missing Values Missing Percentage
A 1 20.0
B 1 20.0
C 2 40.0
该函数使用isnull()
函数来检查数据框中的每个元素是否为空值,并使用sum()
函数计算每列的空值数量。然后,通过除以数据框的长度并乘以100来计算每列的空值百分比。最后,将结果存储在一个新的数据框中,并返回该数据框作为函数的输出。