可以使用Python中的pandas库来实现。
示例代码如下:
import pandas as pd
# 从文件中加载第一个表格
df1 = pd.read_csv('table1.csv')
# 从文件中加载第二个表格
df2 = pd.read_csv('table2.csv')
# 比较两个表格的两列,获得含有缺失值的记录
diff_df = pd.concat([df1[['columnA', 'columnB']]\
.merge(df2[['columnA', 'columnB']], on=['columnA', 'columnB'], how='outer')\
.query('columnA.isna() or columnB.isna()')],
ignore_index=True)
# 打印出结果
print(diff_df)
其中,'table1.csv'
和'table2.csv'
分别是存储在本地文件中的两个表格。
[['columnA', 'columnB']]
指定要比较的两列名称。
merge()
通过'columnA'
和'columnB'
这两列的值进行表格连接,并通过how='outer'
指定为外连接。这将返回一个包含两个表格所有记录的新表格,其中那些只在某个表格中出现而在另一个表格中不存在的记录会被填充为缺失值。
最后,通过query()
方法选出了含有缺失值的记录,并打印出结果。
这个方法可以比较两个表格的两列,并返回那些在某一列中存在,而另一列中不存在的记录,并且还可以处理每个表格中含有缺失值的情况。