下面是一个示例代码,用于从两个不同的数据框中的2列进行部分匹配,并基于GPS坐标创建新的邮政编码列:
import pandas as pd
from geopy.distance import geodesic
# 创建示例数据框1
data1 = {'Latitude': [40.7128, 34.0522, 37.7749],
'Longitude': [-74.0060, -118.2437, -122.4194],
'Address': ['New York', 'Los Angeles', 'San Francisco']}
df1 = pd.DataFrame(data1)
# 创建示例数据框2
data2 = {'Postal Code': ['10001', '90001', '94101'],
'Latitude': [40.7128, 34.0522, 37.7749],
'Longitude': [-74.0060, -118.2437, -122.4194]}
df2 = pd.DataFrame(data2)
# 创建新的邮政编码列
df1['Postal Code'] = ''
# 遍历df1中的每一行
for i, row1 in df1.iterrows():
lat1 = row1['Latitude']
lon1 = row1['Longitude']
min_dist = float('inf')
postal_code = ''
# 遍历df2中的每一行
for j, row2 in df2.iterrows():
lat2 = row2['Latitude']
lon2 = row2['Longitude']
# 使用geodesic计算两个坐标之间的距离
dist = geodesic((lat1, lon1), (lat2, lon2)).miles
# 更新最小距离和邮政编码
if dist < min_dist:
min_dist = dist
postal_code = row2['Postal Code']
# 将找到的最近的邮政编码赋值给df1
df1.at[i, 'Postal Code'] = postal_code
print(df1)
这段代码首先创建了两个示例数据框df1
和df2
,其中df1
包含Latitude
和Longitude
两列,df2
包含Postal Code
、Latitude
和Longitude
三列。
然后,代码通过遍历df1
中的每一行,使用geodesic
函数计算当前行的坐标与df2
中所有行的坐标之间的距离,并找到最近的邮政编码。最后,将找到的最近的邮政编码赋值给df1
的Postal Code
列。
运行上述代码后,将得到一个新的数据框df1
,其中包含了基于GPS坐标创建的新的邮政编码列。