如果缺失的观测值是具有某种模式的,则可以使用SQL中的内联连接(INNER JOIN)或外部连接(LEFT JOIN或RIGHT JOIN)来填充缺失值。以下是一个示例:
假设我们有一张学生表(students),其中包含学生的分数和他们所属的班级。由于系统错误,一些学生没有评分。我们可以使用以下SQL查询将这些缺失的分数设置为零:
UPDATE students
SET score = 0
WHERE score IS NULL;
如果我们需要将缺失的分数按班级平均数填充,则可以使用以下查询:
UPDATE students
SET score = (
SELECT AVG(score)
FROM students
WHERE class = s.class
)
WHERE score IS NULL;
这将从同一班级中的其他学生的分数中计算平均值,并将其用于缺失的分数。
要按照这种方式填充有序数据集中的缺失值,可以使用窗口函数和内联连接来完成。例如,假设我们有一张销售表(sales),其中包含销售日期、产品和销售额。我们可以使用以下查询将缺失的销售额设置为前一个销售日期的销售金额:
UPDATE sales AS s1
SET amount = (
SELECT s2.amount
FROM (
SELECT *,
ROW_NUMBER() OVER (ORDER BY date) AS rn
FROM sales
WHERE amount IS NOT NULL
) AS s2
WHERE s1.product = s2.product
AND s1.date > s2.date
AND s2.rn = 1
)
WHERE amount IS NULL;
此查询会将表分为两个部分。首先,使用窗口函数,我们将表分为有值和无值数据集。然后,我们使用内联连接将每个缺