私藏!资深数据专家SQL效率优化技巧
创始人
2024-04-06 02:58:34
0

💡 作者:韩信子@ShowMeAI
📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40
📘 本文地址:https://www.showmeai.tech/article-detail/391
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

所有的数据相关工作人员,包括数据开发、数据分析师、数据科学家等,多多少少会使用数据库,我们很多的业务数据也是存放在业务表中。但即使是同一个需求,不同人写出的 SQL 效率上也会有很大差别,而我们在数据岗位面试的时候,也会考察相关的技能和思考,在本篇文章中,ShowMeAI将给大家梳理 SQL 中可以用于优化效率和提速的核心要求。

关于 SQL 的基础技能知识,欢迎大家查阅ShowMeAI制作的速查表:

📘 编程语言速查表 | SQL 速查表

💡 1)使用正则regexp_like代替LIKE

如下例所示,当我们要进行模糊匹配的时候(尤其是匹配项很多的时候),我们使用regexp_like代替LIKE可以提高效率。

💦 低效代码

SELECT *
FROM phones
WHERElower(name) LIKE '%samsing&' ORlower(name) LIKE '%apple&' ORlower(name) LIKE '%htc&' OR

💦 高效代码

SELECT *
FROM phones
WHEREREGEXP_LIKE(lower(name),'samsung|apple|htc')

💡 2)使用regexp_extract代替 Case-when Like

类似的,使用regexp_extract代替Case-when Like可以提高效率。

💦 低效代码

SELECT *
CASEWHEN concat(' ', name, ' ') LIKE '%acer%' then 'Acer' WHEN concat(' ', name, ' ') LIKE '%samsung%' then 'Samsung'WHEN concat(' ', name, ' ') LIKE '%dell%' then 'Dell'
AS brand
FROM laptops

💦 高效代码

SELECTregexp_extract(name,'(acer|samsung|dell)')
AS brand
FROM laptops

💡 3)IN子句转换为临时表

但我们进行数据选择时候,有时候会用到in作为条件选择,如果我们的候选项非常多,那利用临时表可能会带来更好的效率。

💦 低效代码

SELECT *
FROM table1 as t1
WHEREitemid in (3363134, 5343, 5555555)

💦 高效代码

SELECT *
FROM table 1 as t1
JOIN (SELECTitemidFROM (SELECTsplit('3363134, 5343, 5555555') as bar)CROSS JOINUNNEST(bar) AS t(itemid)) AS table2 as t2
ONt1.itemid = t2.itemid

💡 4)将 JOIN 的表从大到小排序

当我们要进行表关联(join)的时候,我们可以对表基于大小进行一个排序,把大表排在前面,小表排在后面,也会带来效率的提升。

💦 低效代码

SELECT *
FROM small_table
JOIN large_table
ON small_table.id = large_table.id

💦 高效代码

SELECT *
FROM large_table
JOIN small_table
ON small_table.id = large_table.id

💡 5)使用简单的表关联条件

如果我们要基于条件对两个表进行连接,那条件中尽量不要出现复杂函数,如果一定需要使用,那我们可以先用函数对表的数据处理产出用于连接的字段。

如下例中,我们对ab表进行连接,条件是b表的「年」「月」「日」拼接后和a表的日期一致,那粗糙的写法和优化的写法分别如下:

💦 低效代码

SELECT *
FROM table1 a
JOIN table2 b
ON a.date = CONCAT(b.year, '-', b.month, '-', b.day)

💦 高效代码

SELECT *
FROM table1 a
JOIN (SELECT name, CONCAT(b.year, '-', b.month, '-', b.day) as dateFROM table2 b
) new
ON a.date = new.date

💡 6)分组的字段按照类别取值种类数排序

如果我们需要对数据按照多个字段分组,尤其是字段中有id类这种取值非常多的类别字段,我们应当把它排在最前面,这也可以对效率有一些帮助。

💦 低效代码

SELECT main_category,sub_category,itemidsum(price)
FROMtable1
GROUP BYmain_category, sub_category, itemid

💦 高效代码

SELECT main_category,sub_category,itemidsum(price)
FROMtable1
GROUP BYitemid, sub_category, main_category

💡 7)避免 WHERE 子句中的子查询

当我们要查询的语句的where条件中包含子查询时,我们可以通过with语句构建临时表来调整连接条件,提升效率,如下:

💦 错误代码

SELECT sum(price)
FROM table1
WHERE itemid in (SELECT itemidFROM table2
)

💦 好代码

WITH t2AS (SELECT itemidFROM   table2)
SELECT Sum(price)
FROM   table1 AS t1JOIN t2ON t1.itemid = t2.itemid 

💡 8)取最大直接用Max而非Rank后取第1

这一条很好理解,如果我们要取某字段最大取值,我们直接使用 max,而不要用 rank 排序后取第 1,如下代码所示:

💦 低效代码

SELECt *
FROM (SELECT userid, rank() over (order by prdate desc) as rankFROM table 1
)
WHERE ranking = 1

💦 高效代码

SELECT userid, max(prdate)
FROM table1
GROUP BY 1

💡 9)其他优化点

  • 对于大表,利用approx_distinct()代替count(distinct)来计数。
  • 对于大表,利用approx_percentie(metric,0.5)代替median
  • 尽可能避免使用UNION

参考资料

  • 📘 编程语言速查表 | SQL 速查表:https://www.showmeai.tech/article-detail/99

相关内容

热门资讯

银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...