SQL进阶技巧:Order by 中 NULLS LAST特性使用?

目录

1 需求描述

2  数据准备

3 问题分析

4 小结

如果觉得本文对你有帮助,想进一步学习SQL语言这门艺术的,那么不妨也可以选择去看看我的博客专栏 ,部分内容如下:

数字化建设通关指南

专栏 原价99,现在活动价59.9,按照阶梯式增长,直到恢复原价。


1 需求描述

需求:表如下

以上数据中,goods_type列,假设26代表是广告,现在有个需求,想获取每个用户每次搜索下非广告类型的商品位置自然排序,如果下效果:

2  数据准备

create table goods as
    (select stack(
                    8,
                    1, 'hadoop', 10, 1,
                    1, 'hive', 12, 2,
                    1, 'sqoop', 26, 3,
                    1, 'hbase', 10, 4,
                    1, 'spark', 13, 5,
                    1, 'flink', 26, 6,
                    1, 'kafka', 14, 7,
                    1, 'oozie', 10, 8
            ) as (user_id, goods_name, goods_type, rk));

3 问题分析

在数据分析和处理的过程中,我们经常会遇到包含NULL值的数据。在Hive中,NULL值的处理需要特别的注意,因为它们可能会影响查询的结果,甚至导致分析结果的不准确。本文通过案例将指导你如何在Hive中高效处理NULL值问题,确保数据分析的准确性和可靠性。

Hive中NULL值处理

理解NULL值: 在Hive中,NULL表示缺失的或未知的值。它与空字符串或零值不同,因此在进行数据处理时需要特别注意。

检测NULL值: 使用IS NULLIS NOT NULL操作符可以帮助你检测字段中的NULL值。例如:

SELECT * FROM table_name WHERE column_name IS NULL;

避免NULL值影响聚合: 在使用聚合函数(如SUMAVG等)时,NULL值通常会被忽略。但如果你想要将NULL值考虑在内,可以使用COALESCENVL函数来为NULL值指定一个默认值。

使用COALESCE和NVL函数: 这两个函数可以帮助你将NULL值转换为一个具体的值。例如,你可以将所有的NULL值转换为0或一个空字符串,这样就可以在计算中包含这些值。

处理JOIN中的NULL值: 当使用JOIN语句时,如果JOIN的列中存在NULL值,可能会导致某些行不出现在结果集中。为了解决这个问题,你可以使用外连接(LEFT OUTER JOIN、RIGHT OUTER JOIN、FULL OUTER JOIN)来保证这些行的出现。

NULL值与ORDER BY: order by 时,desc NULL 值排在首位,ASC时NULL值排在末尾 可以通过NULLS LAST、NULLS FIRST 控制

创建表时处理NULL值: 在创建表时,可以为表中的列指定默认值。这样,当插入缺失值时,Hive会自动使用默认值代替NULL。

NULL值与Lateral view outer:Lateral view outer,当table function不输出任何一行时,对应的输入行在Lateral view结果中依然保留,且所有table function输出列为null。Lateral View Outer 是Hive 中的一个特性,用于处理table function的结果。当table function没有输出时,使用OUTER关键字可以确保原始行仍保留在结果集中,用NULL填充table function的输出列。

Hive 高版本中order by时,也可以像oracle那样指定NULLS LAST、NULLS FIRST 控制。

验证:

create table test_null_last(
	id int comment '学生id',
	name string comment '学生姓名'
) comment '学生信息表';

insert into table test_null_last
(id,name) values
(1, "xiaoming"),
(2, "xiaohei"),
(3, "xiaohong"),
(4, "xiaobai"),
(5, "xiaolv"),
(null, "aaaaa");

order by id 正序排序

select id,
       name,
       row_number() over ( order by id ) as rk
from test_null_last;

此时NULL值排在首位,如果希望正序排序,且NULL值排在最后,可以通过指定NULLS LAST来控制。

select id,
       name,
       row_number() over ( order by id NULLS last ) as rk
from test_null_last;

可以看到此时id按照正序排序时,NULL值排在最后。

通过上面的铺垫,我们给出本题SQL如下:

select user_id,
       goods_name,
       goods_type,
       rk,
       case
           when goods_type <> 26 then
               row_number() over (partition by user_id order by case when goods_type <> 26 then rk end nulls last)
           end as rk2
from goods t
order by rk;

上述SQL解释:

此处要注意在Hive中,先执行的是窗口函数,然后才是case when 语句,这一点一定要注意,否则容易理解错。因此上述SQL先对 goods_type <> 26 时rk进行正序排序,等于26的为NULL被放在最后,然后执行case when 语句,goods_type <> 26时取上述排好的顺序,等于26的置为NULL,这样得到最终的结果。

如果hive中或其他数据库不支持NULLS LAST特性的,我们也可以采用动态分组的方法达到类似效果,具体SQL如下:

select user_id
     , goods_name
     , goods_type
     , rk
     , case
           when goods_type != 26 then
               row_number() over (partition by if(goods_type != 26, user_id, rand()) order by rk) end naturl_rank
from goods
order by rk

此时采用一分为二的思想将NULL单独分组排序,最终通过CASE WHEN的形式将获得结果置为NULL。

另外也可以采用UNION ALL的解法,但此时需要扫描表2次,性能较差,不是最好的解法

 SQL如下:

select user_id
     , goods_name
     , goods_type
     , rk
     , row_number() over (partition by user_id order by rk) as naturl_rank
from goods
where goods_type != 26
union all
select user_id
     , goods_name
     , goods_type
     , rk
     , null as naturl_rank
from goods
where goods_type = 26

4 小结

本文通过案例分析了SQL中Order by语句后NULLS LAST特性的使用方法及技巧,NULL值在排序时往往给问题带来了不便及困扰,但可以通过NULLS FIRST 及NULLS LAST来控制,给问题的解决带来了方便。同时此题需要注意case when等条件语句then 中 使用分析函数时,先执行的是分析函数,最后执行case when语句,与我们通常理解的顺序不一样。

如果觉得本文对你有帮助,想进一步学习SQL语言这门艺术的,那么不妨也可以选择去看看我的博客专栏 ,部分内容如下:
数字化建设通关指南
专栏 原价99,现在活动价59.9,按照阶梯式增长,直到恢复原价。

专栏主要内容:
(1)SQL进阶实战技巧
可以参考如下教程,具体链接如下

SQL很简单,可你却写不好?也许这才是SQL最好的教程

上面链接中的文章及技巧会不定期更新。

(2)数仓建模实战技巧和个人心得
       1)新人入职新公司后应如何快速了解业务?

       2)以业务视角看宽表化建设?

       3)  维度建模 or 关系型建模?

       4)业务模型与数据模型有什么区别?业务阶段的模型该如何建设?

       5)业务指标体系该如何建设?指标体系该如何维护?指标平台应如何建设?指标体系                           该由谁来搭建?

       6)如何优雅设计DWS层?DWS层模型好坏该如何评价?

       7)指标发生异常,该如何排查?应从哪些方面入手寻找问题点?

       8) 数据架构的选择,mpp or hadoop?

       9)数仓团队应如何体现自己的业务价值,讲好数据故事?

       10)BI与大数据有什么关系?BI与信息化、数字化之间有什么关系?BI与报表之间的关                          系?

       11)数据部门如何与业务部门沟通,并规划指引业务需求?

文章不限于以上内容,有新的想法也会及时更新到该专栏。

具体专栏链接如下: 

 ​​​​​​数字化建设通关指南_莫叫石榴姐的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/889119.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch学习笔记(三)Ubuntu 2204 server elasticsearch集群配置

如果你只是学习elasticsearch的增、删、改、查等相关操作&#xff0c;那么在windows上安装一个ES就可以了。但是你如果想在你的生产环境中使用Elasticsearch提供的强大的功能&#xff0c;那么还是建议你使用Linux操作系统。 本文以在Ubuntu 2204 server中安装elasticsearch 8.…

MATLAB智能优化算法-学习笔记(4)——灰狼优化算法求解旅行商问题【过程+代码】

灰狼优化算法(Grey Wolf Optimizer, GWO)是一种基于灰狼社会行为的元启发式算法,主要模拟灰狼群体的捕猎行为(包括围攻、追捕、搜寻猎物等过程)。多旅行商问题(Multi-Traveling Salesman Problem, mTSP)是旅行商问题(TSP)的扩展,它涉及多个旅行商(车辆)从一个起点城…

使用AI编码,这些安全风险你真的了解吗?

前言 随着AI技术的飞速发展与普及&#xff0c;企业开发人员对AI编码助手工具如Copilot的依赖度日益增强&#xff0c;使用AI编码助手工具虽然能显著提升编程效率与质量&#xff0c;但同时也存在一系列的潜在风险。 许多开发人员可能未意识到&#xff0c;如果他们的现有代码库中…

CMSIS-RTOS V2封装层专题视频,一期视频将常用配置和用法梳理清楚,适用于RTX5和FreeRTOS(2024-09-28)

【前言】 本期视频就一个任务&#xff0c;通过ARM官方的CMSIS RTOS文档&#xff0c;将常用配置和用法给大家梳理清楚。 对于初次使用CMSIS-RTOS的用户来说&#xff0c;通过梳理官方文档&#xff0c;可以系统的了解各种用法&#xff0c;方便大家再进一步的自学或者应用&#x…

数据结构——七种排序(java)实现

文章目录 直接插入排序希尔排序选择排序冒泡排序快速排序归并排序计数排序 直接插入排序 思想&#xff1a; /*** 直接插入排序* 具有稳定性* 时间复杂度为&#xff1a;&#xff08;计算时间复杂度的时候应计算执行次数最多的语句类&#xff0c;在直接插入排序中次数最多的语句…

Ajax ( 是什么、URL、axios、HTTP、快速收集表单 )Day01

AJAX 一、Ajax是什么1.1名词解释1.1.1 服务器1.1.2 同步与异步1. 同步&#xff08;Synchronous&#xff09;2. 异步&#xff08;Asynchronous&#xff09;3. 异步 vs 同步 场景4. 异步在 Web 开发中的常见应用&#xff1a; 1.2 URL 统一资源定位符1.2.1 URL - 查询参数1.2.2 ax…

maven打包常用命令

跳过tset打包 mvn package -Dmaven.test.skiptrue

什么是 ARP 欺骗和缓存中毒攻击?

如果您熟悉蒙面歌王&#xff0c;您就会明白蒙面歌王的概念&#xff1a;有人伪装成别人。然后&#xff0c;当面具掉下来时&#xff0c;您会大吃一惊&#xff0c;知道了这位名人是谁。类似的事情也发生在 ARP 欺骗攻击中&#xff0c;只是令人惊讶的是&#xff0c;威胁行为者利用他…

获取期货股票历史数据以及均线策略分析

【数据获取】银河金融数据库&#xff08;yinhedata.com&#xff09;能够获取国内外金融股票、期货历史行情数据&#xff0c;包含各分钟级别。 【搭建策略】均线策略作为一种广泛应用于股票、期货等市场的技术分析方法&#xff0c;凭借其简单易懂、操作性强等特点&#xff0c;深…

AI绘画Stable Diffusion WebUI 2个超好用的办法-实现图片光照调节,快速生成你想要的光感大片!

大家好&#xff0c;我是画画的小强 在摄影艺术中&#xff0c;灯光的运用对于照片的质量和情感表达至关重要。它不仅能够彰显主题&#xff0c;还能为画面增添深度与立体感&#xff0c;帮助传递感情&#xff0c;以及凸显细节之美。 下面&#xff0c;我将向大家展示如何用AI绘画…

【动态规划-最长公共子序列(LCS)】【hard】【科大讯飞笔试最后一题】力扣115. 不同的子序列

给你两个字符串 s 和 t &#xff0c;统计并返回在 s 的 子序列 中 t 出现的个数&#xff0c;结果需要对 10^9 7 取模。 示例 1&#xff1a; 输入&#xff1a;s “rabbbit”, t “rabbit” 输出&#xff1a;3 解释&#xff1a; 如下所示, 有 3 种可以从 s 中得到 “rabbit”…

kafka创建多个分区时,分区会自动分配到多个不同的broker

1.分区只有一个时所有的消息生产和消费都集中在单个Broker上&#xff0c;多个broker只是提高了抗风险能力&#xff08;因为副本存在不同的broker上&#xff0c;主节点挂掉&#xff0c;可以重新选取副本为主节点&#xff09;。 2.没有消息顺序性要求可以多个分区&#xff0c;注意…

SpringBoot使用esayExcel根据模板导出excel

1、依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.1.3</version></dependency> 2、模板 3、实体类 package com.skybird.iot.addons.productionManagement.qualityTesting…

获取期货股票分钟级别数据以及均线策略

【数据获取】 银河金融数据库&#xff08;yinhedata.com&#xff09; 能够获取国内外金融股票、期货历史行情数据&#xff0c;包含各分钟级别。 【搭建策略】 均线策略作为一种广泛应用于股票、期货等市场的技术分析方法&#xff0c;凭借其简单易懂、操作性强等特点&#xf…

怎么高效对接SaaS平台数据?

SaaS平台数据对接是指将一个或多个SaaS平台中的数据集成到其他应用或平台中的过程。在当前的数字化时代&#xff0c;企业越来越倾向于使用SaaS平台来管理他们的业务和数据。然而&#xff0c;这些数据通常散布在不同的SaaS平台中&#xff0c;这对于企业数据的整合和分析来说可能…

Centos Stream 9备份与恢复、实体小主机安装PVE系统、PVE安装Centos Stream 9

最近折腾小主机&#xff0c;搭建项目环境&#xff0c;记录相关步骤 数据无价&#xff0c;丢失难复 1. Centos Stream 9备份与恢复 1.1 系统备份 root权限用户执行进入根目录&#xff1a; cd /第一种方式备份命令&#xff1a; tar cvpzf backup.tgz / --exclude/proc --exclu…

04-SpringBootWeb案例(中)

3. 员工管理 完成了部门管理的功能开发之后&#xff0c;我们进入到下一环节员工管理功能的开发。 基于以上原型&#xff0c;我们可以把员工管理功能分为&#xff1a; 分页查询&#xff08;今天完成&#xff09;带条件的分页查询&#xff08;今天完成&#xff09;删除员工&am…

CAN和CANFD如何转换和通信

随着科技的发展&#xff0c;汽车电子和工业领域中CAN通信需要承载数据量也越来越大&#xff0c;传统CAN通信有了向CANFD通信过渡的倾向。在实现过渡的过程中可能会出现自己设备是CAN通信&#xff0c;客户设备是CANFD通信的情况&#xff0c;或者自己设备是CANFD通信&#xff0c;…

红帽7—Mysql路由部署

MySQL Router 是一个对应用程序透明的InnoDB Cluster连接路由服务&#xff0c;提供负载均衡、应用连接故障转移和客户端路 由。 利用路由器的连接路由特性&#xff0c;用户可以编写应用程序来连接到路由器&#xff0c;并令路由器使用相应的路由策略 来处理连接&#xff0c;使其…

爬虫常用正则表达式用法

在网页爬虫中&#xff0c;正则表达式&#xff08;regex&#xff09;是一种非常有用的工具&#xff0c;用于从 HTML、JSON 或其他文本格式中提取特定的数据。下面是一些常见的正则表达式及其在爬虫中的应用场景&#xff1a;