[hive] collect_set用法 _Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 2978 | 回复: 0

主题： [hive] collect_set用法

huan.liu

注册用户

等级：新兵
经验：72
发帖：58
精华：0
注册：2011-11-23
状态：离线
发送短消息息给huan.liu

加好友发送短消息息给huan.liu

发消息

发表于：

2015-12-4 16:41:46 | [全部帖] [楼主帖]

楼主

COLLECT_SET，对于多列的group by操作时，

如果你想得到这样的结果：

appid app_name app_url

1 应用汇 www.test1.com

1 阿拉工具 www.test2.com

2 小星星 www.test3.com

3 小生 www.test4.com

3 小明 www.test5.com

希望得到这样的结果：

appid app_name app_url

1 应用汇 www.test1.com

2 小星星 www.test3.com

3 小生 www.test4.com

由于不能使用 multi-distinct，故可以使用如下方式得到：

hive>
select appid,          
       collect_set(app_name)[0],          
       collect_set(app_url)[0]
from            
       your_table
group by            
       appid;

另一种做法：可以考虑使用min, max

select appid,  
       max(app_name),      
       max(app_url)
from     
       your_table
group by         
       appid;

详解：

array

collect_set(col)

Returns a set of objects with duplicate elements eliminated

collect_set: 返回去重的元素数组。

--转自

本版精华
热门帖子

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图