Hive文件存储格式text,orc,parquet
hive中表的存储格式,不仅支持text文本格式,还支持其他很多格式。比如说ORC格式和parquet格式。hive在建表的时候通过stored as 指定格式,如果没有指定格式就默认为textfile格式。
ORC和parquet是列式存储格式,底层是以二进制形式存储。数据存储效率极高,用于查询方便。
hive默认的查询引擎是MapReduce,因此通常说的hive压缩是MapReduce压缩。压缩是指通过算法对数据进行重新编排,降低存储空间,无损压缩。
MapReduce可以对数据在两个阶段进行压缩。
map输出端,减少shuffle的数据量,提高shuffle时网络io的效率。
reduce端,减少文件的大小,降低磁盘的存储空间。
当然压缩会带来一些弊端,浪费时间,消耗CPU,内存,某些优秀的压缩算法需要钱。
下面说明如何配置hive的压缩参数设置。
-
--设置Hive的中间压缩 也就是map的输出压缩
-
1)开启 hive 中间传输数据压缩功能
-
set hive.exec.compress.intermediate=true;
-
2)开启 mapreduce 中 map 输出压缩功能
-
set mapreduce.map.output.compress=true;
-
3)设置 mapreduce 中 map 输出数据的压缩方式
-
set mapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
-
-
--设置Hive的最终输出压缩,也就是Reduce输出压缩
-
1)开启 hive 最终输出数据压缩功能
-
set hive.exec.compress.output=true;
-
2)开启 mapreduce 最终输出数据压缩
-
set mapreduce.output.fileoutputformat.compress=true;
-
3)设置 mapreduce 最终数据输出压缩方式
-
set mapreduce.output.fileoutputformat.compress.codec =org.apache.hadoop.io.compress.SnappyCodec;
-
4)设置 mapreduce 最终数据输出压缩为块压缩 还可以指定RECORD
-
set mapreduce.output.fileoutputformat.compress.type=BLOCK;
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhfgahee
系列文章
更多
同类精品
更多
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13