您当前的位置: 首页 >  大数据

段智华

暂无认证

  • 3浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据Spark “蘑菇云”行动第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

段智华 发布时间:2016-12-09 21:01:48 ,浏览量:3

大数据Spark “蘑菇云”行动第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优 hive> show databases; use default; show tables; select * from employeesforhaving; hive> EXPLAIN select * from employeesforhaving;//HIVE的stage类似spark的stage hive> EXPLAIN select * from employeesforhaving where>10000; hive> use hivestudy; show tables; hive> EXPLAIN  select * from users join ratings on users.usrid =ratings.userid; hive> EXPLAIN  EXTENDED  select * from users join ratings on users.usrid =ratings.userid; 在现在的hive底层中运行mapper和reducer的时候,mapper的个数由splits的个数确定,reduce的个数默认是1个; 设置HIVE的reduce的个数3个;

hive> set mapred.reduce.tasks =3 ; 

hive> set mapred.queue.name=default ; hive> set mapred.queue.name=hive ; hive在默认情况只会在同一时间执行一个stage,但是我们可以通过设置hive.exec.parallel为true来让可以并行执行的stage并行化,从而更好的利用集群的计算资源。 JVM的重用在hive性能优化中非常重要,mapred.job.reuse.jvm.num.tasks =10 ,也就是这个jvm可以运行10个任务,例如运行10个mapper; 如果小文件比较多的话,会对性能有1倍左右的提高; 动态分区提高空间的有效利用率 set.hive.exec.dynamic.partition =true ; set.hive.exec.dynamic.partition.mode  =nonstrict; hive的join操作一般问题都是数据倾斜,尤其是在小表(该小表又比较大)和大表关联的情况下,如果小表比较大,可以通过设置 参数,对小表进行broadscast;但是,问题来了,小表比较大进行广播会产生OOM,网络传输小表的时候也是一个非常大的开销, 例如,小表是1000万条记录,而大表是10亿条记录,小表和大表进行join,怎么办了,如可先进行map端的reduce操作。

hive的解决方案和spark的解决方案完全一样。

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.2287s