您当前的位置: 首页 >  ar

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

10w分区表,hive能跑,sparksql运行也完全能跑起来

段智华 发布时间:2016-04-10 19:01:59 ,浏览量:0

 

1,问题来源:

对于有几个万分区的分区表,sparksql一跑就挂,但hive不会,请问怎么处理

执行sql:

ga10.coin_gain_lost是一个有几万个分区的分区表

date字段是一级分区

Caused by:org.apache.thrift.transport.TTransportException: Frame size (47350517) largerthan max length (16384000)!

         atorg.apache.spark.sql.hive.client.HiveTable.getAllPartitions(ClientInterface.scala:74)

         apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.get_partitions(ThriftHiveMetastore.java:1979)

初步判断:spark把这个表的所有分区信息抓取回来(HiveTable.getAllPartitions),

 

补充说明:这个sql在hive中能正常跑     

内容资源: spark-sql --num-executors 6 --driver-memory 20g--executor-memory  18g --master yarn

查看spark界面,没有job生成,没有stage信息

 

 

2,问题重现测试

根据分区重现这个问题的步骤,进行spark测试

 

Ø  spark 测试运行环境:

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0967s