您当前的位置: 首页 >  大数据

哆啦A梦_i

暂无认证

  • 1浏览

    0关注

    629博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【2019全国职业技能大赛大数据技术】任务三:6-数据清洗与分析(25分_题目+答案<图片+分值>)

哆啦A梦_i 发布时间:2021-04-05 15:47:55 ,浏览量:1

【题目】

3、 原始数据集来自于多个平台及网站,且为多次采集汇总,因此数据集中的某些字段有可能会出现一些重复或非法格式,例如多次采集过程中产生的重复信息,或来自于某网站的不合规数据。这些信息的存在既无实际的业务分析意义,甚至还会影响最终分析结果。请根据题目具体参数要求处理不合规数据,截图并保存结果。详细描述: 请以上述 1 、(题目数字编号)任务结果数据集作为输入数据源/hotelsparktask1,编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask3。

  1. 解析/hotelsparktask1 中的文件;
  2. 剔除数据集中评分和星级字段的非法数据,合法数据是评分[0,5]的实数,星级是指星级字段内容中包含 NULL、二星、三星、四星、五星的数据;
  3. 剔除数据集中的重复数据;
  4. 打印语句分别输出删除含有非法评分、星级以及重复的数据条目数
  5. 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask3。

具体任务要求:

  1. 运行代码,剔除数据集中评分、星级字段的非法数据和数据集中重复数据,并打印输出各个字段删除的条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);
  2. 使用 Hadoop shell 命令查看清洗后输出的结果/hotelsparktask3 总行数,将运行结果截图并保存。
【答案】

1. 运行代码,剔除数据集中 评分、 星级字段的非法数据和数据集中重复数据,并打印输出各个字段删除的条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(2 分)参考答案截图:每个红框区域结果一致得 1 分; (两个红框共 2 分 )

2. 用 Hadoop shell 命令查看清洗后输出的结果/hotelsparktask3 总行数,将运行结果截图并保存;(1 分)参考答案截图:红框区域结果一致得 1 分;

关注
打赏
1556978864
查看更多评论
立即登录/注册

微信扫码登录

0.0420s