【题目】
3、 原始数据集来自于多个平台及网站,且为多次采集汇总,因此数据集中的某些字段有可能会出现一些重复或非法格式,例如多次采集过程中产生的重复信息,或来自于某网站的不合规数据。这些信息的存在既无实际的业务分析意义,甚至还会影响最终分析结果。请根据题目具体参数要求处理不合规数据,截图并保存结果。详细描述: 请以上述 1 、(题目数字编号)任务结果数据集作为输入数据源/hotelsparktask1,编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask3。
- 解析/hotelsparktask1 中的文件;
- 剔除数据集中评分和星级字段的非法数据,合法数据是评分[0,5]的实数,星级是指星级字段内容中包含 NULL、二星、三星、四星、五星的数据;
- 剔除数据集中的重复数据;
- 打印语句分别输出删除含有非法评分、星级以及重复的数据条目数
- 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask3。
具体任务要求:
- 运行代码,剔除数据集中评分、星级字段的非法数据和数据集中重复数据,并打印输出各个字段删除的条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);
- 使用 Hadoop shell 命令查看清洗后输出的结果/hotelsparktask3 总行数,将运行结果截图并保存。
1. 运行代码,剔除数据集中 评分、 星级字段的非法数据和数据集中重复数据,并打印输出各个字段删除的条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(2 分)参考答案截图:每个红框区域结果一致得 1 分; (两个红框共 2 分 )
2. 用 Hadoop shell 命令查看清洗后输出的结果/hotelsparktask3 总行数,将运行结果截图并保存;(1 分)参考答案截图:红框区域结果一致得 1 分;