【题目】
2、 对于数据集字段缺失情况,通常可以采用填充默认值、均值、众数、KNN 填充、以及把缺失值作为新的 label 等方式处理。同时,不当的填充可能会令后续的分析结果出现导向性偏差,当缺失信息较少时可采用删除的方式来进行处理。下面请根据题目具体参数要求处理关键字段缺失,截图并保存结果。详细描述: 数据源使用 HDFS 文件系统中的 hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask2。
- 解析 hoteldata.csv;
- 将关键字段{星级、评论数、评分}中任意字段为空的数据删除;
- 程 序 打 包 并 在 Spark 上 运 行 ,结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask2。
具体任务要求:
- 运行代码,将字段{星级、评论数、评分}中任意字段为空的数据删除,并打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);
- 使用 Hadoop shell 命令查看清洗后输出的结果文件/hotelsparktask2 总行数,将运行结果截图并保存。
1、运行代码,将字段{星级、评论数、评分}中任意字段为空的数据删除,并打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各5 行运行日志);(1 分)参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )
2、使用 Hadoop shell 命令查看清洗后输出的结果文件/hotelsparktask2 总行数,将运行结果截图并保存。(1 分)参考答案截图:红框区域结果一致得 1 分;