4、 给定数据集中,酒店信息覆盖全国各个城市,不同省份及城市间旅游业的发展程度各不相同。考虑到数据集规模较大,酒店信息所形成的大数据集难以 直观理解和统计,为便于信息理解和整合,请根据题目具体参数要求处理数据,截图并保存结果。 详细描述: 请以上述3 (题目数字编号)任务的输出结果作为输入数据源,编写Spark程序,按照如下要求实现对数据的清洗。 1) 计算新字段城市总订单、城市酒店平均用户评分、城市酒店总评论数,新数据集中需包含 seq、城市总订单、城市酒店平均用户评分、城市酒店总评论数。程序打包并在 Spark 上运行,同时将结果输出至 HDFS 文件系统中/hotelsparktask4_1; 2) 请将/hotelsparktask4_1 中的文件作为输入数据源,分别计算以下三个字段的最大值和最小值(城市总订单、城市酒店平均用户评分、城市酒店总评论数)并以打印语句输出。程序打包并在 Spark 上运行,同时将结果输出至 HDFS 文件系统中/hotelsparktask4_2; 3) 请将/hotelsparktask4_1 和/hotelsparktask3 中的文件作为输入数据源,将城市总订单、城市酒店平均用户评分、城市酒店总评论数,进行归一化,在原数据集基础上增加归一化结果 z_city,z_comment, z_score。程序打包并在 Spark 上运行,同时将结果输出至 HDFS 文件系统中/hotelsparktask4_3。
归一化参考公式:
具体任务要求: 1) 运行代码,计算城市总订单、城市酒店平均用户评分、城市酒店总评论数,将结果保存至/hotelsparktask4_1(输出字段为 seq、城市总订单、城 市酒店平均用户评分、城市酒店总评论数),并在控制台按顺序打印输出广州、北京、上海三个城市的总订单数、城市酒店平均用户评分、城市酒店总评论数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志); 2) 运行代码,打印输出城市总订单、城市酒店平均用户评分、城市酒店总评论数三个指标的最大值和最小值,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志); 3) 运行代码,将城市总订单、城市酒店平均用户评分、城市酒店总评论数进行归一化处理,将结果保存至/hotelsparktask4_3(输出字段为:seq,城市总订单,城市酒店平均用户评分,城市酒店总评论数,城市总订单归一化结果,城市酒店平均用户评分归一化结果,城市酒店总评论数归一化结果),并在控台按顺序打印输出广州、上海、北京三个城市的城市总订单、城市酒店平均用户评分、城市酒店总评论数三个指标的归一化结果,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志)。
【答案】1)参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )
2) 参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )
3)参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )