##一、安装 ###1.1、安装hadoop ###1.2、启动中出现的问题
- namenode格式化问题
- historyserver 没有启动
- mapred-site.xml配置错误问题
###1.3、调试中出现的问题 1、Hadoop格式化HDFS报错java.net.UnknownHostException: centos64 2、hadoop-分布式安装及报错分析 3、SSH 无密码login 4、Hadoop II Windows下安装hadoop2.6.0-eclipse-plugin插件 5、hadoop2.x常用端口、定义方法及默认端口
###1.4、简单案例WordCount
- MR执行环境
- 本地模式(用于调试)
- 服务器模式(包含两种)
- 在本地直接运行
- 在服务器上提交
##二、原理的介绍
###HDFS原理及操作
###2.1、MapReduce原理 InputSplit介绍 InputFormat-mapper的前期操作
- inputFormat 负责创建inputSplit并且将他们拆分成键值对(records)
统计topN
- 自定义分区(partition), 排序(sort), 分组(group)
- reduce处理数据是分组进行处理。
MapReduce原理 mapper, reducer,shuffler之一 MapReduce原理 mapper, reducer,shuffler之二 MapReduce原理 mapper, reducer,shuffler之三
###2.2、hadoop实现join方法
###Eclipse项目复制出现问题及设置hadoop配置问题
##三、MR应用 ###3.1、每个月最高三个温度
- 自定义key
- 自定义分区
- 自定义排序
- 自定义分组
- InputSplit
- InputFromat
###3.2、好友推荐
- 两两用户的间接好友数量
- 对每个用户的间接好友数量进行排序
###3.3、PageRank
- PageRank原理
- 算法实现
- 设置节点对象
- MR实现
- Counter
###3.4、新浪微博TF-IDF
- 算法简介
- 算法实现
- DF的实现
###3.5、协同过滤天猫推荐
- 协同过滤算法介绍
- 协同过滤天猫推荐算法实现01
- 协同过滤天猫推荐算法实现02