您当前的位置: 首页 >  hadoop

宝哥大数据

暂无认证

  • 0浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

hadoop目录导图

宝哥大数据 发布时间:2018-06-24 23:10:25 ,浏览量:0

##一、安装 ###1.1、安装hadoop ###1.2、启动中出现的问题

  • namenode格式化问题
  • historyserver 没有启动
  • mapred-site.xml配置错误问题

###1.3、调试中出现的问题 1、Hadoop格式化HDFS报错java.net.UnknownHostException: centos64 2、hadoop-分布式安装及报错分析 3、SSH 无密码login 4、Hadoop II Windows下安装hadoop2.6.0-eclipse-plugin插件 5、hadoop2.x常用端口、定义方法及默认端口

###1.4、简单案例WordCount

  • MR执行环境
    • 本地模式(用于调试)
    • 服务器模式(包含两种)
      • 在本地直接运行
      • 在服务器上提交

##二、原理的介绍

###HDFS原理及操作

###2.1、MapReduce原理 InputSplit介绍 InputFormat-mapper的前期操作

  • inputFormat 负责创建inputSplit并且将他们拆分成键值对(records)

统计topN

  • 自定义分区(partition), 排序(sort), 分组(group)
  • reduce处理数据是分组进行处理。

MapReduce原理 mapper, reducer,shuffler之一 MapReduce原理 mapper, reducer,shuffler之二 MapReduce原理 mapper, reducer,shuffler之三

###2.2、hadoop实现join方法

###Eclipse项目复制出现问题及设置hadoop配置问题

##三、MR应用 ###3.1、每个月最高三个温度

  • 自定义key
  • 自定义分区
  • 自定义排序
  • 自定义分组
  • InputSplit
  • InputFromat

###3.2、好友推荐

  • 两两用户的间接好友数量
  • 对每个用户的间接好友数量进行排序

###3.3、PageRank

  • PageRank原理
  • 算法实现
  • 设置节点对象
  • MR实现
  • Counter

###3.4、新浪微博TF-IDF

  • 算法简介
  • 算法实现
  • DF的实现

###3.5、协同过滤天猫推荐

  • 协同过滤算法介绍
  • 协同过滤天猫推荐算法实现01
  • 协同过滤天猫推荐算法实现02
关注我的公众号 【宝哥大数据】

在这里插入图片描述

关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0451s