您当前的位置: 首页 >  大数据

wespten

暂无认证

  • 0浏览

    0关注

    899博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据实时项目实战

wespten 发布时间:2022-10-07 19:24:25 ,浏览量:0

一、Spark Streaming

Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理。数据可以从许多来源(如Kafka,Flume,Kinesis,或TCP套接字)中获取,并可以使用高级函数进行处理,处理完后的数据可以推送到文件系统,数据库和实时仪表板。

在内部,他的工作原理如下,Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批处理生成最终结果流。 

二、实时项目需求及架构设计 1、项目需求分析
  • 数据采集平台搭建
  • Kafka、Zookeeper中间件准备
  • 下游Spark Streaming对接Kafka接收数据,实现vip个数统计、栏目打标签功能、做题正确率与掌握度的实时计算功能。
2、技术选型
  • 数据存储:Kafka、MySql
  • 数据处理:Spark
关注
打赏
1665965058
查看更多评论
立即登录/注册

微信扫码登录

0.0451s