您当前的位置: 首页 >  kafka

宝哥大数据

暂无认证

  • 7浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

kafka目录导读(入门到进阶)

宝哥大数据 发布时间:2020-05-06 15:48:58 ,浏览量:7

一、部署 1.1、安装部署 二、概念及理论

  Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。

  在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了能在同时搞定在线应用(消息)和离线应用(数据文件,日志)Kafka就出现了。Kafka可以起到两个作用:

  • 降低系统组网复杂度。
  • 降低编程复杂度,各个子系统不在是相互协商接口,各个子系统类似插口插在插座上,Kafka承担高速数据总线的作用。

Kafka主要特点:

  • 同时为发布和订阅提供高吞吐量。据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。

  • 可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如ETL,以及实时应用程序。通过将数据持久化到硬盘以及replication防止数据丢失。

  • 分布式系统,易于向外扩展。所有的producer、broker和consumer都会有多个,均为分布式的。无需停机即可扩展机器。

  • 消息被处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡。支持online和offline的场景。

2.0、Kafka的架构原理 2.1、Producer&Consumer 2.2、Topics and Logs 2.3、kafka文件存储 三、整合 3.1、kafka+flume 3.2、flume+kafka+storm
  • flume之kafkaSink
  • strom之KafkaSpout
    • 测试
  • 问题
3.3、kafka 出现错误问题 3.3.1、kafka消费少了 四、进阶  4.1、Confluent介绍  4.2、Kafka-Connect实践   4.2.1、debezium  4.3、Schema-Registry Kafka面试总结
  1. Kafka的吞吐量测试(测试生产速度和消费速度)
  2. Kafka内存为6G(不能超过6G)
  3. Kafka数量确定:2 * 峰值生产速度(m/s)* 副本数 / 100 + 1 = ?
  4. Kafka中的数据量计算 每天数据总量100g(1亿条) 10000万/24/60/60 = 1150条/s 平均每秒钟:1150条 低谷每秒:400条 高峰每秒钟:1150 * 10 = 11000 条 每条日志大小: 1K左右 每秒多少数据量:20MB
  5. Kafka消息数据积压,Kafka消费能力不足怎么处理? (1)如果是Kafka消费能力不足,则可以考虑增加Topic的分区数,并且同时提升消费组的消费者数量,消费者数=分区数。(两者缺一不可) (2)如果是下游的数据处理不及时:提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间
关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0736s