kafka目录导读（入门到进阶）

发布时间：2020-05-06 15:48:58 ，浏览量：9

一、部署 1.1、安装部署二、概念及理论

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。

在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了能在同时搞定在线应用（消息）和离线应用（数据文件，日志）Kafka就出现了。Kafka可以起到两个作用：

Kafka主要特点：

2.0、Kafka的架构原理 2.1、Producer&Consumer 2.2、Topics and Logs 2.3、kafka文件存储三、整合 3.1、kafka+flume 3.2、flume+kafka+storm

3.3、kafka 出现错误问题 3.3.1、kafka消费少了四、进阶 4.1、Confluent介绍 4.2、Kafka-Connect实践 4.2.1、debezium 4.3、Schema-Registry Kafka面试总结

Kafka的吞吐量测试（测试生产速度和消费速度）
Kafka内存为6G（不能超过6G）
Kafka数量确定：2 * 峰值生产速度（m/s）* 副本数 / 100 + 1 = ?
Kafka中的数据量计算每天数据总量100g(1亿条) 10000万/24/60/60 = 1150条/s 平均每秒钟：1150条低谷每秒：400条高峰每秒钟：1150 * 10 = 11000 条每条日志大小： 1K左右每秒多少数据量：20MB
Kafka消息数据积压，Kafka消费能力不足怎么处理？（1）如果是Kafka消费能力不足，则可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）（2）如果是下游的数据处理不及时：提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。

Reference

关注我的公众号

在这里插入图片描述

关注

打赏

1688896170

查看更多评论

[ 申请 ]友情链接：