一、部署
1.1、安装部署
二、概念及理论
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。
在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了能在同时搞定在线应用(消息)和离线应用(数据文件,日志)Kafka就出现了。Kafka可以起到两个作用:
- 降低系统组网复杂度。
- 降低编程复杂度,各个子系统不在是相互协商接口,各个子系统类似插口插在插座上,Kafka承担高速数据总线的作用。
Kafka主要特点:
-
同时为发布和订阅提供高吞吐量。据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。
-
可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如ETL,以及实时应用程序。通过将数据持久化到硬盘以及replication防止数据丢失。
-
分布式系统,易于向外扩展。所有的producer、broker和consumer都会有多个,均为分布式的。无需停机即可扩展机器。
-
消息被处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡。支持online和offline的场景。
- flume之kafkaSink
-
strom之KafkaSpout
- 测试
- 问题
- Kafka的吞吐量测试(测试生产速度和消费速度)
- Kafka内存为6G(不能超过6G)
- Kafka数量确定:2 * 峰值生产速度(m/s)* 副本数 / 100 + 1 = ?
- Kafka中的数据量计算 每天数据总量100g(1亿条) 10000万/24/60/60 = 1150条/s 平均每秒钟:1150条 低谷每秒:400条 高峰每秒钟:1150 * 10 = 11000 条 每条日志大小: 1K左右 每秒多少数据量:20MB
- Kafka消息数据积压,Kafka消费能力不足怎么处理? (1)如果是Kafka消费能力不足,则可以考虑增加Topic的分区数,并且同时提升消费组的消费者数量,消费者数=分区数。(两者缺一不可) (2)如果是下游的数据处理不及时:提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据积压。
- 深入理解分布式系统kafka知识点
- Apache Kafka: 优化部署的10个最佳实践
- 再过半小时,你就能明白kafka的工作原理了
- Kafka深度解析
