大数据技术(Spark、Hadoop、Kafka 等) 日益火热,人才市场缺口较大,而掌握大数据技术也成为程序员们加薪升职的一个重要机遇。但是大数据技术系统庞杂,分布式存储 (Hive、Hbase、Parquet、HDFS、Redis 等),分布式计算 (Map-Reduce、Spark 等),流计算 (Spark Streaming、Kafka、Storm,Flink) 等,脉络复杂,学习的时候往往盲人摸象,不得要领,明明想要成为大数据的人才,却成为基于 API 编写接口的外包人员,在遇到性能问题的时候也不知道如何定位和优化。
大数据依靠的是分布式,分布式的产生是由于单机存储和处理面临了一些难以解决的问题,当我们了解了这些问题,并找到这些问题的解决方案,我们也就从宏观的层面上理解了分布式和大数据,这对我们进入大数据开发及进阶都是大有裨益的。
通过本 Chat,您将了解以下内容:
- 分布式存储产生的原因与主流框架:Hbase 和 Redis。因 Hbase 是基于 HDFS 的,而 Redis 非 Hadoop 生态,本部分将基于两者的对比介绍分布式存储系统带来的可用性,一致性等问题及主流解决方案。
- 分布式计算产生的原因与主流框架:Spark。因 Spark 是现在最火热的处理框架,在面试中也最为常见,本部分将对 Spark 的计算框架进行系统性的介绍,并基于 Spark 介绍分布式计算带来的通信与调度等问题及主流解决方案,同时会讲解 Spark 性能调优的一些细节。
- 流处理产生的原因与主流框架:Spark Streaming。流处理的市场越来越大,本部分将基于 Spark Streaming 对流处理的基本思路进行介绍,涉及 Spark Streaming 的运行框架和调度原理,同时会对 Flink 进行简单的介绍(个人认为 Flink 会成为未来流处理技术最为重要的一个分支)。
阅读全文: http://gitbook.cn/gitchat/activity/5b6acfbcfd4f4f7bb148be36
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。