简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)
开源大数据社区 & 阿里云 EMR 系列直播 第四期主题:Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人内容框架:
- Databricks 数据洞察产品介绍
- 功能介绍
- 典型场景
- 客户案例
- 产品Demo
直播回放:扫描文章底部二维码加入钉群观看回放
一、Databricks 数据洞察产品介绍 1、 Databricks 公司简介 2、 什么是阿里云 Databricks 数据洞察产品 01\ Databricks 公司简介① ApacheSpark 创始公司,也是 Spark 的最大代码贡献者,Spark 技术生态背后的商业公司。
在2013年,由加州大学伯克利分校 AMPLab 的创始团队 ApacheSpark 的创建者所成立。
② 核心产品和技术,主导和推进 Spark 开源生态
ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform
③ 公司定位
- Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构
- 开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品
- 多云策略,与顶级云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台
④ 市场地位
- 科技独角兽,行业标杆,领导Spark整体技术生态的走向及风向标
- 2021年最受期待的科技上市公司
(来源 Databricks 官网)
① 2019年10月G轮,估值 $ 6.2 Billion
② 2021年2月初F轮,估值 $ 28 Billion
- 本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的发展的重视
- 上市预期:计划 IPO 在2021年——多方预测 Databricks 上市之时其估值可能达到350亿美元,甚至是高达500亿美元
- Apache Spark 背后的商业公司,Spark 创始团队,美国科技独角兽
- 在全球拥有5,000多个客户和450多个合作伙伴,品牌认知强
- 2020年,在 Gartner 发布的数据科学和机器学习(DSML)平台魔力象限报告中,位于领导者象限
产品核心:
- 基于商业版 Spark 的全托管大数据分析& AI 平台
- 内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障
- 与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性
产品引擎与服务:
- 100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化
- 提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务
DDI 产品能力核心构件
产品关键信息与优势
企业级高性能、稳定性、可靠性
优化的 Apache Zeppelin
- 多语言支持
- Scala、Python、Spark SQL、R
- 交互式分析
- 数据可视化
- 集成调度能力
- 一站式开发平台
- 多用户协作开发
- 支持 jar 包提交作业及作业调度能力
- 支持 Spark/Spark Streaming/Notebook
- 不同作业类型工作流混合调度
- 支持调度运维、审计日志、版本控制等
三种元数据选择的方式
DDI 与阿里云产品深度集成(典型场景)
数据获取
- 接收实时产生的流式数据和外部云存储上批量数据。
数据 ETL
- 持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障。
BI报表数据分析 & 交互式分析
- 支持 Ad hoc 查询,Notebook 可视化分析,无缝对接多种BI分析工具。
AI数据探索
- 支持机器学习,Mllib 等 Spark 生态 AI 场景。
上下游网络打通
- 如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等。
本架构描述利用 Databricks 数据洞察 解决客户大数据计算问题:
- 数据存储:自建 Hive数仓-》OSS (降低存储成本,同时做计算存储分离)
- 大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 调度, Python 库的安装方便等)
- 元数据:自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库
- 数据迁移:使用 DistCp 或 JindoDistCp 将数据迁移到 OSS,数据结果同步继续使用Sqoop 定时任务
客户成本收益分析
- 全托管 Spark 集群免运维,节省人力成本(省1运维+ 1大数据,此外免去性能调优)
- 相比自建机器资源多了3倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估3倍),整体性能提升9倍
- Notebook 交互式分析+ DAG 工作流调度,提升数据开发/分析体验
- 技术方案统一,计算存储分离方案 OSS 存储节省客户存储成本,并为以后数据湖、多计算架构铺路
- Delta Lake 解决了客户增量数据更新的问题
- 数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据
- 数据 ETL:持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障
- BI数据分析&交互式分析: 支持查询,Notebook 可视化分析,无缝对接多种BI分析工具
- 数据科学:支持机器学习/深度学习
- ⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等
原文链接
本文为阿里云原创内容,未经允许不得转载。