l
11.2 Spark与Alluxio整合原理与实战 11.2.1Spark与Alluxio整合原理Alluxio,以前称为Tachyon,是世界上第一个内存速度虚拟分布式存储系统。它统一数据访问和桥接计算框架和底层存储系统。应用程序只需要连接Alluxio来访问存储在任何底层存储系统中的数据。此外,Alluxio以内存为中心的架构使数据访问速度比现有解决方案更快。
在大数据生态系统中,Alluxio位于计算框架或作业jobs之间,如Apache Spark,Apache MapReduce,Apache HBase,Apache Hive或Apache Flink,以及各种存储系统如Amazon S3,Google Cloud Storage,OpenStack Swift ,GlusterFS,HDFS,MaprFS,Ceph,NFS和Alibaba OSS。Alluxio为生态系统带来显着的性能改善:例如,百度使用Alluxio提升数据分析速度近30倍;Barclays巴克莱银行使用Alluxio把不可能变成了可能,从之前计算的小时级变成了秒级;Qunar去哪儿网在 Alluxio之上进行实时数据分析。除了性能之外,传统存储系统中的数据通过桥接存储在Alluxio中进行新的工作负载。用户可以使用其独立的集群模式运行Alluxio ,例如在 Amazon EC2, Google Compute Engine上,或者使用Apache Mesos或 Apache Yarn启动Alluxio 。
Alluxio兼容Hadoop。现有的数据分析应用程序,如Spark和MapReduce程序,可