Spark-TFRecord:Spark将完全支持TFRecord 共同作者: Jun Shi, Mingzhou Zhou
目录
简介
-
- 简介
- 现有的项目和先前的努力
- 系统设计
- 如何使用Spark-TFRecord
- Spark-TFRecord partitionBy案例实战
- 结论
- 原文链接
- Github链接
在机器学习社区中,Apache Spark 支持SQL高效操作而被广泛用于数据处理,而TensorFlow是业界最主流的人工智能框架。尽管这两种工具都支持一些数据格式,但是Spark并不完全支持TFRecord—TensorFlow的原生数据格式。虽然以前试图在这两个系统之间架起桥梁(例如,Spark-Tensorflow-Connector),但现有的实现忽略了Spark提供的一些重要特性。
在这篇文章中,我们介绍Spark的一个新的数据源Spark-TFRecord 。Spark-TFRecord的目标是为Spark中的原生TensorFlow数据格式提供全面支持。这个项目的目的是在Spark数据源社区中将TFRecord作为一等公民,类似于其他内部格式如Avro、JSON、Parquet等。Spark-TFRecord不仅提供了简单的函数,如