Ray 数据概述#

Ray Data 是一个可扩展的机器学习数据处理库，特别适用于以下工作负载：

离线批量推理
用于 ML 训练的数据预处理和摄取

它为分布式数据处理提供灵活且高性能的API：

简单的变换，例如映射 (map_batches())
全局聚合和分组聚合 (groupby())
洗牌操作 (random_shuffle(), sort(), repartition()).

Ray Data 构建在 Ray 之上，因此它可以有效地扩展到大型集群，并为 CPU 和 GPU 资源提供调度支持。 Ray Data 使用流式执行来高效处理大型数据集。

Note

Ray Data 没有 SQL 接口，也不能替代 Spark 等通用 ETL 管道。

为什么选择 Ray Data ？#

离线批量推理#

Tip

请联系我们以获取使用 Ray Data 的帮助，这是业界最快、最便宜的离线批量推理解决方案。

离线批量推理是对一组固定输入数据生成模型预测的过程。 Ray Data 为批量推理提供了高效且可扩展的解决方案，为深度学习应用程序提供更快的执行速度和成本效益。有关如何使用 Ray Data 进行离线批量推理的更多详细信息，请参阅批量推理用户指南。

Ray Data 与离线推理 X 相比如何？#

批量推理案例研究#

ML 训练的预处理和摄取#

使用 Ray Data 以流方式加载和预处理分布式 ML training pipelines 的数据。 Ray Data 充当从存储或 ETL 管道输出到 Ray 中的分布式应用程序和库的最后一英里桥梁。不要将其用作更通用的数据处理系统的替代品。有关如何使用 Ray Data 进行预处理和摄取以进行 ML 训练的更多详细信息，请参阅 ML 训练的数据加载。

Ray 2.7.2

Ray 数据概述

Contents

Ray 数据概述#

为什么选择 Ray Data ？#

离线批量推理#

Ray Data 与离线推理 X 相比如何？#

批量推理案例研究#

ML 训练的预处理和摄取#

Ray Data 与 ML 训练摄取的 X 相比如何？#

ML 摄取案例研究#