Ray Data: 可扩展的机器学习数据集#

Ray Data 是一个可扩展的机器学习数据处理库。它提供了灵活且高性能的 API,用于扩展 离线批量推断用于 ML 训练的数据预处理和摄取。Ray Data 使用 流式执行 来高效处理大型数据集。

../_images/dataset.svg

安装 Ray Data#

要安装 Ray Data,请运行以下命令:

$ pip install -U 'ray[data]'
要了解有关 Ray 机器类库的更多信息,请参阅

安装 Ray

学习更多内容#

Ray Data Overview

获取 Ray Data 的概述,支持的工作负载以及与其他替代方案的比较。

Key Concepts

了解 Ray Data 背后的关键概念。了解什么是 Datasets ,以及它们是如何使用的。

User Guides

学习如何使用 Ray Data,从基本用法到端到端指南。

Examples

查找使用 Ray Data 的简单示例和扩展示例。

API

获取有关 Ray Data API 的更多深入信息。

Ray blogs

获取 Ray 团队的工程更新以及公司如何使用 Ray Data 的最新信息。