数据加载#

Ray Data 从各种来源加载数据。本指南向您展示如何：

读取图像等文件
加载内存数据如 pandas DataFrames
读取数据如 MySQL

读取文件#

Ray Data 从本地磁盘或云存储中读取多种文件格式的文件。要查看支持的文件格式的完整列表，请参阅 Input/Output 参考。

Parquet

要读取 Parquet 文件，请调用 read_parquet()。

import ray

ds = ray.data.read_parquet("local:///tmp/iris.parquet")

print(ds.schema())

Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string

Images

读取原始图像，请调用 read_images()。Ray Data 将图像表示为 NumPy ndarray。

import ray

ds = ray.data.read_images("local:///tmp/batoidea/JPEGImages/")

print(ds.schema())

Column  Type
------  ----
image   numpy.ndarray(shape=(32, 32, 3), dtype=uint8)

Text

要读取文本行，请调用 read_text()。

import ray

ds = ray.data.read_text("local:///tmp/this.txt")

print(ds.schema())

Column  Type
------  ----
text    string

CSV

要读取 CSV 文件，请调用 read_csv()。

import ray

ds = ray.data.read_csv("local:///tmp/iris.csv")

print(ds.schema())

Column             Type
------             ----
sepal length (cm)  double
sepal width (cm)   double
petal length (cm)  double
petal width (cm)   double
target             int64

Binary

要读取原始二进制文件，请调用 read_binary_files()。

import ray

ds = ray.data.read_binary_files("local:///tmp/file.dat")

print(ds.schema())

Column  Type
------  ----
bytes   binary

TFRecords

要读取 TFRecords 文件，请调用 read_tfrecords()。

import ray

ds = ray.data.read_tfrecords("local:///tmp/iris.tfrecords")

print(ds.schema())

Column             Type
------             ----
sepal length (cm)  double
sepal width (cm)   double
petal length (cm)  double
petal width (cm)   double
target             int64

从本地磁盘读取文件#

要从本地磁盘读取文件，请调用如 read_parquet() 函数，并使用 local:// 协议指定路径。路径可以指向文件或目录。

要读取 Parquet 以外的格式，请参阅 Input/Output 参考。

Tip

如果您的文件可以在每个节点上访问，请排除 local:// 以在集群中并行读取任务。

import ray

ds = ray.data.read_parquet("local:///tmp/iris.parquet")

print(ds.schema())

Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string

从云存储读取文件#

要读取云存储中的文件，请向云服务提供商验证所有节点。然后，调用类似方法 read_parquet() 并指定具有适当架构的 URI。 URI 可以指向存储桶、文件夹或对象。

要读取 Parquet 以外的格式，请参阅 Input/Output 参考。

要从 Amazon S3 读取文件，请使用 s3:// 协议。

import ray

ds = ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet")

print(ds.schema())

Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string

GCS

要从 Google Cloud Storage 读取文件，请安装 Google Cloud Storage 的文件系统接口

pip install gcsfs

然后，创建一个 GCSFileSystem 并使用 gcs:// 指定 URI。

import ray

ds = ray.data.read_parquet("s3://anonymous@ray-example-data/iris.parquet")

print(ds.schema())

Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string

ABL

要从 Azure Blob 存储读取文件，请将文件系统接口安装到 Azure-Datalake Gen1 和 Gen2 存储

pip install adlfs

然后，创建一个 AzureBlobFileSystem 并使用 az:// 协议的 URI。

import adlfs
import ray

ds = ray.data.read_parquet(
    "az://ray-example-data/iris.parquet",
    adlfs.AzureBlobFileSystem(account_name="azureopendatastorage")
)

print(ds.schema())

Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string

从 NFS 读取文件#

要从 NFS 文件系统读取文件，请调用类似函数 read_parquet() 并指定已挂载文件系统上的文件。路径可以指向文件或目录。

要读取 Parquet 以外的格式，请参阅 Input/Output 参考。

import ray

ds = ray.data.read_parquet("/mnt/cluster_storage/iris.parquet")

print(ds.schema())

Column        Type
------        ----
sepal.length  double
sepal.width   double
petal.length  double
petal.width   double
variety       string

处理压缩文件#

要读取压缩文件，请再 compression 中指定 arrow_open_stream_args 。您可以使用 Arrow 支持的任何编解码器。

import ray

ds = ray.data.read_csv(
    "s3://anonymous@ray-example-data/iris.csv.gz",
    arrow_open_stream_args={"compression": "gzip"},
)

读取数据库#

Ray Data 从 MySQL、PostgreSQL 和 MongoDB 等数据库读取。

读取 SQL 数据库#

调用 Python DB API2 标准连接器的 read_sql() 从数据库中读取数据。

MySQL

要从 MySQL 读取数据，请安装 MySQL Connector/Python。它是第一方 MySQL 数据库连接器。

pip install mysql-connector-python

然后，定义连接逻辑并查询数据库。

import mysql.connector

import ray

def create_connection():
    return mysql.connector.connect(
        user="admin",
        password=...,
        host="example-mysql-database.c2c2k1yfll7o.us-west-2.rds.amazonaws.com",
        connection_timeout=30,
        database="example",
    )

# Get all movies
dataset = ray.data.read_sql("SELECT * FROM movie", create_connection)
# Get movies after the year 1980
dataset = ray.data.read_sql(
    "SELECT title, score FROM movie WHERE year >= 1980", create_connection
)
# Get the number of movies per year
dataset = ray.data.read_sql(
    "SELECT year, COUNT(*) FROM movie GROUP BY year", create_connection
)

PostgreSQL

To read from PostgreSQL, install Psycopg 2. It’s the most popular PostgreSQL database connector.

pip install psycopg2-binary

Then, define your connection logic and query the database.

import psycopg2

import ray

def create_connection():
    return psycopg2.connect(
        user="postgres",
        password=...,
        host="example-postgres-database.c2c2k1yfll7o.us-west-2.rds.amazonaws.com",
        dbname="example",
    )

# Get all movies
dataset = ray.data.read_sql("SELECT * FROM movie", create_connection)
# Get movies after the year 1980
dataset = ray.data.read_sql(
    "SELECT title, score FROM movie WHERE year >= 1980", create_connection
)
# Get the number of movies per year
dataset = ray.data.read_sql(
    "SELECT year, COUNT(*) FROM movie GROUP BY year", create_connection
)

Snowflake

To read from Snowflake, install the Snowflake Connector for Python.

pip install snowflake-connector-python

Then, define your connection logic and query the database.

import snowflake.connector

import ray

def create_connection():
    return snowflake.connector.connect(
        user=...,
        password=...
        account="ZZKXUVH-IPB52023",
        database="example",
    )

# Get all movies
dataset = ray.data.read_sql("SELECT * FROM movie", create_connection)
# Get movies after the year 1980
dataset = ray.data.read_sql(
    "SELECT title, score FROM movie WHERE year >= 1980", create_connection
)
# Get the number of movies per year
dataset = ray.data.read_sql(
    "SELECT year, COUNT(*) FROM movie GROUP BY year", create_connection
)

Databricks

To read from Databricks, install the Databricks SQL Connector for Python.

pip install databricks-sql-connector

Then, define your connection logic and read from the Databricks SQL warehouse.

from databricks import sql

import ray

def create_connection():
    return sql.connect(
        server_hostname="dbc-1016e3a4-d292.cloud.databricks.com",
        http_path="/sql/1.0/warehouses/a918da1fc0b7fed0",
        access_token=...,


# Get all movies
dataset = ray.data.read_sql("SELECT * FROM movie", create_connection)
# Get movies after the year 1980
dataset = ray.data.read_sql(
    "SELECT title, score FROM movie WHERE year >= 1980", create_connection
)
# Get the number of movies per year
dataset = ray.data.read_sql(
    "SELECT year, COUNT(*) FROM movie GROUP BY year", create_connection
)

BigQuery

To read from BigQuery, install the Python Client for Google BigQuery. This package includes a DB API2-compliant database connector.

pip install google-cloud-bigquery

Then, define your connection logic and query the dataset.

from google.cloud import bigquery
from google.cloud.bigquery import dbapi

import ray

def create_connection():
    client = bigquery.Client(...)
    return dbapi.Connection(client)

# Get all movies
dataset = ray.data.read_sql("SELECT * FROM movie", create_connection)
# Get movies after the year 1980
dataset = ray.data.read_sql(
    "SELECT title, score FROM movie WHERE year >= 1980", create_connection
)
# Get the number of movies per year
dataset = ray.data.read_sql(
    "SELECT year, COUNT(*) FROM movie GROUP BY year", create_connection
)

读取 MongoDB#

要从 MongoDB 读取数据，请调用 read_mongo() 并指定源 URI、数据库和集合。您还需要指定针对集合运行的管道。

import ray

# Read a local MongoDB.
ds = ray.data.read_mongo(
    uri="mongodb://localhost:27017",
    database="my_db",
    collection="my_collection",
    pipeline=[{"$match": {"col": {"$gte": 0, "$lt": 10}}}, {"$sort": "sort_col"}],
)

# Reading a remote MongoDB is the same.
ds = ray.data.read_mongo(
    uri="mongodb://username:password@mongodb0.example.com:27017/?authSource=admin",
    database="my_db",
    collection="my_collection",
    pipeline=[{"$match": {"col": {"$gte": 0, "$lt": 10}}}, {"$sort": "sort_col"}],
)

# Write back to MongoDB.
ds.write_mongo(
    MongoDatasource(),
    uri="mongodb://username:password@mongodb0.example.com:27017/?authSource=admin",
    database="my_db",
    collection="my_collection",
)

创建合成数据#

综合数据集可用于测试和基准测试。

Int Range

要从一系列整数创建合成 Dataset ，调用 range()。 Ray Data 将整数范围存储在单列中。

import ray

ds = ray.data.range(10000)

print(ds.schema())

Column  Type
------  ----
id      int64

Tensor Range

To create a synthetic Dataset containing arrays, call range_tensor(). Ray Data packs an integer range into ndarrays of the provided shape.

import ray

ds = ray.data.range_tensor(10, shape=(64, 64))

print(ds.schema())

Column  Type
------  ----
data    numpy.ndarray(shape=(64, 64), dtype=int64)

加载其他数据源#

如果 Ray Data 无法加载您的数据，请使用 Datasource。然后，构建自定义数据源的实例并将其传递给给 read_datasource()。

# Read from a custom datasource.
ds = ray.data.read_datasource(YourCustomDatasource(), **read_args)

# Write to a custom datasource.
ds.write_datasource(YourCustomDatasource(), **write_args)

有关示例，请参阅实现自定义数据源。

性能考虑#

parallelism 数据集决定了基础数据被分割成并行读取的块数。: Ray Data 在内部决定同时运行多少个读取任务，以充分利用集群，范围从 1...parallelism 个读取任务。

换句话说，并行度越高，Dataset 中的数据块越小，因此并行执行的机会就越多。

可以通过 parallelism 数覆盖此默认并行性；有关如何调整读取并行性的更多信息，请参阅性能指南。

Ray 2.7.2

数据加载

Contents

数据加载#

读取文件#

从本地磁盘读取文件#

从云存储读取文件#

从 NFS 读取文件#

处理压缩文件#

从其他库加载数据#

从单节点数据库加载数据#

从分布式 DataFrame 库加载数据#

从 ML 库加载数据#

读取数据库#

读取 SQL 数据库#

读取 MongoDB#

创建合成数据#

加载其他数据源#

性能考虑#