(observability)= # 监控和调试 本节介绍如何使用 Ray 的 **监视和调试 Ray 应用程序和集群** 可观测性特性。 ## 什么是可观测行 一般来说,可观测性是衡量系统内部状态可以从外部输出的知识中推断出来的程度的指标。 在 Ray 的上下文中,可观察性是指用户通过各种外部输出(例如日志、指标、事件等)观察和推断 Ray 应用程序和 Ray 集群的内部状态的能力。 ![什么是可观测行](./images/what-is-ray-observability.png) ## 可观察性的重要性 由于分布式系统规模庞大且复杂,调试分布式系统可能具有挑战性。良好的可观察性对于 Ray 用户能够轻松监控和调试其 Ray 应用程序和集群非常重要。 ![可观察性的重要性](./images/importance-of-observability.png) ## 监控和调试工作流程和工具 监控和调试 Ray 应用程序包含 4 个主要步骤: 1. 监控集群和应用程序。 2. 识别出现的问题或错误。 3. 使用各种工具和数据进行调试。 4. 形成假设,实施修复并验证它。 本节的其余部分介绍 Ray 提供的可观察性工具,以加速您的监视和调试工作流程。