← 全部内容
2026-05-07 风险提醒 风险

OpenClaw 2026.5.6 操作者需要准备 Gateway 卡死恢复方案

最新一批 OpenClaw 报告正在指向一个实际可靠性问题:当 Gateway 被打满或卡死时,依赖 Gateway 自身 RPC 的重启路径和通道投递都可能失效。用户报告了 15-100 秒 WebSocket 响应、99-100% event-loop utilization、僵尸 session、node.list 错误导致所有 agent session 挂住、native Codex 在工具调用后的 follow-up sampling 卡住,以及 embedded direct-lane 的 plugin tool allowlist 失效。

影响风险 来源3 对象operator · developer
为什么重要

个人 Agent 可以忍受不少功能 bug,但不能接受控制面、消息通道和恢复命令都绑在同一个卡死 event loop 上。这不是单个 bug,而是操作者需要补上的运行手册。

证据
  • Issue #78861:OpenClaw v2026.5.6 即使禁用 Telegram、降低并发后,仍出现 15-100 秒 WebSocket 响应与 ELU 100%
  • Issue #78908:dashboard 僵尸 session、99-100% ELU 与模型 timeout 叠加,造成 20 分钟以上无响应
  • Issue #78915:提出 watchdog-restart,因为 openclaw gateway restart 依赖 Gateway RPC,无法恢复完全卡死的进程
  • Issue #78881:node.list 每秒报 undefined.trim TypeError,随后所有 agent session 都挂住不回复
  • Issue #78870:native Codex runtime 在工具调用后的 follow-up sampling 卡住,伴随 CPU 升高和主机短暂无响应
  • Issue #78865:一次外部 API rate limit 后,Agent 反复重试约 50 分钟,暴露 tool-call circuit breaker 缺口
  • Issue #78907 与 PR #78914:embedded direct-lane 下,已加载 plugin tool 仍可能无法从 allowlist materialize
  • PR #78912 修复 embedded-session OpenAI-compatible provider streaming transport 路径,但这一批还没有进入正式 OpenClaw 发布
风险提示
  • 部分报告与具体环境有关,包括 Windows、macOS、Linux、Feishu、Discord、native Codex 和自定义 provider
  • 一些 issue 已关闭是因为已有 PR 或设计处理,并不等于操作者已经拿到 tagged release
  • 不要假设一条重启命令足够:如果 Gateway RPC 被卡住,supervisor 级恢复可能才是可用路径