繁體中文(香港)
  • postmortem

事後報告:Logto 認證服務中斷事故

2025 年 6 月 12 日,受 Cloudflare 中斷影響,`logto.app` 上的 Logto 服務請求路由一度受阻。事故很快被解決,數據安全和核心服務未受影響。

Gao
Gao
Founder

Stop wasting weeks on user auth
Launch secure apps faster with Logto. Integrate user auth in minutes, and focus on your core product.
Get started
Product screenshot

事故摘要

2025 年 6 月 12 日 18:07 至 18:58 UTC,通過 logto.app 網域(包括自訂網域)存取 Logto 服務的用戶遇到錯誤。服務中斷原因是 Cloudflare Workers KV 發生故障,影響到我們的路由層。直接使用 DNS 解析、並不依賴 Cloudflare Workers 的 Logto Cloud 服務及 Logto Console 不受影響。服務於一小時內恢復,數據安全未受影響。

事件時間軸(UTC)

  • 18:07:Logto 認證服務 API 通過 logto.app 的請求開始返回 500 錯誤。
  • 18:24:調查確認 Azure 後端運作正常,問題鎖定於 Cloudflare Workers 及 KV。
  • 18:48:Cloudflare 官方公告 Workers 和 KV 出現事故。
  • 18:58:我們移除快取邏輯,作為臨時解決方法,服務恢復,但可能出現輕微效能下降。
  • 21:00:Cloudflare 服務恢復穩定後,我們重新部署帶有優雅降級的快取邏輯。服務性能全面恢復,現時已增強對同類 KV 異常的抵抗力。

根本原因

本次事故由 Cloudflare Workers KV 停機引起。我們的 Cloudflare Worker 會將請求路由到每個租戶或網域對應的 Logto 區域,以確保合規與資料本地化。為提升效能,Worker 利用 KV 快取這些區域映射。當 KV 變為不可用時,快取操作失敗,Worker 拋出錯誤而非直接降級為無快取模式,導致服務中斷。

Logto Cloud 服務及 Logto Console 由於依賴直接 DNS 解析、不使用 Cloudflare Workers 路由,所以未受影響。

解決方案與改進

  • 移除 Worker 的快取依賴,恢復服務。
  • Cloudflare KV 恢復後,重新部署包含優雅降級的快取邏輯。快取不可用時將直接走路由,服務運作不受阻礙。
  • 持續優化基礎設施,進一步提升韌性及可用性。

影響

  • 經由 logto.app 存取 Logto 的用戶,約 50 分鐘內持續遇到錯誤。
  • 沒有用戶數據丟失或洩漏。
  • Logto Cloud 服務與 Logto Console 全程正常運作。

後續行動

  • 我們將檢討並改進邊緣基礎設施的錯誤處理能力。
  • 將研究引入多供應商上游基礎設施,以降低單點故障風險。

感謝你耐心等待與支持。