繁體中文(台灣)
事件回顧:Logto 認證服務中斷事件
2025 年 6 月 12 日,因為 Cloudflare 出現影響請求路由的故障,導致 `logto.app` 上的 Logto 服務短暫中斷。問題很快被解決,數據安全和核心服務未受影響。
事件摘要
2025 年 6 月 12 日 18:07 到 18:58(UTC)之間,通過 logto.app
網域(包含自訂網域)訪問 Logto 服務的用戶遇到了錯誤。這次中斷是由 Cloudflare Workers KV 故障引起,影響了我們的路由層。使用直接 DNS 解析且不依賴 Cloudflare Workers 的 Logto Cloud 服務和 Logto Console 未受影響。服務在一小時內恢復,數據安全沒有受到影響。
時間軸(UTC)
- 18:07:通過
logto.app
發送的請求,Logto 認證服務 API 開始回傳 500 錯誤。 - 18:24:調查確認 Azure 後端運作正常,問題被確認發生在 Cloudflare Workers 和 KV。
- 18:48:Cloudflare 正式承認 Workers 和 KV 受影響發生事故。
- 18:58:我們移除了快取邏輯作為 暫時性解決方案,恢復了服務,可能有輕微效能降低。
- 21:00:Cloudflare 服務穩定後,我們重新部署快取邏輯,並加入優雅降級。服務效能完全恢復,現在能夠抵抗類似的 KV 異常情況。
根本原因
本次事件是因 Cloudflare Workers KV 服務中斷引起。我們的 Cloudflare Worker 會將請求路由到每個租戶或網域所對應的正確 Logto 區域,以確保數據合規與所在地端。為了提升效能,Worker 會利用 KV 來快取這些區域映射資料。當 KV 無法使用時,快取操作失敗,Worker 沒有進行無快取降級,而是拋出錯誤,導致服務中斷。
Logto Cloud 服務和 Logto Console 沒有受到影響,因為它們依賴直接 DNS 解析,不會使用 Cloudflare Workers 進行路由。
解決方式與改進
- 移除了 Worker 的快取依賴,讓服務得以恢復。
- Cloudflare KV 恢復後,重新部署快取邏輯並實裝優雅降級機制。若快取不可用,服務會自動切換為直接路由,不會中斷。
- 基礎設施持續改進中,以進一步提升韌性和可用性。
影響
- 通過
logto.app
使用 Logto 的用戶出現錯誤,持續約 50 分鐘。 - 沒有任何客戶數據遺失或洩漏。
- Logto Cloud 服務和 Logto Console 全程可用、未受影響。
下一步
- 我們將檢討並改進邊緣基礎設施的錯誤處理。
- 我們會評估使用多家供應商提供上游基礎設施,避免單點失效。
感謝你 的耐心與支持。