Svenska
  • efteranalys

Efteranalys: Logto autentiseringstjänst avbrott

Den 12 juni 2025 drabbades Logto-tjänster på `logto.app` av ett kortvarigt driftavbrott orsakat av en Cloudflare-störning som påverkade begäransrutning. Problemet löstes snabbt, utan påverkan på datasäkerhet eller kärntjänster.

Gao
Gao
Founder

Sluta slösa veckor på användarautentisering
Lansera säkra appar snabbare med Logto. Integrera användarautentisering på några minuter och fokusera på din kärnprodukt.
Kom igång
Product screenshot

Incidentöversikt

Mellan 18:07 och 18:58 UTC den 12 juni 2025 upplevde användare som nådde Logto-tjänster via logto.app-domänen (inklusive egna domäner) felmeddelanden. Avbrottet orsakades av en störning i Cloudflare Workers KV, vilket påverkade vårt ruttningslager. Logto Cloud-tjänster och Logto Console, som använder direkt DNS-upplösning och inte är beroende av Cloudflare Workers, påverkades inte. Tjänsten återställdes inom en timme, utan påverkan på datasäkerheten.

Tidslinje (UTC)

  • 18:07: Logtos autentiseringstjänst-API:er började returnera 500-fel för begäranden via logto.app.
  • 18:24: Undersökning bekräftade att Azure-backenden fungerade och att problemet var isolerat till Cloudflare Workers och KV.
  • 18:48: Cloudflare bekräftade officiellt en incident som påverkade Workers och KV.
  • 18:58: Vi implementerade en tillfällig lösning genom att ta bort cachelogiken, vilket återställde tjänsten med eventuellt mindre prestandaförsämring.
  • 21:00: Efter att Cloudflare-tjänsterna stabiliserats återinförde vi cachelogiken med en mjuk återgång. Full prestanda återställdes och tjänsten är nu motståndskraftig mot liknande KV-avbrott.

Grundorsak

Denna incident utlöstes av driftsstopp i Cloudflare Workers KV. Vår Cloudflare Worker styr begäranden till rätt Logto-region för varje hyresgäst eller domän för att säkerställa korrekt datahantering och regelefterlevnad. För att förbättra prestandan använder Workern KV för att cachelagra regionmappningarna. När KV inte var tillgänglig misslyckades cacheoperationerna och Workern kastade fel istället för att falla tillbaka till ett icke-cache-beteende, vilket orsakade tjänstebrott.

Logto Cloud-tjänster och Logto Console påverkades inte eftersom de är beroende av direkt DNS-upplösning och inte använder Cloudflare Workers för rutning.

Lösning och förbättringar

  • Tog bort cacheberoendet från Workern och återställde tjänsten.
  • När Cloudflare KV återhämtade sig återinfördes cachelogik med en mjuk återgång. Om cachen är otillgänglig fortsätter tjänsten med direkt rutning utan avbrott.
  • Fortlöpande förbättringar av infrastrukturen för ännu bättre motståndskraft och tillgänglighet.

Påverkan

  • Användare som nådde Logto via logto.app upplevde fel under cirka 50 minuter.
  • Inga kunddata gick förlorade eller komprometterades.
  • Logto Cloud-tjänster och Logto Console fortsatte fungera fullt ut.

Nästa steg

  • Vi kommer att se över och förbättra vår felhantering i edge-infrastrukturen.
  • Vi kommer att undersöka möjligheten att använda flera leverantörer för infrastrukturtjänster uppströms för att undvika enskilda felpunkter.

Tack för ert tålamod och stöd.