Postmortem: Logto-authenticatiedienst storing
Op 12 juni 2025 werden Logto-diensten op `logto.app` kortstondig onderbroken door een Cloudflare-storing die het routeren van aanvragen beïnvloedde. Het probleem werd snel opgelost, zonder invloed op de gegevensbeveiliging of de kernservices.
Samenvatting van het incident
Tussen 18:07 en 18:58 UTC op 12 juni 2025 ondervonden gebruikers die Logto-diensten via het logto.app
-domein (inclusief aangepaste domeinen) benaderden fouten. De onderbreking werd veroorzaakt door een storing in Cloudflare Workers KV, wat invloed had op onze routeringslaag. Logto Cloud-diensten en Logto Console, die directe DNS-resolutie gebruiken en niet afhankelijk zijn van Cloudflare Workers, werden niet beïnvloed. De dienst werd binnen een uur hersteld, zonder gevolgen voor de gegevensbeveiliging.
Tijdlijn (UTC)
- 18:07: Logto-authenticatieservice-API's begonnen 500-fouten terug te geven voor aanvragen via
logto.app
. - 18:24: Onderzoek bevestigde dat de Azure-backend gezond was en het probleem beperkt was tot Cloudflare Workers en KV.
- 18:48: Cloudflare erkende officieel een incident dat Workers en KV trof.
- 18:58: We hebben een tijdelijke oplossing uitgerold door de cachelogica te verwijderen, waarmee de service werd hersteld, mogelijk met lichte prestatievermindering.
- 21:00: Nadat de Cloudflare-diensten weer stabiel waren, hebben we de cachelogica opnieuw uitgerold met een elegante fallback. De volledige prestaties werden hersteld en de service is nu veerkrachtig tegen soortgelijke KV-storingen.
Oorzaak van het probleem
Dit incident werd veroorzaakt door uitval van Cloudflare Workers KV. Onze Cloudflare Worker routeert verzoeken naar de juiste Logto-regio voor elke tenant of domein om correcte gegevenslocatie en naleving te waarborgen. Om de prestaties te verbeteren, gebruikt de Worker KV om deze regiokoppelingen te cachen. Toen KV onbeschikbaar werd, mislukten cachebewerkingen en gooide de Worker fouten in plaats van terug te vallen op gedrag zonder cache, wat voor verstoring zorgde.
Logto Cloud-diensten en Logto Console werden niet beïnvloed omdat ze vertrouwen op directe DNS-resolutie en geen Cloudflare Workers gebruiken voor routering.
Oplossing en verbeteringen
- De afhankelijkheid van de cache van de Worker verwijderd, waardoor de service werd hersteld.
- Nadat Cloudflare KV hersteld was, de cachelogica opnieuw uitgerold met een elegante fallback. Als de cache onbeschikbaar is, blijft de service functioneren via directe routering zonder onderbreking.
- Voortdurende verbeteringen aan de infrastructuur om veerkracht en beschikbaarheid verder te vergroten.
Impact
- Gebruikers die Logto benaderden via
logto.app
ondervonden ongeveer 50 minuten lang fouten. - Er is geen klantdata verloren gegaan of gecompromitteerd.
- Logto Cloud-diensten en Logto Console bleven volledig operationeel.
Volgende stappen
- We zullen onze foutafhandeling in de edge-infrastructuur herzien en verbeteren.
- We zullen onderzoeken of we meerdere leveranciers kunnen gebruiken voor upstream-infrastructuur om single points of failure te vermijden.
Bedankt voor je geduld en steun.