Jälkiselvitys: Logto-todennuspalvelun käyttökatko
12. kesäkuuta 2025 Logto-palvelut osoitteessa `logto.app` kokivat lyhytaikaisen häiriön Cloudflaren katkon vuoksi, joka vaikutti pyyntöjen reititykseen. Ongelma ratkaistiin nopeasti, eikä sillä ollut vaikutusta tietoturvaan tai ydintoimintoihin.
Tapahtuman yhteenveto
- kesäkuuta 2025 klo 18.07–18.58 UTC käyttäjät, jotka käyttivät Logto-palveluja
logto.app
-domainin (mukaan lukien räätälöidyt domainit) kautta, kohtasivat virheitä. Häiriö johtui Cloudflare Workers KV -palvelun käyttökatkosta, joka vaikutti reitityskerrokseemme. Logto Cloud -palvelut ja Logto Console, jotka käyttävät suoraa DNS-resoluutiota eivätkä riipu Cloudflare Workersista, eivät kärsineet ongelmista. Palvelu palautui alle tunnissa, eikä tietoturva vaarantunut.
Aikajana (UTC)
- 18:07: Logto-todennuspalvelun API:t alkoivat palauttaa 500-virheitä pyynnöille
logto.app
-osoitteen kautta. - 18:24: Tutkimus vahvisti, että Azure-taustajärjestelmä toimi normaalisti ja ongelma rajautui Cloudflare Workereihin ja KV:hen.
- 18:48: Cloudflare vahvisti virallisesti Workersin ja KV:n häiriön.
- 18:58: Käyttöön otettiin väliaikainen kiertoratkaisu poistamalla välimuistilogiikka, mikä palautti palvelun – suorituskyvystä saattoi kuitenkin hieman tinkiä.
- 21:00: Kun Cloudflaren palvelut vakautuivat, välimuistilogiikka otettiin uudestaan käyttöön sulavalla vararatkaisulla. Täysi suorituskyky palautui ja palvelu on nyt kestävämpi vastaavia KV-katkoksia vastaan.
Juurisyy
Tämän häiriön aiheutti Cloudflare Workers KV:n käyttökatko. Cloudflare Worker reitittää pyynnöt oikeaan Logto-alueeseen jokaiselle vuokralaiselle tai domainille, varmistaen asianmukaisen tietosijainnin ja vaatimustenmukaisuuden. Suorituskyvyn parantamiseksi Worker hyödyntää KV:tä välimuistina näille aluekartoituksille. Kun KV ei ollut saatavilla, välimuistioperaatiot epäonnistuivat ja Worker heitti virheitä sen sijaan, että olisi siirtynyt välimuistittomaan tilaan, mikä aiheutti häiriön palvelussa.
Logto Cloud -palveluja ja Logto Consolea tämä ei koskenut, koska ne nojaavat suoraan DNS-resoluutioon ja eivät käytä Cloudflare Workereita reititykseen.
Ratkaisu ja parannukset
- Poistettiin välimuistiriippuvuus Workerin toiminnasta ja palautettiin palvelu.
- Kun Cloudflare KV toipui, otettiin välimuistilogiikka uudelleen käyttöön sulavalla varatoteutuksella. Jos välimuisti ei ole saatavilla, palvelu jatkaa suoralla reitityksellä ilman katkosta.
- Jatkuvat infrastruktuurin kehitystoimet vahvistavat kestävyyttä ja saatavuutta entisestään.
Vaikutukset
- Käyttäjät, jotka käyttivät Logtoa osoitteen
logto.app
kautta, kokivat virheitä noin 50 minuutin ajan. - Yhtään asiakastietoa ei kadonnut eikä vaarantunut.
- Logto Cloud -palvelut ja Logto Console olivat täydessä toimintakunnossa kokoajan.
Seuraavat askeleet
- Arvioimme ja parannamme virheenkäsittelyä reunainfrastruktuurissa.
- Selvitämme useamman toimittajan käyttöä perusinfrastruktuurissa yksittäisten vikapisteiden välttämiseksi.
Kiitos kärsivällisyydestäsi ja tuestasi.