Post-mortem: Interrupção do serviço de autenticação Logto
Em 12 de junho de 2025, os serviços do Logto em `logto.app` foram brevemente interrompidos por uma falha no Cloudflare que afetou o roteamento de requisições. O problema foi rapidamente resolvido, sem impacto na segurança dos dados ou nos serviços principais.
Resumo do incidente
Entre 18:07 e 18:58 UTC de 12 de junho de 2025, usuários acessando os serviços Logto pelo domínio logto.app
(incluindo domínios personalizados) enfrentaram erros. A interrupção foi causada por uma falha no Cloudflare Workers KV, que impactou nossa camada de roteamento. Os serviços Logto Cloud e o Logto Console, que usam resolução direta de DNS e não dependem do Cloudflare Workers, não foram afetados. O serviço foi restaurado em menos de uma hora, sem impacto na segurança dos dados.
Linha do tempo (UTC)
- 18:07: As APIs do serviço de autenticação Logto começaram a retornar erros 500 para requisições via
logto.app
. - 18:24: A investigação confirmou que o backend Azure estava saudável, isolando o problema ao Cloudflare Workers e KV.
- 18:48: O Cloudflare confirmou oficialmente um incidente afetando Workers e KV.
- 18:58: Implementamos uma solução temporária removendo a lógica de cache, o que restaurou o serviço com possível pequena degradação de desempenho.
- 21:00: Após a estabilização dos serviços Cloudflare, reimplantamos a lógica de cache com fallback seguro. O desempenho total foi restaurado e o serviço agora está mais resiliente a falhas semelhantes no KV.
Causa raiz
Este incidente foi provocado por uma indisponibilidade no Cloudflare Workers KV. Nosso Worker do Cloudflare roteia as requisições para a região Logto correta para cada tenant ou domínio, garantindo a residência e conformidade dos dados. Para melhorar o desempenho, o Worker usa o KV para armazenar em cache os mapeamentos regionais. Quando o KV ficou indisponível, as operações de cache falharam e o Worker lançou erros ao invés de recorrer a uma lógica sem cache, causando a interrupção do serviço.
Os serviços Logto Cloud e Logto Console não foram afetados pois dependem de resolução direta de DNS e não utilizam o Cloudflare Workers para roteamento.
Resolução e melhorias
- Removemos a dependência de cache do Worker, restaurando o serviço.
- Após a recuperação do Cloudflare KV, reimplantamos a lógica de cache com fallback seguro. Se o cache estiver indisponível, o serviço continua usando roteamento direto, sem interrupção.
- Melhorias contínuas na infraestrutura para aumentar ainda mais a resiliência e disponibilidade.
Impacto
- Usuários acessando o Logto via
logto.app
enfrentaram erros por cerca de 50 minutos. - Nenhum dado de cliente foi perdido ou comprometido.
- Os serviços Logto Cloud e Logto Console permaneceram totalmente operacionais.
Próximos passos
- Vamos revisar e aprimorar nosso tratamento de erros na infraestrutura de borda.
- Vamos considerar o uso de múltiplos fornecedores para infraestrutura upstream para evitar pontos únicos de falha.
Obrigado pela sua paciência e apoio.