Português (Brasil)
  • postmortem

Post-mortem: Interrupção do serviço de autenticação Logto

Em 12 de junho de 2025, os serviços do Logto em `logto.app` foram brevemente interrompidos por uma falha no Cloudflare que afetou o roteamento de requisições. O problema foi rapidamente resolvido, sem impacto na segurança dos dados ou nos serviços principais.

Gao
Gao
Founder

Pare de perder semanas com autenticação de usuários
Lance aplicativos seguros mais rapidamente com o Logto. Integre a autenticação de usuários em minutos e concentre-se no seu produto principal.
Começar
Product screenshot

Resumo do incidente

Entre 18:07 e 18:58 UTC de 12 de junho de 2025, usuários acessando os serviços Logto pelo domínio logto.app (incluindo domínios personalizados) enfrentaram erros. A interrupção foi causada por uma falha no Cloudflare Workers KV, que impactou nossa camada de roteamento. Os serviços Logto Cloud e o Logto Console, que usam resolução direta de DNS e não dependem do Cloudflare Workers, não foram afetados. O serviço foi restaurado em menos de uma hora, sem impacto na segurança dos dados.

Linha do tempo (UTC)

  • 18:07: As APIs do serviço de autenticação Logto começaram a retornar erros 500 para requisições via logto.app.
  • 18:24: A investigação confirmou que o backend Azure estava saudável, isolando o problema ao Cloudflare Workers e KV.
  • 18:48: O Cloudflare confirmou oficialmente um incidente afetando Workers e KV.
  • 18:58: Implementamos uma solução temporária removendo a lógica de cache, o que restaurou o serviço com possível pequena degradação de desempenho.
  • 21:00: Após a estabilização dos serviços Cloudflare, reimplantamos a lógica de cache com fallback seguro. O desempenho total foi restaurado e o serviço agora está mais resiliente a falhas semelhantes no KV.

Causa raiz

Este incidente foi provocado por uma indisponibilidade no Cloudflare Workers KV. Nosso Worker do Cloudflare roteia as requisições para a região Logto correta para cada tenant ou domínio, garantindo a residência e conformidade dos dados. Para melhorar o desempenho, o Worker usa o KV para armazenar em cache os mapeamentos regionais. Quando o KV ficou indisponível, as operações de cache falharam e o Worker lançou erros ao invés de recorrer a uma lógica sem cache, causando a interrupção do serviço.

Os serviços Logto Cloud e Logto Console não foram afetados pois dependem de resolução direta de DNS e não utilizam o Cloudflare Workers para roteamento.

Resolução e melhorias

  • Removemos a dependência de cache do Worker, restaurando o serviço.
  • Após a recuperação do Cloudflare KV, reimplantamos a lógica de cache com fallback seguro. Se o cache estiver indisponível, o serviço continua usando roteamento direto, sem interrupção.
  • Melhorias contínuas na infraestrutura para aumentar ainda mais a resiliência e disponibilidade.

Impacto

  • Usuários acessando o Logto via logto.app enfrentaram erros por cerca de 50 minutos.
  • Nenhum dado de cliente foi perdido ou comprometido.
  • Os serviços Logto Cloud e Logto Console permaneceram totalmente operacionais.

Próximos passos

  • Vamos revisar e aprimorar nosso tratamento de erros na infraestrutura de borda.
  • Vamos considerar o uso de múltiplos fornecedores para infraestrutura upstream para evitar pontos únicos de falha.

Obrigado pela sua paciência e apoio.