العربية
  • تقرير ما بعد الحادثة

تقرير ما بعد الحادثة: انقطاع خدمة المصادقة في Logto

في 12 يونيو 2025، تعرضت خدمات Logto على `logto.app` لانقطاع قصير بسبب عطل في Cloudflare أثر على توجيه الطلبات. تم حل المشكلة بسرعة دون أي تأثير على أمان البيانات أو الخدمات الأساسية.

Gao
Gao
Founder

توقف عن إضاعة أسابيع في مصادقة المستخدم
أطلق تطبيقات آمنة بشكل أسرع مع Logto. قم بدمج مصادقة المستخدم في دقائق وركز على منتجك الأساسي.
ابدأ الآن
Product screenshot

ملخص الحادثة

بين الساعة 18:07 و 18:58 بتوقيت UTC في 12 يونيو 2025، واجه المستخدمون الذين يصلون إلى خدمات Logto عبر نطاق logto.app (بما في ذلك النطاقات المخصصة) أخطاء. كان الانقطاع نتيجة لعطل في Cloudflare Workers KV، مما أثر على طبقة التوجيه لدينا. لم تتأثر خدمات Logto Cloud و Logto Console لأنها تستخدم حل DNS مباشر ولا تعتمد على Cloudflare Workers. تم استعادة الخدمة خلال ساعة واحدة دون أي تأثير على أمان البيانات.

الجدول الزمني (UTC)

  • 18:07: بدأت واجهات برمجة تطبيقات خدمة المصادقة في Logto بإرجاع أخطاء 500 للطلبات عبر logto.app.
  • 18:24: أكدت التحقيقات أن نظام Azure الخلفي كان بحالة جيدة، وتم حصر المشكلة في Cloudflare Workers و KV.
  • 18:48: أعلنت Cloudflare رسمياً عن وجود حادثة تؤثر على Workers و KV.
  • 18:58: نشرنا حلاً مؤقتاً بإزالة منطق التخزين المؤقت (الكاش)، مما أعاد الخدمة مع بعض التدهور الطفيف في الأداء.
  • 21:00: بعد استقرار خدمات Cloudflare، قمنا بإعادة نشر منطق التخزين المؤقت مع آلية احتياطية سلسة. تم استعادة الأداء الكامل وأصبحت الخدمة أكثر مرونة ضد انقطاعات مماثلة في KV.

السبب الجذري

حدث هذا الحادث بسبب توقف Cloudflare Workers KV عن العمل. يقوم Cloudflare Worker لدينا بتوجيه الطلبات إلى المنطقة الصحيحة في Logto لكل مستأجر أو نطاق لضمان إقامة البيانات والامتثال المناسبين. لتحسين الأداء، يستخدم الـ Worker خدمة KV لتخزين هذه الخرائط الخاصة بالمناطق مؤقتاً. عندما أصبحت KV غير متاحة، فشلت عمليات الكاش وأدى ذلك إلى ظهور أخطاء من الـ Worker بدلاً من الاعتماد على سلوك بدون كاش، مما تسبب في انقطاع الخدمة.

لم تتأثر خدمات Logto Cloud و Logto Console لأنها تعتمد على حل DNS مباشر ولا تستخدم Cloudflare Workers في التوجيه.

الحلول والتحسينات

  • تمت إزالة الاعتماد على التخزين المؤقت من الـ Worker، مما أعاد الخدمة.
  • بعد تعافي Cloudflare KV، تم إعادة نشر منطق التخزين المؤقت مع آلية احتياطية سلسة. إذا لم يكن التخزين المؤقت متاحاً، تستمر الخدمة باستخدام التوجيه المباشر دون انقطاع.
  • تحسينات مستمرة للبنية التحتية لزيادة الموثوقية والتوافر.

التأثير

  • المستخدمون الذين يصلون إلى Logto عبر logto.app واجهوا أخطاء لمدة حوالي 50 دقيقة.
  • لم يتم فقدان بيانات أي عميل أو تعريضها للخطر.
  • بقيت خدمات Logto Cloud و Logto Console تعمل بكفاءة طوال الوقت.

الخطوات القادمة

  • سنراجع ونحسن إدارة الأخطاء في البنية التحتية الطرفية لدينا.
  • سنبحث في استخدام عدة مزودين للبنية التحتية الأساسية لتجنب نقاط الفشل المفردة.

شكراً لصبركم ودعمكم.