خوانندگان Neowin احتمالاً با قطعیها و اختلالات مکرری که مایکروسافت 365 و سرویسهای مرتبط با آن با آن مواجه میشوند، آشنا هستند. به عنوان مثال، هفته گذشته، M365 در روز نهم به دلیل قطعی Exchange Admin Center (EAC) از دسترس خارج شد و تنها یک روز بعد، کاربران به دلیل یک باگ از دسترسی به اشتراکهای خانوادگی خود محروم شدند.
مشابه مایکروسافت، گوگل کلود نیز هر از گاهی با چنین مشکلات قطعی مواجه میشود و در اواخر ماه گذشته، دقیقاً همین اتفاق افتاد، زیرا سیستم تأمین برق بدون وقفه (UPS) گوگل نتوانست برق بدون وقفهای را که برای آن طراحی شده بود تأمین کند و منجر به قطعی نزدیک به شش ساعت و نیم شد. این مشکل در منطقه “us-east5-c” که در کلمبوس، اوهایو قرار دارد رخ داد و این منطقه شامل سیستمهایی بود که بر روی پردازندههای AMD EPYC و Intel Xeon ساخته شده بودند.

گوگل در مقاله پشتیبانی خود توضیح داده است که چه زمانی و چرا این اتفاق افتاد و همچنین مقیاس مشکل را شرح داده است:
در روز شنبه، 29 مارس 2025، چندین سرویس گوگل کلود در منطقه us-east5-c به مدت 6 ساعت و 10 دقیقه با کاهش کیفیت سرویس یا عدم دسترسی مواجه شدند.
علت اصلی اختلال سرویس، قطع برق در منطقه تحت تأثیر بود. این قطعی برق باعث یک شکست زنجیرهای در سیستم تأمین برق بدون وقفه (UPS) شد که مسئول حفظ برق منطقه در چنین مواقعی است. سیستم UPS که برای پر کردن فاصله بین قطع برق شهری و فعالسازی ژنراتور به باتریها متکی است، با خرابی بحرانی باتری مواجه شد.
این خرابی باعث شد UPS نتواند عملکرد اصلی خود را که تضمین برق مداوم سیستم است انجام دهد. در نتیجه مستقیم خرابی UPS، نمونههای ماشین مجازی در منطقه تحت تأثیر برق خود را از دست دادند و آفلاین شدند که منجر به قطعی سرویس برای مشتریان شد.
قطعی برق و خرابی متعاقب UPS همچنین باعث یک سری مشکلات ثانویه شد، از جمله از دست رفتن بستهها در منطقه us-east5-c که بر ارتباطات شبکه و عملکرد تأثیر گذاشت. علاوه بر این، تعداد محدودی از دیسکهای ذخیرهسازی در منطقه در طول قطعی غیرقابل دسترس شدند.
گوگل همچنین توضیح داده است که چگونه مشکل را حل کرد:
مهندسان گوگل ترافیک را از محل تحت تأثیر منحرف کردند تا تأثیر را برای برخی سرویسها که وابستگی منابع منطقهای نداشتند، تا حدی کاهش دهند. مهندسان UPS خراب را دور زدند و برق را از طریق ژنراتور تا ساعت 14:49 به وقت اقیانوس آرام در روز شنبه، 29 مارس بازیابی کردند.
اکثر سرویسهای گوگل کلود کمی پس از آن بازیابی شدند. برخی سرویسها زمان بازیابی طولانیتری را تجربه کردند زیرا در برخی موارد برای تکمیل بازیابی کامل به اقدامات دستی نیاز بود.
حق را باید به حقدار داد، این غول فناوری صمیمانه از این حادثه از مشتریان کلود خود عذرخواهی کرده و همچنین اقداماتی را که برای جلوگیری از چنین مشکلی در آینده انجام داده است، مشخص کرده است:
“به مشتریان گوگل کلود که سرویسهایشان در طول این اختلال تحت تأثیر قرار گرفت، صمیمانه عذرخواهی میکنیم. این سطح کیفیت و قابلیت اطمینانی نیست که ما تلاش میکنیم به شما ارائه دهیم و ما در حال برداشتن گامهای فوری برای بهبود عملکرد و دسترسپذیری پلتفرم هستیم.”
گوگل متعهد شده است که از تکرار این مشکل در آینده جلوگیری کند و اقدامات زیر را انجام میدهد:
• تقویت مسیر خرابی و بازیابی خوشه برای دستیابی به زمان قابل پیشبینی و سریعتر برای سرویسدهی پس از بازگشت برق • ممیزی سیستمهایی که به طور خودکار failover نشدند و رفع هر گونه شکافی که مانع این عملکرد شد • همکاری با فروشنده سیستم تأمین برق بدون وقفه (UPS) برای درک و رفع مشکلات در سیستم پشتیبان باتری
گوگل متعهد است که به سرعت و به طور مداوم فناوری و عملیات خود را برای جلوگیری از اختلالات سرویس بهبود بخشد. ما از صبر و شکیبایی شما قدردانی میکنیم و مجدداً برای تأثیر بر سازمان شما عذرخواهی میکنیم. از کسب و کار شما سپاسگزاریم.