Facebook mengungkap kronologi di balik tumbangnya layanan WhatsApp, Instagram, dan Messenger pada Senin (4/10). Rupanya gangguan itu bermula dari pemeliharaan rutin.
Vice President of Engineering and Infrastructure Facebook Santosh Janardhan sebelumnya membeberkan penyebab tumbangnya layanan Facebook, Instagram, dan WhatsApp. Dalam blog terbarunya, ia memberikan penjelasan yang lebih rinci.
Menurut Janardhan, saat pemeliharaan rutin, ada perintah yang dikirimkan untuk mengecek ketersediaan jaringan backbone yang menghubungkan semua fasilitas komputasi Facebook. Tapi perintah ini justru memutus koneksi dan bug di sistem audit internal Facebook tidak bisa mencegah eksekusi perintah ini.
SCROLL TO CONTINUE WITH CONTENT
Masalah ini sudah cukup besar, tapi kemudian jadi lebih parah. Ketika server DNS Facebook tidak bisa terhubung dengan pusat data utamanya, server ini berhenti memberikan informasi routing BGP yang membantu semua komputer di internet agar bisa terhubung ke servernya.
"Hasil akhirnya server DNS kami tidak bisa dihubungi meskipun masih beroperasi. Ini membuat seluruh internet sulit menemukan server kami," kata Janardhan seperti dikutip dari Engadget, Rabu (6/10/2021).
Masalah ini juga menyulitkan tim teknisi Facebook untuk memperbaiki gangguan. Tidak adanya koneksi jaringan dan hilangnya DNS membuat sistem internal Facebook yang biasanya digunakan untuk perbaikan dan komunikasi ikut tumbang.
Facebook akhirnya mengirimkan tim teknisinya secara langsung ke salah satu pusat datanya. Hal ini juga terbukti tidak mudah karena sistem dan protokol keamanan yang diterapkan di area server.
Begitu para teknisi memasuki area server, mereka berhasil membawa backbone kembali online dan memulihkan layanan secara perlahan. Ini yang membuat proses pemulihan layanan Facebook memakan waktu lama, karena kalau langsung dipulihkan secara total akan menyebabkan crash yang lebih parah.
"Setiap kegagalan seperti ini adalah kesempatan untuk belajar dan menjadi lebih baik, dan ada banyak yang bisa kami pelajari dari peristiwa ini," kata Janardhan.
"Setelah tiap masalah, kecil dan besar, kami melakukan proses peninjauan yang ekstensif untuk memahami bagaimana kami bisa membuat sistem yang lebih tangguh. Proses itu sudah dimulai," pungkasnya.
(vmp/vmp)