By | July 23, 2021

Pada tanggal 22 Juli, sekitar pukul 08:38 PT, Edge DNS Akamai—layanan penting yang mengarahkan pengguna ke tepi CDN-nya—mengalami gangguan yang mencegah pengguna di seluruh dunia menjangkau situs pelanggannya. Pengguna yang mencoba menjangkau situs yang dihosting oleh Akamai menerima pesan kesalahan yang menunjukkan bahwa nama domain yang diminta tidak dapat diselesaikan ke alamat IP. Masalah teratasi dan layanan dipulihkan kira-kira satu jam kemudian pada 09:45 PT. Anda dapat membaca ringkasan Akamai tentang gangguan layanan di sini.

Menyelesaikan nama domain ke alamat IP melalui Sistem Nama Domain adalah langkah pertama yang penting dalam mencapai properti web. Meskipun singkat, cakupan pemadaman itu signifikan, dengan sejumlah besar situs web dan aplikasi (mulai dari game hingga bank besar, maskapai penerbangan, dan lainnya) sepenuhnya atau sebentar-sebentar tidak dapat dijangkau. Sementara konektivitas jaringan ke infrastruktur tepi CDN Akamai tersedia selama pemadaman, tanpa server nama otoritatif DNS Edge untuk menyelesaikan nama domain, situs web dan aplikasi menjadi tidak dapat dijangkau oleh pengguna.

ThousandEyes mengamati lonjakan pemadaman web dan aplikasi selama insiden tersebut—semua dihosting di server Akamai.

Gambar 1. Aplikasi dan web padam meningkat selama during kejadian.

ThousandEyes lebih lanjut mengamati bahwa layanan Edge DNS Akamai tidak dapat menyelesaikan domain yang dihosting di CDN Akamai.

Gambar 2 - Koneksi HTTP ke situs pelanggan akamai gagal selama fase DNS.pngGambar 2. Koneksi HTTP ke situs pelanggan Akamai gagal selama fase DNS dari insiden tersebut.

Peran DNS dalam Manajemen Lalu Lintas CDN

Domain Name System (DNS) memetakan nama domain yang dapat dibaca manusia, seperti “example.com,” ke dalam alamat IP. Penyedia CDN biasanya menggunakan DNS untuk memuat keseimbangan lalu lintas di seluruh infrastruktur mereka dan mengarahkan pengguna ke server tepi yang optimal berdasarkan kedekatan geografis, ketersediaan atau kinerja server, dan faktor lainnya. Untuk menggunakan DNS dengan cara ini, penyedia layanan harus meng-host catatan DNS untuk situs di CDN mereka. Perusahaan biasanya akan mengonfigurasi nama domain seperti “www” sebagai catatan CNAME, yang dapat diarahkan ke CNAME tambahan, dan akhirnya diakhiri dengan catatan A yang menyediakan alamat IP. Pendekatan berlapis ini memungkinkan penyedia layanan untuk mengontrol alamat IP mana dalam CDN yang diterima klien, sehingga dapat mengoptimalkan pengalaman klien, dan memberikan fleksibilitas untuk menerapkan perubahan pada alamat IP yang digunakan.

Misalnya, ThousandEyes menggunakan layanan CDN Akamai untuk meng-host situs web kami “www.thousandeyes.com.” Nama domain ini menjadi CNAME di zona “edgekey.net” Akamai Edge DNS. CNAME tersebut juga di-resolve menjadi Akamai CNAME di zona akamaiedge.net, dan nama tersebut kemudian di-resolve menjadi A record dengan alamat IP yang dibutuhkan untuk mencapai CDN edge (lihat gambar 3 di bawah).

Gambar 3 - Permintaan DNS diselesaikan ke CNAME Akamai .pngGambar 3. Permintaan DNS untuk www.thousandeyes.com memutuskan ke CNAME Akamai

Jika layanan DNS CDN menjadi tidak tersedia, maka tepi CDN secara efektif juga tidak dapat dijangkau. Inilah yang terjadi selama gangguan layanan DNS Akamai, meskipun dampak pemadaman bervariasi di antara pelanggan dan penggunanya berdasarkan berbagai faktor.

Dampak Pemadaman Sangat Bervariasi

Akamai adalah salah satu penyedia CDN global teratas, dengan basis pelanggan yang signifikan mulai dari bank besar dan penyedia SaaS hingga situs e-niaga besar, seperti Amazon dan lainnya. Selama insiden tersebut, ThousandEyes mengamati variasi yang signifikan dalam dampak di seluruh situs yang menggunakan layanannya, dengan beberapa organisasi mempertahankan ketersediaan yang lebih besar daripada yang lain.

Beberapa situs pelanggan Akamai, seperti yang ditunjukkan pada gambar 4, tidak tersedia selama pemadaman DNS. Pelanggan ini hanya menggunakan layanan DNS dan CDN Akamai untuk situs yang dihosting, dan semua koneksi ke situs mengembalikan kesalahan resolusi DNS atau kehabisan waktu saat mencoba menjangkau server nama resmi. Pengguna yang telah membuat sesi dengan ini atau situs pelanggan lain sebelum permulaan pemadaman tidak akan terpengaruh, karena mereka sudah menanyakan dan menerima tanggapan untuk catatan DNS. Hanya upaya koneksi baru, yang akan memulai upaya koneksi dengan pencarian DNS situs, yang akan mengalami gangguan.

Gambar 4 - Situs pelanggan Akamai tidak dapat diakses selama insiden.pngGambar 4. Situs pelanggan Akamai tidak dapat diakses selama insiden karena batas waktu resolusi DNS.

Tidak semua pelanggan Akamai terkena dampak yang sama. Situs e-niaga Amazon hampir tidak melihat dampak akibat insiden tersebut. Amazon berbeda dari pelanggan yang ditunjukkan di atas karena mereka menggunakan beberapa penyedia CDN untuk meng-host konten situs mereka dan memanfaatkan layanan DNS mereka sendiri untuk menyeimbangkan lalu lintas di setiap penyedia CDN mereka. Arsitektur ini memiliki beberapa keunggulan, karena beberapa CDN dapat meningkatkan kinerja bagi pengguna, karena penyedia CDN mungkin memiliki cakupan geografis yang berbeda atau dioptimalkan untuk mengirimkan jenis konten tertentu. Bersama-sama, mereka dapat menawarkan lebih banyak opsi untuk mengoptimalkan pengiriman konten bagi pengguna. Pendekatan multi-CDN juga meningkatkan ketahanan situs, karena tidak ada penyedia CDN individu yang berpotensi menjadi titik kegagalan. Amazon mampu mendistribusikan lalu lintas ke penyedianya selama pemadaman dengan cara yang tampaknya telah menyelamatkan penggunanya dari dampak.

Gambar 5 - Pendekatan multi CDN Amazon mengurangi dampak bagi penggunanya.pngGambar 5. Pendekatan multi CDN Amazon mengurangi dampak bagi penggunanya.

Amazon tidak sepenuhnya menghilangkan Akamai untuk pengiriman konten selama pemadaman. Beberapa lokasi dan konten terus digunakan, seperti yang terlihat pada gambar 6, tanpa menurunkan pengalaman pengguna.

Gambar_6._Content_continued_to_be_served_from_Akamai,_without_degrading_users'_experience.pngGambar 6. Konten terus disajikan dari Akamai, tanpa menurunkan pengalaman pengguna.

Penyedia e-niaga lain sebagian besar tersedia selama pemadaman, tetapi pengguna situs mungkin telah memperhatikan waktu pemuatan halaman yang lebih lama karena menunggu lama untuk menerima tanggapan DNS, seperti yang terlihat pada gambar 7 di bawah.

Gambar 7 Penyedia e-niaga sebagian besar dapat diakses selama insiden, tetapi mengalami penurunan kinerja DNS yang memengaruhi respons server dan waktu pemuatan halaman.pngGambar 7. Penyedia e-niaga sebagian besar dapat diakses selama insiden tersebut tetapi mengalami penurunan kinerja DNS yang memengaruhi respons server dan waktu pemuatan halaman.

Penyedia e-niaga ini terus menggunakan Akamai untuk objek root situsnya, tetapi memanfaatkan penyedia CDN lain untuk porsi yang signifikan dari elemen halamannya.

Takeaways Pemadaman

Pemadaman DNS Akamai Edge adalah pengingat lain bahwa hasil pemadaman bukan semata-mata tanggung jawab penyedia eksternal. Pemadaman tidak dapat dihindari, terlepas dari penyedia atau layanan mana yang digunakan. Namun, organisasi dapat dan harus mengambil langkah-langkah untuk mengurangi risiko terhadap bisnis digital mereka dengan mempertimbangkan redundansi untuk layanan penting dan memiliki rencana untuk mengatasi gangguan yang tak terhindarkan dan tidak direncanakan.

Berikut adalah tiga pelajaran utama yang dapat diambil dari kejadian ini:

  • Pertimbangkan untuk memanfaatkan penyedia berlebihan untuk layanan utama, seperti CDN dan DNS. Beberapa penyedia CDN dapat meningkatkan ketahanan layanan, serta meningkatkan kinerja bagi pengguna. Pelanggan Akamai yang menggunakan beberapa penyedia CDN paling tidak terpengaruh oleh pemadaman ini.
  • Miliki rencana cadangan ketika ada sesuatu yang salah. Bahkan jika Anda telah menerapkan praktik terbaik, arsitektur layanan yang berlebihan, berharap bahwa kegagalan yang tidak terduga tidak dapat dihindari. Letakkan buku pedoman kontingensi untuk mengatasi skenario kegagalan, untuk meminimalkan waktu henti atau penurunan kinerja layanan Anda.
  • Pastikan visibilitas proaktif ke situs, aplikasi, dan dependensi utama Anda untuk mengetahui dengan cepat kapan harus menerapkan rencana pencadangan. Mengetahui kapan harus memicu rencana pencadangan akan sangat penting untuk keberhasilannya, dan visibilitas ke semua komponen aplikasi termasuk dependensi pihak ketiga yang membentuk rantai pengiriman layanan Anda, akan memberikan pendekatan yang paling efisien untuk mengidentifikasi kapan dan strategi apa yang harus dijalankan untuk mengurangi masalah layanan.

Untuk mempelajari lebih lanjut tentang DNS dan cara kerjanya, pastikan untuk mengunduh Dasar-dasar Internet: Infrastruktur Jaringan yang Mendasari Dijelaskan. Anda juga dapat mendaftar untuk ThousandEyes percobaan gratis untuk mulai mendapatkan wawasan yang lebih dalam tentang dependensi layanan Anda dan kinerjanya. Terakhir, untuk tetap mengetahui informasi terbaru tentang pemadaman Internet, pastikan untuk berlangganan podcast kami, The Internet Report.