Menengok Bagaimana Perusahaan Berbasis Platform Kelola Budaya Waspada

Menengok Bagaimana Perusahaan Berbasis Platform Kelola Budaya Waspada

Angga Laraspati - detikInet
Minggu, 24 Jan 2021 17:11 WIB
Tokopedia
Foto: Tokopedia
Jakarta -

Tokopedia membeberkan pentingnya budaya kewaspadaan di sebuah sistem platform. Melalui acara START Summit Extension pada 17 Desember 2020 lalu, tim engineer Tokopedia membagikan praktik bagaimana mereka membangun dan meningkatkan budaya kewaspadaan, terutama dalam menghadapi berbagai insiden.

Tim yang terdiri dari Software Engineer Lead - Purchase Platform Timothy Agustian, Engineering Manager - Order & Campaign Danish Jatmiko, dan Software Engineer Lead - Order Viriya Saddha Pannindriya membagikan tipsnya dalam sesi tema 'High Severity! Behind Tokopedia's Reliable Incident Management'.

Setidaknya ada beberapa tahapan yang bisa diterapkan dalam mengelola sebuah insiden pada suatu platform. Berikut penjelasannya.

Preparation & Monitoring

Tahap pertama ini adalah fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi, tetapi akan sangat berpengaruh terhadap fase berikutnya. Timothy pun mengatakan pada fase ini ada beberapa poin penting, yang pertama adalah melatih anggota agar mengetahui pengetahuan dasar tentang cara use case yang perlu ditangani.

Poin kedua adalah mengumpulkan dan membuat dokumentasi segala informasi yang berkaitan dengan insiden manajemen agar dapat mudah diakses tim lainnya. Pada poin ketiga seorang developer harus memonitor platform untuk membantu mengetahui keadaan server atau bisnis secara real time sehingga dapat mempersiapkan segala kemungkinan.

Alerting

Tahap selanjutnya adalah Alerting, menurut Timothy tahap ini adalah fase pertama yang dilakukan ketika terjadi suatu insiden. Ketika alarm sudah berbunyi, maka itu merupakan tanda terdapat suatu insiden.

"Insiden yang baik adalah jika alertingnya juga baik, sehingga kita dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna, melainkan dapat mengetahuinya terlebih dulu," tutur Timothy dikutip website resmi Tokopedia Minggu (24/1/2021).

Setidaknya ada tiga kriteria yang menunjukkan sebuah alarm bekerja dengan baik, yaitu Escalated Alert yang bisa mengetahui seberapa bahaya insiden tersebut dan seberapa cepat developer bisa menyelesaikannya.

Kedua adalah Informative yaitu ketika tim yang bukan bagian dari tim teknologi dapat mengerti tentang situasi yang terjadi dan yang terakhir adalah to the point yang dapat langsung menjelaskan suatu insiden secara tepat dan akurat.

Timothy menambahkan ada juga poin yang tak kalah pentingnya yaitu Basic Knowledge Alarm yaitu setiap anggota tim punya pengetahuan dasar untuk mendefinisikan masalah dan langsung menentukan langkah yang harus dilakukan. Selain itu ada juga Incident Management Platform yaitu ketika terjadi suatu insiden ada jalur komunikasi yang baik untuk dapat langsung menghubungi pihak-pihak yang berkaitan.

"Apabila tim yang menangani insiden ini tidak available, maka kita dapat dengan mudah melakukan eskalasi ke tim leader, head, dan seterusnya. Dengan platform ini, diharapkan semua stakeholders dapat aware dan sigap dalam menangani insiden," ungkap Timothy.

Triage & Notify

Tahap ketiga dalam mengelola kewaspadaan startup adalah Triage & Notify. Menurut Engineering Manager - Order & Campaign Tokopedia Danish Jatmiko tahapan ini menjelaskan tentang apa yang perlu dilakukan saat sebuah insiden datang. Memang melalui. Alerting & Monitoring, developer dapat mengetahui keadaan atau kesehatan sistem. Namun, apa yang harus dilakukan jika ternyata terjadi suatu insiden terhadap sistem?

Danish mengatakan hal pertama yang perlu dilakukan adalah tidak panik dan mengendalikan serta mengatur situasi yang terjadi. Selanjutnya membaca situasi dan kondisi sistem agar dapat mengenali dan mengidentifikasi masalah yang terjadi.

"Sebagai contoh, ketika traffic sedang mengalami down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau servis lainnya. Dengan Alerting & Monitoring, kita dapat langsung mengetahui penyebabnya serta bagaimana kita dapat mengatasi hal tersebut." ujar Danis.

Lebih lanjut, Danish menjelaskan perlu untuk mengetahui dampak yang terjadi setelahnya, baik itu dampak pada halaman penjualan, transaksi penjualan, atau sistem lainnya. Setelah mengetahui semua dampaknya, seorang developer bisa melakukan over communicate kepada stakeholders yang punya andil terhadap produk atau platform terkait..

Langkah yang tidak kalah pentingnya adalah bagaimana cara meredam atau menghentikan insiden yang terjadi sesegera mungkin. Beberapa cara yang bisa dilakukan antara lain memberikan solusi sementara untuk dapat memperbaiki keadaan. Setelah insiden dapat diatasi dan kembali normal dan sudah mengetahui apa yang sebenarnya terjadi, tim bisa mencari tahu solusi jangka panjangnya.

Post-Mortem Investigation and Resolution

Tahapan terakhir dalam manajemen insiden adalah Post-Mortem Investigation and Resolution. Software Engineer Lead - Order Tokopedia Viriya Saddha Pannindriya menjelaskan tahapan ini langkah yang harus dilakukan adalah mencari tahu lebih dalam dan mendetail mengenai penyebab dari insiden yang terjadi.

Di dalam tahapan ini, seorang developer harus terus menggali lebih dalam tentang root cause dari sebuah insiden sehingga dapat menentukan solusi jangka panjang sebelum nantinya masuk ke dalam tahap collateral damage.

Setelahnya developer perlu mencari tahu apa root cause ini akan berdampak ke hal yang lainnya atau tidak karena insiden yang terjadi bisa saja berdampak pada sistem atau bisnis unit lainnya. Oleh karena itu, penting untuk melihat masalah sampai ke akar agar dapat mengetahui seberapa luas isu yang dihadapi.

"Setelah kita mengetahui core problems dan akar permasalahannya, kita dapat melanjutkan ke tahap berikutnya yakni memastikan agar insiden tersebut tidak terjadi lagi. Melalui Alerting dan Monitoring, kita dapat memperbaiki setiap temuan yang ada dan disesuaikan dengan prosedur dari Alerting dan Monitoring tersebut," imbuh Viriya.

Langkah terakhir dalam tahap ini yaitu Documentation. Viriya mengatakan fase ini penting untuk menjaga suatu insiden terjadi tidak terjadi kembali di kemudian hari. Oleh karena itu penting untuk membuat dokumentasi dari pengalaman atau insiden tersebut sebagai track record.

"Hal ini bertujuan agar seluruh tim, baik yang sudah bekerja dalam kurun waktu yang lama, maupun tim yang baru bergabung dapat belajar dan melihat kembali tentang berbagai cara untuk menangani suatu insiden," kata Viriya.

Di tahun 2021 kali ini, Tokopedia melalui Tokopedia Academy akan kembali menghadirkan rangkaian acara teknologi yang membagikan dan membawakan tema serta praktik terbaik untuk mendorong perkembangan talenta digital masa depan di Indonesia.

(akn/fay)