Pengembangan dan Evaluasi dari Model Mesin Pembelajaran untuk Identifikasi Dini Pasien yang Berisiko Sepsis – Telaah Jurnal

Oleh :
dr. Nathania S. Sutisna

Development and Evaluation of a Machine Learning Model for the Early Identification of Patients at Risk of Sepsis

Ryan J. Delahanty, PhD, JoAnn Alvarez, MS, Lisa M. Flynn, MD, Robert L. Sherwin, MD, Spencer S. Jones, PhD

Annals of emergency medicine. 2019 Apr 1;73(4):334-44. DOI: https://doi.org/10.1016/j.annemergmed.2018.11.036

Abstrak

Tujuan: The Third International Consensus Definitions (Sepsis-3) Task Force merekomendasikan penggunaan skor quick Sequential Organ Failure Assessment (qSOFA) sebagai alat penapis untuk kasus pasien sepsis di luar dari ruang rawat intensif (Intensive Care Unit / ICU). Namun, banyak penelitian yang mempertanyakan dan meneliti tentang sensitivitas qSOFA sebagai alat penapis. Kami bertujuan untuk menggunakan pembelajaran dengan mesin untuk mengembangkan sebuah alat penapis sepsis yang baru, yaitu skor the Risk of Sepsis (RoS), dan membandingkan dengan batu patokan penapis sepsis, antara lain Systemic Inflammatory Response Syndrome, Sequential Organ Failure Assessment (SOFA), qSOFA, ModifiedEarly Warning Score dan National Early Warning Score.

Metode: Peneliti menggunakan data rekam medis elektronik dari pasien dewasa yang datang ke instalasi gawat darurat di rumah sakit dalam masa 22 bulan (N= 2.759.529). Peneliti menggunakan kriteria pengawasan klinis Rhee sebagai definisi standar dari sepsis dan sebagai target utama untuk mengembangkan model ini. Data yang ada secara acak dibagi menjadi kelompok kohort training dan testing untuk melahirkan dan mengevaluasi model. Seleksi fitur dilakukan dengan 3 tahap yaitu, pertama, peneliti melakukan kajian terhadap metode penapisan sepsis yang ada saat ini; kedua, peneliti mengonsultasikan kepada ahlinya; dan ketiga, peneliti menggunakan mesin pembelajaran (machine learning) yang dinamakan gradient boosting. Luaran atau key metrics dari penelitian ini adalah alert rate, area under the receiver operating characteristic curve, sensitivitas, spesifisitas dan presisi. Performa dinilai saat jam ke-1, 3, 6, 12 dan 24 paska waktu yang ditentukan.

Hasil: Skor RoS merupakan alat penapis yang paling diskriminan pada setiap waktu yang telah ditentukan (area under the receiver operating characteristic curve 0.93 – 0.97). Dibandingkan dengan metode skrining lain yang paling diskriminan berikutnya (Sequential Organ Failure Assessment), RoS secara signifikan lebih sensitif 967.7% vs 12.2% pada jam-1 dan 28.8% vs 11.4% pada jam-24). Sensitivitas dari qSOFA relatif lebih rendah (3.7% pada jam-1 dan 23.5% pada jam-24).

Kesimpulan: Pada studi retrospektif ini, RoS lebih baik dalam konteks waktu dan diskriminasi dibandingkan alat penapis lainnya, termasuk alat yang direkomendasikan oleh the Sepsis-3 Task Force. Studi lebih lanjut diperlukan untuk memvalidasi skor RoS pada tempat-tempat yang independen.

shutterstock_1211857903-min

Ulasan Alomedika

Machine learning atau pembelajaran mesin merupakan sebuah metode yang mirip dengan Artificial Intelligence (AI) atau kecerdasan buatan. Pembelajaran mesin berkaitan dengan algoritma program komputer yang secara otomatis dapat meningkat dengan pengalaman.[1] Jurnal ini sedang meneliti apakah skor Risk of Sepsis (RoS), metode penapisan sepsis yang baru, dapat diaplikasikan dan lebih unggul dibandingkan pendahulunya seperti Systemic Inflammatory Response Syndrome, Sequential Organ Failure Assessment (SOFA), qSOFA, Modified Early Warning Score dan National Early Warning Score.

Ulasan Metode Penelitian

Metode penelitian yang digunakan adalah kohort retrospektif pada pasien dewasa yang datang ke Instalasi Gawat Darurat (IGD) pada 39 kota di Amerika. Setelah mengeluarkan data rekam medis subjek penelitian yang tidak memenuhi syarat, seperti data laboratorium atau tanda vital yang tidak lengkap, 2.759.529 subjek penelitian dilakukan analisis dan melaju ke tahap berikutnya. Selanjutnya, subjek dibagi menjadi dua kelompok, dua per tiga subjek dikelompokan sebagai “training cohort” dan sisanya dikelompokkan sebagai “testing cohort”. Kelompok training cohort digunakan untuk menghasilkan sebuah model pembelajaran mesin yang diuji coba pada testing cohort. Kriteria pengawasan klinis sepsis yang dikembangkan oleh Rhee, et al (2017) digunakan sebagai acuan definisi sepsis pada penelitian ini.[2]

Data yang akan digunakan untuk mengembangkan model RoS ini diolah menggunakan teknik feature engineering, sebuah teknik pengolahan data. Luaran yang dinilai adalah AUROC, alert rate, sensitivitas, spesifisitas dan presisi (nilai prediktif positif). Untuk menilai ketepatan waktu diagnosis, peneliti menetapkan jam pertama, ketiga, keenam, keduabelas dan keduapuluhempat jam paska data tanda vital dan/atau laboratorium pertama terekam di rekam medis.

Ulasan Hasil Penelitian

Fitur-fitur yang digunakan dalam feature engineering untuk menerapkan model RoS tidak hanya data awal, tetapi ada juga data yang merupakan hasil hitungan matematika dari data tersebut, contohnya adalah shock index yang merupakan pembagian dari denyut nadi dengan tekanan darah sistolik. Fitur-fitur tersebut antara lain asam laktat, shock index dikali usia (awal dan akhir), jumlah leukosit, perubahan asam laktat, jumlah neutrofil, glukosa, nitrogen urea darah, laju napas, albumin, tekanan darah sistolik, kreatinin serum dan suhu tubuh.

Data demografi awal yang membandingkan antara kelompok training dan testing telah diuji kesetaraannya dan didapatkan tidak ada perbedaan yang signifikan secara statistik dari kedua kelompok tersebut. Hasil analisis menunjukkan bahwa RoS memiliki kemampuan diskriminasi yang baik dengan nilai AUROC pada jam ke-24

Hasil analisis menunjukkan diskriminasi yang tertinggi ditemukan pada RoS, diikuti dengan skor SOFA, NEWS, qSOFA, MEWS dan SIRS secara berurutan. Termasuk pada jam pertama, RoS memiliki nilai sensitivitas 67.7% dan tertinggi pada jam ke-24 yaitu 84.6%. Nilai sensitivitas ini lebih tinggi dibandingkan skor SOFA yaitu 49.2% di jam pertama. Lebih lanjut lagi, nilai positive predictive value RoS pada jam pertama adalah 27.6%. Nilai spesifisitas RoS dari jam-1 sampai 24 stabil di atas 95.8%, namun angka ini lebih rendah dari qSOFA dan MEWS yang berkisar 98%-99% ke atas.

Kelebihan Penelitian

Kelebihan dari penelitian ini ada pada jumlah sampel dan fitur yang digunakan. Penelitian ini menggunakan jumlah sampel yang relatif banyak, yaitu lebih dari 2.500.000 sampel rekam medis. Dua per tiga dari sampel digunakan untuk mengembangkan model yang dicoba pada sepertiga sisanya. Diharapkan dengan jumlah sampel yang banyak dan diambil dari berbagai pusat dapat mengurangi bias. Fitur-fitur yang digunakan untuk menghasilkan algoritma skoring RoS relatif umum dan rutin digunakan di rumah sakit.

Limitasi Penelitian

Peneliti mengungkapkan beberapa limitasi penelitian. Pertama, sama seperti penelitian serupa tentang sepsis, kurangnya definisi standar dan pasti dari sepsis dapat membuat kelemahan dalam penelitian ini. Kedua, luaran penelitian ini dinilai teknis dan belum pernah dicoba pada praktik klinis. Ketiga, penelitian ini melibatkan semua pasien yang masuk ke IGD dan menjadi pembaginya sehingga dapat digunakan untuk semua pasien yang masuk ke IGD, namun, kelemahannya adalah adanya kemungkinan overdiagnosis yang dapat berujung pada pemeriksaan yang tidak perlu dan penatalaksanaan yang berlebihan.

Aplikasi Hasil Penelitian di Indonesia

Penelitian ini masih dalam pengembangan sehingga belum dapat diaplikasikan. Secara khusus, peneliti menyatakan masih diperlukan penelitian lebih lanjut untuk meningkatkan validitas skor RoS dari tempat-tempat yang berbeda. Peneliti juga menawarkan hal ini apabila ada pihak-pihak yang berminat untuk melakukan implementasi dan evaluasi skor RoS. Di masa depan, apabila RoS sudah dapat digunakan, maka RoS memiliki nilai diagnosis yang lebih tinggi dibandingkan pendahulunya dan relatif dapat digunakan di Indonesia dengan pemeriksaan penunjang yang relatif terjangkau.

Referensi