Sequential Diagnosis with Language Models
Nori H, Daswani M, Kelly C, et al. Cornell University. 2025. doi: 10.48550/arXiv.2506.22405
Abstrak
Latar Belakang: Kecerdasan buatan atau artificial intelligence (AI) memiliki potensi besar untuk memperluas akses terhadap pengetahuan dan penalaran medis tingkat ahli. Namun, sebagian besar evaluasi model bahasa (language model) masih bergantung pada vignette statis dan pertanyaan pilihan ganda yang tidak mampu merepresentasikan kompleksitas dan nuansa kedokteran berbasis bukti dalam konteks dunia nyata.
Dalam praktik klinis, dokter secara bertahap membentuk dan merevisi hipotesis diagnosis, menyesuaikan setiap pertanyaan dan pemeriksaan berikutnya berdasarkan informasi yang baru diperoleh, serta menimbang bukti yang terus berkembang sebelum menetapkan diagnosis akhir. Untuk meniru proses iteratif ini, peneliti memperkenalkan Sequential Diagnosis Benchmark, yang mengubah 304 kasus clinicopathological conference (NEJM-CPC) dengan tantangan diagnostik tinggi menjadi rangkaian interaksi diagnosis bertahap.
Metode: Agen diagnosis, baik itu seorang dokter atau model AI, memulai dengan ringkasan singkat suatu kasus, kemudian secara bertahap meminta detail tambahan kepada gatekeeper model yang hanya akan mengungkapkan temuan apabila diminta secara eksplisit. Kinerja dinilai tidak hanya berdasarkan akurasi diagnosis, tetapi juga pada biaya kunjungan dokter dan pemeriksaan yang dilakukan.
Peneliti juga memperkenalkan MAI Diagnostic Orchestrator (MAI-DxO), sistem buatan Microsoft yang dirancang menyerupai tim dokter, dengan peran terpisah untuk menyusun diagnosis banding, memilih pemeriksaan bernilai tinggi, dan mengendalikan biaya. Kinerja MAI-DxO dibandingkan dengan dokter umum berdasarkan akurasi diagnosis akhir dan estimasi total biaya medis selama proses diagnosis.
Hasil: MAI-DxO dengan model OpenAI chatgpt versi reasoning di model o3 mencapai akurasi 80%, yakni 4 kali lebih tinggi dari rerata dokter umum (20%), dengan biaya 70% lebih hemat dibandingkan model o3 standar. Dalam konfigurasi maksimal, akurasi mencapai 85,5%. Peningkatan akurasi ini juga konsisten di berbagai model AI lain.
Kesimpulan: MAI-DxO menunjukkan bahwa AI yang diarahkan untuk berpikir seperti dokter dapat menghasilkan diagnosis yang lebih akurat dan efisien. Penelitian ini mengindikasikan bahwa sistem AI, ketika diarahkan untuk berpikir secara iteratif dan bertindak secara bijaksana, dapat meningkatkan ketepatan diagnosis serta efisiensi biaya dalam pelayanan klinis.
Ulasan Alomedika
Meskipun potensi AI dalam menebak diagnosis suatu penyakit sudah diakui, belum jelas apakah sistem AI dapat menyusun diagnosis secara bertahap layaknya seorang klinisi, sambil mempertimbangkan efisiensi pemeriksaan. Studi ini mengevaluasi kinerja sistem AI MAI Diagnostic Orchestrator (MAI-DxO) buatan Microsoft dalam menyusun diagnosis berbasis simulasi interaktif, dan membandingkannya langsung dengan kinerja klinisi.
Ulasan Metode Penelitian
Penelitian ini menggunakan metode eksperimen simulasi dalam model Sequential Diagnosis Benchmark (SDBench), yaitu simulasi diagnosis klinis bertahap yang meniru alur kerja dokter di praktik nyata. Total 304 kasus kompleks diambil dari rubrik Clinicopathological Conference (CPC) dalam jurnal New England Journal of Medicine, mencakup spektrum penyakit luas yang biasanya memerlukan penalaran klinis mendalam.
Dalam simulasi ini, baik dokter umum maupun sistem AI memulai dari keluhan utama pasien. Informasi medis lainnya tidak tersedia secara langsung dan hanya akan muncul jika diminta secara eksplisit, misalnya melalui pertanyaan anamnesis atau pemilihan pemeriksaan penunjang. Proses ini dikendalikan oleh modul Gatekeeper, yang berperan menyerupai pasien dan sistem rekam medis.
Sistem MAI-DxO dibangun menyerupai tim klinis dengan lima peran, yakni penyusun diagnosis banding (Dr. Hypothesis), pemilih pemeriksaan penunjang (Dr. Test Chooser), pengontrol pemeriksaan tidak perlu (Dr. Stewardship), penguji ulang dugaan awal (Dr. Challenger), dan pengingat langkah akhir (Dr. Checklist). Seluruh komponen bekerja dalam satu kerangka dialog untuk menyusun keputusan klinis.
Evaluasi kinerja dilakukan dengan dua indikator utama, yakni akurasi diagnosis akhir yang dinilai berdasarkan kecocokan dengan diagnosis referensi dari CPC dan dijaga oleh modul gatekeeper, serta efisiensi biaya yang diukur dari estimasi biaya seluruh pemeriksaan yang dipilih selama proses diagnosis dilakukan.
Ulasan Hasil Penelitian
Dalam simulasi SDBench, sistem MAI-DxO sebagai dokter virtual (AI) mencatat tingkat kecocokan diagnosis akhir dengan kunci jawaban yang dipegang gatekeeper sekitar 80%. Angka ini lebih tinggi dibandingkan kelompok dokter umum yang berada di kisaran 20%. Selisih serupa terlihat pada beberapa subset kasus dengan tingkat kesulitan berbeda, meskipun variasi antarkasus tetap cukup lebar.
Dari segi biaya, estimasi total pemeriksaan yang dipilih MAI-DxO dalam mode “hemat” berada sedikit di bawah rata-rata pengeluaran yang dilakukan kelompok dokter umum (USD 2400 vs USD 3000 per kasus). Pada konfigurasi standar, biaya AI memang meningkat (USD 4700), tetapi masih di bawah model AI baseline yang mencapai hampir USD 8000.
Analisis internal menggambarkan kontribusi masing-masing modul virtual, seperti Hypothesis dan Test Chooser, namun hubungannya dengan luaran nyata di praktik tetap perlu ditelusuri lebih lanjut. Hasil studi ini menunjukkan bahwa pada mode default, OpenAI o3 adalah model AI dengan akurasi diagnosis tertinggi (78,6%), tetapi setelah dioptimalkan menggunakan MAI-DxO, Claude-4-opus menjadi yang paling unggul dengan akurasi mencapai 83,2%.
Peningkatan terbesar terjadi pada Deepseek-R1 (dari 47,4% menjadi 65,5%) dan Grok-3 (dari 59,9% menjadi 75,7%), menandakan bahwa MAI-DxO memberi dampak paling signifikan pada model dengan baseline awal yang lebih rendah.
Kelebihan Penelitian
Keunggulan studi ini adalah penggunaan Sequential Diagnosis Benchmark yang mereplikasi proses diagnosis klinis nyata secara bertahap, sehingga lebih relevan dibanding tes vignette statis. Pendekatan dalam penelitian ini juga memungkinkan generalisasi lintas berbagai model AI, sehingga memperkuat validitas eksternal temuan. Selain itu, evaluasi yang dilakukan mencakup tidak hanya akurasi diagnosis tetapi juga efisiensi biaya.
Limitasi Penelitian
Kasus yang digunakan tidak mewakili kasus umum pada praktik sehari-hari. Studi ini menggunakan kasus NEJM-CPC yang banyak memakai kasus langka dan rumit, sehingga tidak mewakili mayoritas kasus yang ditemui dokter dalam praktik nyata. Selain itu, studi ini membandingkan kemampuan diagnosis AI dengan dokter umum, padahal kasus NEJM-CPC biasanya adalah kasus spesialis dan subspesialistik
Simulasi dalam penelitian ini juga memiliki kondisi kerja yang tidak setara. MAI-DXO merupakan model yang menjalani peran beberapa dokter, tidak seperti dokter umum yang dibandingkan dalam studi yang hanya bekerja sendirian dalam memproses semuanya. Selain itu, AI yang digunakan dalam studi ini memiliki data training yang sangat besar dan bisa diakses kapan saja, sedangkan dokter umum yang dibandingkan dalam studi ini tidak boleh memakai referensi atau mencari informasi tambahan non-AI.
Penelitian ini tidak menilai kemampuan AI dalam memberikan pelayanan kesehatan, melainkan hanya menguji ketepatannya memperoleh informasi secara bertahap dan memilih pemeriksaan penunjang untuk menebak diagnosis. Oleh karena itu, hasilnya tidak dapat digunakan untuk menyimpulkan bahwa AI lebih unggul dari dokter manusia, karena studi ini fokus pada akurasi diagnosis, bukan kualitas layanan atau luaran klinis nyata.
Aplikasi Hasil Penelitian
Terlepas dari berbagai keterbatasannya, studi ini mengindikasikan bahwa AI dapat digunakan untuk menunjang diagnosis klinis dan meningkatkan efisiensi biaya di praktik. Adaptasi penggunaan AI di Indonesia diperlukan untuk memastikan AI memahami penyakit endemik, sistem perawatan kesehatan, ketersediaan tes dan dokter spesialis di wilayah geografis tertentu, serta ketersediaan obat.