OpenAI o1 mencatatkan tingkat akurasi diagnosis 67 persen pada kasus gawat darurat dalam penelitian terbaru Harvard Medical School. Capaian ini melampaui performa dokter manusia yang berada di angka 50-55 persen, sekaligus membuka peluang integrasi asisten digital pada sistem triase rumah sakit.
Riset terbaru yang dipublikasikan dalam jurnal Science pekan ini mengungkap lompatan signifikan kemampuan model bahasa besar (LLM) dalam menangani kasus medis kompleks. Penelitian yang dipimpin oleh tim dokter dan ilmuwan komputer dari Harvard Medical School serta Beth Israel Deaconess Medical Center ini mengadu model OpenAI melawan praktisi medis profesional.
Para peneliti melakukan serangkaian eksperimen untuk mengukur sejauh mana kecerdasan buatan mampu memberikan diagnosis akurat dibandingkan dokter manusia. Fokus utama studi ini terletak pada 76 pasien yang mendatangi unit gawat darurat (UGD) di Beth Israel, dengan membandingkan hasil diagnosis dari dua dokter spesialis penyakit dalam (internal medicine) melawan model OpenAI o1 dan GPT-4o.
Hasil diagnosis tersebut kemudian dinilai secara buta (blind assessment) oleh dua dokter spesialis lainnya yang tidak mengetahui identitas pemberi diagnosis. Metode ini memastikan penilaian tetap objektif tanpa bias terhadap teknologi maupun rekan sejawat.
Dominasi OpenAI o1 dalam Tahap Triase
Data penelitian menunjukkan performa OpenAI o1 yang konsisten berada di atas atau setara dengan dokter manusia pada setiap titik sentuh diagnostik. Keunggulan AI justru terlihat paling mencolok pada tahap awal triase IGD, di mana informasi pasien masih sangat terbatas dan tekanan untuk mengambil keputusan cepat sangat tinggi.
- Akurasi OpenAI o1: Berhasil memberikan diagnosis tepat atau sangat mendekati pada 67% kasus triase.
- Akurasi Dokter A: Mencatatkan ketepatan diagnosis sebesar 55% pada kasus yang sama.
- Akurasi Dokter B: Memberikan diagnosis akurat pada 50% kasus.
- Akurasi GPT-4o: Performa berada di bawah model o1 namun tetap kompetitif dengan dokter manusia.
"Kami menguji model AI ini terhadap hampir semua tolok ukur, dan hasilnya melampaui model sebelumnya serta garis dasar dokter kami," ujar Arjun Manrai, kepala laboratorium AI di Harvard Medical School sekaligus salah satu penulis utama studi tersebut.
Keterbatasan Data Non-Teks dan Akuntabilitas
Meskipun hasilnya impresif, para peneliti memberikan catatan penting bahwa AI dalam studi ini hanya memproses informasi berbasis teks. Model-model saat ini masih memiliki keterbatasan dalam melakukan penalaran terhadap input non-teks, seperti hasil pemindaian gambar atau observasi fisik langsung terhadap pasien.
Adam Rodman, dokter di Beth Israel yang juga terlibat dalam riset ini, memperingatkan bahwa saat ini belum ada kerangka kerja formal terkait akuntabilitas diagnosis AI. Ia menegaskan bahwa pasien tetap membutuhkan kehadiran manusia untuk memandu mereka melalui keputusan hidup dan mati yang menantang.
"Pasien tetap menginginkan manusia untuk membimbing mereka melalui keputusan pengobatan yang sulit," kata Rodman dalam wawancara dengan The Guardian.
Kritik Spesialisasi dan Fokus Gawat Darurat
Hasil studi ini memicu perdebatan di kalangan praktisi medis, termasuk dari Kristen Panthagani, seorang dokter gawat darurat. Ia menyoroti bahwa penelitian ini membandingkan AI dengan dokter spesialis penyakit dalam, bukan dokter spesialis gawat darurat (ER physicians) yang memiliki keahlian spesifik di medan tempur IGD.
"Sebagai dokter IGD yang melihat pasien untuk pertama kalinya, tujuan utama saya bukan menebak diagnosis akhir Anda. Tujuan utama saya adalah menentukan apakah Anda memiliki kondisi yang bisa membunuh Anda," tulis Panthagani dalam tanggapannya terhadap studi tersebut.
Panthagani berargumen bahwa membandingkan AI dengan dokter yang tidak mempraktikkan spesialisasi tersebut secara rutin bisa memberikan gambaran yang kurang akurat. Menurutnya, kemampuan menebak diagnosis akhir berbeda dengan kemampuan manajemen krisis di ruang gawat darurat yang nyata.
Relevansi bagi Sistem Kesehatan di Indonesia
Potensi penggunaan OpenAI o1 sebagai asisten diagnosis memiliki relevansi besar bagi sistem kesehatan di Indonesia, terutama dalam mengatasi antrean panjang di IGD rumah sakit rujukan. Dengan beban kerja dokter yang tinggi, AI bisa berperan sebagai alat penyaring awal (triage support) untuk membantu memprioritaskan pasien berdasarkan risiko medis.
Namun, implementasi di Indonesia masih menghadapi tantangan besar terkait integrasi Rekam Medis Elektronik (RME) yang belum seragam di seluruh daerah. Selain itu, aspek legalitas diagnosis AI masih menjadi wilayah abu-abu dalam regulasi kesehatan nasional saat ini.
Tim peneliti Harvard menyimpulkan bahwa temuan ini menunjukkan kebutuhan mendesak akan uji coba prospektif lebih lanjut. Evaluasi teknologi ini dalam pengaturan perawatan pasien dunia nyata menjadi langkah wajib sebelum AI benar-benar diizinkan membantu keputusan medis di samping tempat tidur pasien.