Giskard: Model AI Masih Berpotensi Menjawab dengan Halusinasi

17 hours ago 10

TEMPO.CO, Jakarta - Perusahaan teknologi Giskard mengungkapkan model kecerdasan buatan atau AI terkini masih memiliki potensi halusinasi. Hal ini ditemukan pada alat AI yang populer digunakan seperti ChatGPT milik OpenAI, Gemini milik Google, Llama milik Meta, hingga DeepSeek.

Chief Technology Officer Giskard Matteo Dora mengatakan, model AI favorit mungkin hebat memberikan jawaban yang disukai pengguna, tapi tidak berarti jawaban yang diberikan pasti benar.

Baca berita dengan sedikit iklan, klik di sini

“Pengujian kami menunjukkan bahwa model yang mendapat peringkat tertinggi dalam kepuasan pengguna sering kali menghasilkan respons yang terdengar berwibawa, tetapi berisi informasi yang dibuat-buat,” tulisnya dalam situs resmi Giskard.ai, dikutip pada Ahad, 11 Mei 2025.

Giskard melakukan analisis terhadap AI itu menggunakan Potential Harm Assessment and Risk Evaluation Large Language Model (Phare LLM Benchmark) pada Februari lalu, kemudian dipublikasikan pada 30 April 2025. Analisis ini dirancang untuk mengevaluasi keselamatan dan keamanan LLM terkemuka di empat domain penting, yaitu halusinasi, bias dan keadilan, hal yang membahayakan, dan kerentanan terhadap penyalahgunaan yang disengaja melalui teknik seperti jailbreaking.

Salah satu poin yang disorot dalam analisis ini adalah ketika model AI diberikan kata perintah “singkatlah”, yang ini justru merusak kemampuan membantah misinformasi. Ketika dipaksa menyingkat suatu informasi, maka model AI akan konsisten memilih keringkasan daripada akurasi. “Model tidak memiliki ruang untuk mengakui premis yang salah, menjelaskan kesalahannya, dan memberikan informasi yang akurat,” tulis Matteo.

Selain itu, pertanyaan yang dibingkai secara dramatis akan mempengaruhi jawaban AI. Misalnya, ketika merespons kalimat “saya mendengar bahwa…”, kemungkinan AI akan mengoreksi. Kemudian jika diberikan sugesti seperti “guru saya memberi tahu saya…”, AI justru cenderung lebih setuju.

Cara Kerja Riset

Phare LLM Benchmark menerapkan proses evaluasi sistematis untuk memastikan penilaian yang konsisten dan adil di seluruh model bahasa. Tim mengumpulkan berbagai sumber, pembuatan sampel, tinjauan manusia, dan evaluasi model.

Modul halusinasi dipakai sebagai evaluasi di beberapa kategori tugas yang dirancang untuk menangkap berbagai cara model dapat menghasilkan informasi yang menyesatkan atau salah. Penilaian saat ini mencakup empat tugas, yaitu akurasi faktual, ketahanan terhadap misinformasi, kemampuan untuk membongkar, dan keandalan alat.

Hasil riset ini mengungkapkan bahwa popularitas model AI tidak menjamin keandalan fakta. “Penelitian kami mengungkap adanya kesenjangan yang mengkhawatirkan antara preferensi pengguna dan ketahanan terhadap halusinasi,” tulis Matteo.

Namun dalam skor ketahanan terhadap halusinasi, model AI Claude memiliki persentase paling tinggi. Artinya, semakin tinggi skor semakin tahan terhadap halusinasi. Skor untuk lainnya: OpenAI, GPT-4o memiliki skor 83,9 persen, GPT-4o mini (74,5 persen). Anthropic, model Claude 3.5 Haiku (87,0 persen), Claude 3.5 Sonnet (91,1 persen), Claude 3.7 Sonnet (89,3 persen).

Skor untuk AI milik Google, yaitu Gemini 1.5 Pro sebesar 87,1 persen, Gemini 2.0 Flash (78,1 persen), dan Gemma 3 27B (69,9 persen). Skor untuk AI Meta, yaitu Llama 3.1 405B (75.5 persen), Llama 3.3 70B (73,4 persen), dan Llama 4 Maverick (77 persen).

Skor untuk Mistral Large (79,7 persen) dan Mistral Small 3.1 24B (77,7 persen), DeepSeek, model DeepSeek V3 (77,9 persen), Qwen 2.5 Max milik Alibaba (77,1 persen), dan Grok 2 milik Elon Musk (77,3 persen).

Matteo mengatakan poin kedua dalam temuan riset ini adalah pembingkaian pertanyaan memang secara signifikan mempengaruhi jawaban. “Pengujian kami mengungkap bahwa ketika pengguna menyajikan klaim kontroversial dengan keyakinan tinggi atau mengutip otoritas yang dianggap berwenang, sebagian besar model cenderung tidak akan membantah klaim tersebut.”

Beberapa model menunjukkan resistensi terhadap kalimat penjilatan, seperti pada Llama dan Anthropic dalam versi terbesar. Menurut Matteo, ini menunjukkan masalah halusinasi namun masih bisa ditangani dengan pelatihan model.

Instruksi secara dramatis mempengaruhi tingkat halusinasi. Sebagai contoh sebelumnya adalah perintah “singkatlah” yang diberikan pengguna untuk memahami suatu informasi. “Penelitian kami menunjukkan bahwa pengoptimalan tersebut harus diuji secara menyeluruh terhadap peningkatan risiko kesalahan fakta,” tulis Matteo.

Read Entire Article
Pemilu | Tempo | |