Sănătate

Chatboții AI greșesc diagnosticul inițial în 80% din cazuri

PulsInfo.ro 14 aprilie 2026 2 min de citit

Cele mai populare modele de inteligență artificială, printre care ChatGPT, Gemini, Claude și Grok, eșuează în stabilirea diagnosticului diferențial în peste 80% din cazuri, arată un studiu publicat luni în revista medicală JAMA Network Open.

Cercetarea, realizată de echipa Mass General Brigham din Boston, a evaluat 21 de modele lingvistice mari folosind un instrument nou, denumit PrIME-LLM, conceput să testeze competența clinică a inteligenței artificiale în patru etape: generarea diagnosticului diferențial, solicitarea analizelor corecte, stabilirea diagnosticului final și planificarea tratamentului.

Rezultatele studiului

Echipa condusă de Arya S. Rao, doctorand la Harvard Medical School, și Marc Succi, directorul MESH Incubator din cadrul Mass General Brigham, a testat modelele pe 29 de cazuri clinice standardizate. Informațiile au fost furnizate treptat — vârstă, sex și simptome inițiale, urmate de rezultatele examinării fizice, apoi de analizele de laborator și imagistică.

Când au primit doar informațiile inițiale ale pacientului, toate cele 21 de sisteme AI au eșuat în generarea unei liste corecte de diagnostice posibile în peste 80% din cazuri. În schimb, odată ce au avut acces la toate datele clinice, acuratețea diagnosticului final a depășit 90%.

Scorurile compozite PrIME-LLM au variat între 64% și 78%. Cele mai bune rezultate au fost obținute de Grok 4 și GPT-5, ambele cu un scor de 78%, în timp ce Gemini 1.5 Flash a înregistrat cel mai slab rezultat, 64%.

„Arta medicinei” nu poate fi replicată

„Diagnosticul diferențial este esențial pentru raționamentul clinic și stă la baza «artei medicinei», pe care inteligența artificială nu o poate replica în prezent”, a declarat Succi, potrivit comunicatului Mass General Brigham.

Rao a adăugat că „modelele sunt excelente în a identifica un diagnostic final odată ce datele sunt complete, dar au dificultăți în faza inițială a unui caz, când informațiile sunt limitate”.

Studiul subliniază că toate modelele testate suferă de așa-numitele „halucinații” — inventând informații atunci când nu dispun de date suficiente pentru a formula un răspuns clar.

Supraveghere umană obligatorie

Autorii concluzionează că sistemele AI comerciale nu sunt pregătite pentru utilizare clinică nesupravegheată. „Modelele lingvistice mari în domeniul sănătății continuă să necesite supervizare umană activă și un control foarte atent”, a mai spus Succi.

Cercetarea a fost finanțată de Institutele Naționale de Sănătate din Statele Unite. Studiul complet este disponibil în JAMA Network Open.

Surse: JAMA Network Open, Mass General Brigham

chatbot ChatGPT diagnostic medical Inteligenta Artificiala JAMA sănătate digitală