Chatboții medicali mint convingător. Jumătate din răspunsuri sunt problematice, arată mai multe studii

Inteligența artificială poate explica rapid subiecte medicale complicate, dar studiile recente arată că răspunsurile ei pot combina informații corecte cu erori, surse inexistente și o siguranță care nu este întotdeauna justificată.

AI medical · risc de dezinformare
Un răspuns poate suna impecabil, poate cita studii și poate fi totuși greșit.
49,6% răspunsuri problematice în auditul BMJ Open
19,6% răspunsuri foarte problematice
50-83% halucinații în scenarii clinice fabricate
Ilustrație editorială TRUmedia. Date sintetizate din BMJ Open și Communications Medicine.

Trăim într-o perioadă în care inteligența artificială a trecut din zona sci-fi direct în buzunarul fiecăruia dintre noi. Milioane de oameni o consultă zilnic pentru rețete de mâncare, sfaturi juridice, planuri de vacanță și, din ce în ce mai des, pentru întrebări legate de sănătate. Încrederea în aceste instrumente a crescut rapid, uneori mai repede decât ar fi sănătos. Iar tocmai în domeniul sănătății, unde o informație greșită poate însemna o decizie greșită, vigilența nu este un moft, ci o obligație.

5 chatboți testați
250 răspunsuri analizate
32% erori grave la întrebări deschise
0 liste de referințe complet corecte

Ați căutat vreodată online simptomele unei boli și ați ieșit mai speriați decât ați intrat? Ei bine, chatboții de inteligență artificială par să fi perfecționat această artă. Închipuiți-vă că medicul tocmai v-a spus că aveți diabet de tip 2. Acasă, curioși, întrebați un chatbot: „Ce suplimente naturale pot ține diabetul sub control fără medicație?” În câteva secunde primiți o listă detaliată, cu termeni științifici, cu trimiteri bibliografice și cu un ton care transmite siguranță deplină. Problema este că unele recomandări pot contrazice ghidurile medicale, iar unele surse pot să nu existe.

Acesta nu este un exercițiu de imaginație. Este tipul de situație pe care o echipă de cercetători a încercat să îl măsoare și să îl documenteze. Ei au pus cinci dintre cei mai populari chatboți din lume față în față cu întrebări medicale incomode, iar rezultatele, publicate în BMJ Open, sunt greu de ignorat.

Ce au testat și ce au găsit

Cercetătorii au ales cinci chatboți: ChatGPT, Gemini, Grok, Meta AI și DeepSeek. Fiecăruia i-au adresat întrebări din cinci domenii medicale: cancer, vaccinuri, celule stem, nutriție și performanță sportivă. Doi experți independenți au evaluat răspunsurile, folosind o grilă simplă: corect, oarecum problematic sau foarte problematic.

Aproape jumătate dintre răspunsuri s-au dovedit problematice. Circa 30% au fost catalogate drept „oarecum problematice”, adică lipsite de context suficient, iar 19,6% drept „foarte problematice”, conținând informații inexacte sau direct înșelătoare. Pe scurt: în multe cazuri, forma răspunsului inspira mai multă încredere decât merita conținutul.

Performanța a variat în funcție de subiect. Chatboții s-au descurcat relativ mai bine cu vaccinurile și cancerul, domenii cu literatură științifică solidă și bine structurată, deși și acolo au greșit în aproximativ un sfert din cazuri. Cel mai rău au stat la capitolul nutriție și performanță sportivă, teritorii unde internetul fierbe de sfaturi contradictorii și unde dovezile riguroase sunt adesea mai rare.

Pericolul nu este doar că un chatbot poate greși. Pericolul este că poate greși într-un limbaj atât de sigur, încât utilizatorul nu mai simte nevoia să verifice.

TRUmedia · Analiză

Cel mai important detaliu al studiului nu ține doar de subiect, ci de felul în care a fost formulată întrebarea. Întrebările deschise, de tipul celor pe care oamenii obișnuiți le folosesc zilnic, au produs cele mai grave erori: 32% dintre răspunsuri au fost considerate extrem de problematice, față de doar 7% în cazul întrebărilor cu răspuns fix.

Diferența contează enorm, pentru că nimeni nu se adresează unui chatbot ca într-un test grilă. Oamenii întreabă lucruri de genul „Ce ar trebui să mănânc dacă am tiroidă?” sau „Pot să evit medicamentele dacă iau suplimente?”. Tocmai acolo sistemele dau cel mai ușor greș.

Poate cel mai îngrijorător aspect ține de felul în care chatboții gestionează sursele. Când cercetătorii au cerut referințe științifice relevante, niciun chatbot nu a reușit să furnizeze o listă complet corectă în toate încercările. Erorile au mers de la autori greșiți și linkuri rupte până la articole inventate integral: titlu, jurnal, autori. Pentru un utilizator obișnuit, o listă de citate formatate profesionist poate părea dovada supremă că răspunsul este solid. Forma mimează autoritatea, chiar și când fondul este ficțiune.

Ce trebuie reținut din studiul BMJ Open
  • Modele testate: ChatGPT, Gemini, Grok, Meta AI și DeepSeek.
  • Domenii analizate: cancer, vaccinuri, celule stem, nutriție și performanță sportivă.
  • Rezultat principal: 49,6% dintre răspunsuri au fost problematice.
  • Întrebări deschise: au generat cele mai mari riscuri de răspunsuri înșelătoare.
  • Surse: referințele furnizate de chatboți au inclus erori, linkuri greșite sau studii inexistente.

Autorii studiului au precizat că întrebările au fost formulate deliberat pentru a testa vulnerabilitățile modelelor, o tehnică standard numită „red teaming” în cercetarea privind siguranța AI. Asta înseamnă că ratele de eroare reflectă un scenariu de stres, nu neapărat utilizarea de zi cu zi. Totodată, au fost testate versiunile gratuite disponibile în februarie 2025, iar versiunile cu abonament sau modelele mai noi ar putea performa diferit. Numai că majoritatea utilizatorilor accesează exact variantele gratuite, iar întrebările lor nu sunt formulate cu grijă deosebită. Condițiile testului seamănă, de fapt, destul de mult cu realitatea.

Nu este un studiu izolat

Concluziile din BMJ Open nu apar singular. Ele se alătură unui șir tot mai lung de cercetări care confirmă același tipar. Un studiu publicat în februarie 2026 în Nature Medicine a surprins un paradox care ar trebui să ne pună pe gânduri: chatboții, testați singuri, au identificat condiții relevante în aproape 95% din cazuri. Cu toate acestea, când utilizatori obișnuiți au lucrat cu aceiași chatboți, au ajuns la răspunsul corect în mai puțin de 35% din situații.

Cu alte cuvinte, un chatbot poate avea informația corectă și totuși să vă ducă în eroare, dacă întrebarea este incompletă, dacă dialogul o ia într-o direcție greșită sau dacă utilizatorul nu știe ce detalii medicale sunt relevante.

Un alt studiu, publicat în JAMA Network Open, a testat 21 de modele AI pe sarcini de raționament clinic. Modelele au avut rezultate mai bune când primeau informații suficiente pentru diagnosticul final, dar au performat slab în etapa de diagnostic diferențial, adică exact momentul în care trebuie păstrate mai multe ipoteze deschise. Ratele de eșec au depășit 80% pentru diagnosticul diferențial în toate modelele testate.

La rândul lor, cercetătorii de la Icahn School of Medicine at Mount Sinai au publicat în Communications Medicine un experiment cu rezultate tulburătoare. Au creat 300 de scenarii clinice simulate, fiecare conținând câte un singur detaliu medical fabricat: o boală inexistentă, un test de laborator fictiv sau un semn clinic inventat. Chatboții nu au recunoscut întotdeauna termenii inventați. În multe cazuri, au tratat informațiile false drept reale și au generat explicații detaliate despre condiții sau tratamente inexistente.

Date esențiale din studiile citate
BMJ Open49,6% răspunsuri problematice
BMJ Open19,6% răspunsuri foarte problematice
BMJ Open32% răspunsuri extrem de problematice la întrebări deschise
Nature MedicineLLM-urile singure au identificat condiții relevante în 94,9% din cazuri
Nature MedicineUtilizatorii asistați de LLM-uri au identificat condiții relevante în sub 34,5% din cazuri
JAMA Network OpenEșecuri de peste 80% la diagnosticul diferențial
Communications MedicineHalucinații între 50% și 83% în scenarii clinice cu detalii fabricate

De ce greșesc chatboții și de ce par atât de siguri pe ei când răspund

Există o explicație tehnică la baza acestor eșecuri, și ea merită înțeleasă. Modelele de limbaj nu dețin cunoștințe în sensul propriu al cuvântului. Ele nu „știu” că paracetamolul reduce febra în același fel în care știe un medic care a văzut sute de pacienți. Ele generează text prin predicția probabilistică a cuvântului următor, fără a verifica întotdeauna acuratețea factuală a ceea ce produc.

Halucinațiile nu sunt simple accidente rare, ci un risc structural al acestor sisteme. Materialul pe care l-au procesat în antrenament include studii peer-reviewed, dar și bloguri de wellness, forumuri de parenting și dezbateri aprinse de pe rețelele sociale. Rezultatul poate fi un amestec fluent de informație validă, context incomplet și afirmații care doar sună științific.

Tocmai de aceea răspunsurile greșite sună atât de bine. Modelul nu știe că greșește. El produce ce pare mai probabil lingvistic, nu neapărat ce este adevărat medical.

„Un răspuns corect prezentat prost poate fi la fel de dăunător ca unul greșit. Sunt un instrument util pentru orientare și documentare preliminară, dar în sănătate, ultimul cuvânt nu ar trebui să fie niciodată al meu.”

Claude · asistent AI dezvoltat de Anthropic

„Chatboții medicali pot oferi explicații utile, dar nu verifică adevărul în sens clinic, ci generează răspunsuri plauzibile. În practică, răspunsurile ar trebui privite ca puncte de plecare, nu ca verdict final.”

ChatGPT · asistent AI dezvoltat de OpenAI

Ce înseamnă asta pentru noi

Chatboții nu vor dispărea și nici nu ar trebui. Pot rezuma subiecte complexe, pot ajuta la pregătirea întrebărilor înainte de o consultație și pot oferi un punct de plecare util pentru documentare. Nimeni nu spune să aruncați telefonul când apare o întrebare medicală.

Dar datele acumulate din mai multe studii independente sunt clare: aceste instrumente nu sunt și nu ar trebui tratate ca autorități medicale de sine stătătoare. Dacă folosiți inteligența artificială pentru o problemă de sănătate, tratați referințele furnizate ca sugestii de investigat, nu ca fapte confirmate.

Fiți atenți mai ales atunci când un răspuns sună extrem de sigur, promite soluții simple sau vă îndeamnă implicit să evitați consultul medical. În sănătate, cel mai bun rol al inteligenței artificiale este să vă ajute să puneți întrebări mai bune unui medic, nu să îl înlocuiască.

Surse
  • BMJ Open — „Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit”. bmjopen.bmj.com
  • Nature Medicine — „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study”. nature.com
  • JAMA Network Open — „Large Language Model Performance and Clinical Reasoning Tasks”. jamanetwork.com
  • Communications Medicine — „Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support”. nature.com
  • BMJ Group — comunicat despre studiul BMJ Open. bmjgroup.com

Silvia Neagoe
Silvia Neagoe
Silvia Neagoe este specializată în drept, cu studii în diplomație și relații internaționale. De-a lungul carierei sale juridice, s-a concentrat pe intersecția dintre dreptul internațional, instituțiile democratice și protecția drepturilor omului, dobândind o expertiză în dinamicile politice din America Latină și Africa. Colaborează cu TRUmedia, unde contribuie cu analize asupra politicii internaționale și profiluri ale liderilor din regiunile sale de expertiză.

Articole similare

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.

spot_img

Articole recente