Chatboții medicali mint convingător. Jumătate din răspunsuri sunt problematice, arată mai multe studii

Analiză Sănătate & Tehnologie

Inteligența artificială poate explica rapid subiecte medicale complicate, dar studiile recente arată că răspunsurile ei pot combina informații corecte cu erori, surse inexistente și o siguranță care nu este întotdeauna justificată.

AI medical · risc de dezinformare

Un răspuns poate suna impecabil, poate cita studii și poate fi totuși greșit.

49,6% răspunsuri problematice în auditul BMJ Open

19,6% răspunsuri foarte problematice

50-83% halucinații în scenarii clinice fabricate

Ilustrație editorială TRUmedia. Date sintetizate din BMJ Open și Communications Medicine.

Trăim într-o perioadă în care inteligența artificială a trecut din zona sci-fi direct în buzunarul fiecăruia dintre noi. Milioane de oameni o consultă zilnic pentru rețete de mâncare, sfaturi juridice, planuri de vacanță și, din ce în ce mai des, pentru întrebări legate de sănătate. Încrederea în aceste instrumente a crescut rapid, uneori mai repede decât ar fi sănătos. Iar tocmai în domeniul sănătății, unde o informație greșită poate însemna o decizie greșită, vigilența nu este un moft, ci o obligație.

5 chatboți testați

250 răspunsuri analizate

32% erori grave la întrebări deschise

0 liste de referințe complet corecte

Ați căutat vreodată online simptomele unei boli și ați ieșit mai speriați decât ați intrat? Ei bine, chatboții de inteligență artificială par să fi perfecționat această artă. Închipuiți-vă că medicul tocmai v-a spus că aveți diabet de tip 2. Acasă, curioși, întrebați un chatbot: „Ce suplimente naturale pot ține diabetul sub control fără medicație?” În câteva secunde primiți o listă detaliată, cu termeni științifici, cu trimiteri bibliografice și cu un ton care transmite siguranță deplină. Problema este că unele recomandări pot contrazice ghidurile medicale, iar unele surse pot să nu existe.

Acesta nu este un exercițiu de imaginație. Este tipul de situație pe care o echipă de cercetători a încercat să îl măsoare și să îl documenteze. Ei au pus cinci dintre cei mai populari chatboți din lume față în față cu întrebări medicale incomode, iar rezultatele, publicate în BMJ Open, sunt greu de ignorat.

Ce au testat și ce au găsit

Cercetătorii au ales cinci chatboți: ChatGPT, Gemini, Grok, Meta AI și DeepSeek. Fiecăruia i-au adresat întrebări din cinci domenii medicale: cancer, vaccinuri, celule stem, nutriție și performanță sportivă. Doi experți independenți au evaluat răspunsurile, folosind o grilă simplă: corect, oarecum problematic sau foarte problematic.

Aproape jumătate dintre răspunsuri s-au dovedit problematice. Circa 30% au fost catalogate drept „oarecum problematice”, adică lipsite de context suficient, iar 19,6% drept „foarte problematice”, conținând informații inexacte sau direct înșelătoare. Pe scurt: în multe cazuri, forma răspunsului inspira mai multă încredere decât merita conținutul.

Performanța a variat în funcție de subiect. Chatboții s-au descurcat relativ mai bine cu vaccinurile și cancerul, domenii cu literatură științifică solidă și bine structurată, deși și acolo au greșit în aproximativ un sfert din cazuri. Cel mai rău au stat la capitolul nutriție și performanță sportivă, teritorii unde internetul fierbe de sfaturi contradictorii și unde dovezile riguroase sunt adesea mai rare.

Pericolul nu este doar că un chatbot poate greși. Pericolul este că poate greși într-un limbaj atât de sigur, încât utilizatorul nu mai simte nevoia să verifice.

TRUmedia · Analiză

Cel mai important detaliu al studiului nu ține doar de subiect, ci de felul în care a fost formulată întrebarea. Întrebările deschise, de tipul celor pe care oamenii obișnuiți le folosesc zilnic, au produs cele mai grave erori: 32% dintre răspunsuri au fost considerate extrem de problematice, față de doar 7% în cazul întrebărilor cu răspuns fix.

Diferența contează enorm, pentru că nimeni nu se adresează unui chatbot ca într-un test grilă. Oamenii întreabă lucruri de genul „Ce ar trebui să mănânc dacă am tiroidă?” sau „Pot să evit medicamentele dacă iau suplimente?”. Tocmai acolo sistemele dau cel mai ușor greș.

Poate cel mai îngrijorător aspect ține de felul în care chatboții gestionează sursele. Când cercetătorii au cerut referințe științifice relevante, niciun chatbot nu a reușit să furnizeze o listă complet corectă în toate încercările. Erorile au mers de la autori greșiți și linkuri rupte până la articole inventate integral: titlu, jurnal, autori. Pentru un utilizator obișnuit, o listă de citate formatate profesionist poate părea dovada supremă că răspunsul este solid. Forma mimează autoritatea, chiar și când fondul este ficțiune.

Ce trebuie reținut din studiul BMJ Open

Modele testate: ChatGPT, Gemini, Grok, Meta AI și DeepSeek.
Domenii analizate: cancer, vaccinuri, celule stem, nutriție și performanță sportivă.
Rezultat principal: 49,6% dintre răspunsuri au fost problematice.
Întrebări deschise: au generat cele mai mari riscuri de răspunsuri înșelătoare.
Surse: referințele furnizate de chatboți au inclus erori, linkuri greșite sau studii inexistente.

Autorii studiului au precizat că întrebările au fost formulate deliberat pentru a testa vulnerabilitățile modelelor, o tehnică standard numită „red teaming” în cercetarea privind siguranța AI. Asta înseamnă că ratele de eroare reflectă un scenariu de stres, nu neapărat utilizarea de zi cu zi. Totodată, au fost testate versiunile gratuite disponibile în februarie 2025, iar versiunile cu abonament sau modelele mai noi ar putea performa diferit. Numai că majoritatea utilizatorilor accesează exact variantele gratuite, iar întrebările lor nu sunt formulate cu grijă deosebită. Condițiile testului seamănă, de fapt, destul de mult cu realitatea.

Nu este un studiu izolat

Concluziile din BMJ Open nu apar singular. Ele se alătură unui șir tot mai lung de cercetări care confirmă același tipar. Un studiu publicat în februarie 2026 în Nature Medicine a surprins un paradox care ar trebui să ne pună pe gânduri: chatboții, testați singuri, au identificat condiții relevante în aproape 95% din cazuri. Cu toate acestea, când utilizatori obișnuiți au lucrat cu aceiași chatboți, au ajuns la răspunsul corect în mai puțin de 35% din situații.

Cu alte cuvinte, un chatbot poate avea informația corectă și totuși să vă ducă în eroare, dacă întrebarea este incompletă, dacă dialogul o ia într-o direcție greșită sau dacă utilizatorul nu știe ce detalii medicale sunt relevante.

Un alt studiu, publicat în JAMA Network Open, a testat 21 de modele AI pe sarcini de raționament clinic. Modelele au avut rezultate mai bune când primeau informații suficiente pentru diagnosticul final, dar au performat slab în etapa de diagnostic diferențial, adică exact momentul în care trebuie păstrate mai multe ipoteze deschise. Ratele de eșec au depășit 80% pentru diagnosticul diferențial în toate modelele testate.

La rândul lor, cercetătorii de la Icahn School of Medicine at Mount Sinai au publicat în Communications Medicine un experiment cu rezultate tulburătoare. Au creat 300 de scenarii clinice simulate, fiecare conținând câte un singur detaliu medical fabricat: o boală inexistentă, un test de laborator fictiv sau un semn clinic inventat. Chatboții nu au recunoscut întotdeauna termenii inventați. În multe cazuri, au tratat informațiile false drept reale și au generat explicații detaliate despre condiții sau tratamente inexistente.

Date esențiale din studiile citate

BMJ Open	49,6% răspunsuri problematice
BMJ Open	19,6% răspunsuri foarte problematice
BMJ Open	32% răspunsuri extrem de problematice la întrebări deschise
Nature Medicine	LLM-urile singure au identificat condiții relevante în 94,9% din cazuri
Nature Medicine	Utilizatorii asistați de LLM-uri au identificat condiții relevante în sub 34,5% din cazuri
JAMA Network Open	Eșecuri de peste 80% la diagnosticul diferențial
Communications Medicine	Halucinații între 50% și 83% în scenarii clinice cu detalii fabricate

De ce greșesc chatboții și de ce par atât de siguri pe ei când răspund

Există o explicație tehnică la baza acestor eșecuri, și ea merită înțeleasă. Modelele de limbaj nu dețin cunoștințe în sensul propriu al cuvântului. Ele nu „știu” că paracetamolul reduce febra în același fel în care știe un medic care a văzut sute de pacienți. Ele generează text prin predicția probabilistică a cuvântului următor, fără a verifica întotdeauna acuratețea factuală a ceea ce produc.

Halucinațiile nu sunt simple accidente rare, ci un risc structural al acestor sisteme. Materialul pe care l-au procesat în antrenament include studii peer-reviewed, dar și bloguri de wellness, forumuri de parenting și dezbateri aprinse de pe rețelele sociale. Rezultatul poate fi un amestec fluent de informație validă, context incomplet și afirmații care doar sună științific.

Tocmai de aceea răspunsurile greșite sună atât de bine. Modelul nu știe că greșește. El produce ce pare mai probabil lingvistic, nu neapărat ce este adevărat medical.

„Un răspuns corect prezentat prost poate fi la fel de dăunător ca unul greșit. Sunt un instrument util pentru orientare și documentare preliminară, dar în sănătate, ultimul cuvânt nu ar trebui să fie niciodată al meu.”

Claude · asistent AI dezvoltat de Anthropic

„Chatboții medicali pot oferi explicații utile, dar nu verifică adevărul în sens clinic, ci generează răspunsuri plauzibile. În practică, răspunsurile ar trebui privite ca puncte de plecare, nu ca verdict final.”

ChatGPT · asistent AI dezvoltat de OpenAI

Ce înseamnă asta pentru noi

Chatboții nu vor dispărea și nici nu ar trebui. Pot rezuma subiecte complexe, pot ajuta la pregătirea întrebărilor înainte de o consultație și pot oferi un punct de plecare util pentru documentare. Nimeni nu spune să aruncați telefonul când apare o întrebare medicală.

Dar datele acumulate din mai multe studii independente sunt clare: aceste instrumente nu sunt și nu ar trebui tratate ca autorități medicale de sine stătătoare. Dacă folosiți inteligența artificială pentru o problemă de sănătate, tratați referințele furnizate ca sugestii de investigat, nu ca fapte confirmate.

Fiți atenți mai ales atunci când un răspuns sună extrem de sigur, promite soluții simple sau vă îndeamnă implicit să evitați consultul medical. În sănătate, cel mai bun rol al inteligenței artificiale este să vă ajute să puneți întrebări mai bune unui medic, nu să îl înlocuiască.

Surse

BMJ Open — „Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit”. bmjopen.bmj.com
Nature Medicine — „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study”. nature.com
JAMA Network Open — „Large Language Model Performance and Clinical Reasoning Tasks”. jamanetwork.com
Communications Medicine — „Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support”. nature.com
BMJ Group — comunicat despre studiul BMJ Open. bmjgroup.com

Chatboții medicali mint convingător. Jumătate din răspunsuri sunt problematice, arată mai multe studii

Ce au testat și ce au găsit

Nu este un studiu izolat

De ce greșesc chatboții și de ce par atât de siguri pe ei când răspund

Ce înseamnă asta pentru noi

Articole similare

LĂSAȚI UN MESAJ Renunțați la răspuns

Articole recente

Cronică TruMedia și Rezumat VIDEO: Tănase, Popescu, Olaru — FCSB distruge Petrolul și rămâne de neoprit în play-off

Jose Mourinho, tot mai aproape de revenirea pe Bernabéu? „În 10 zile după încheierea sezonului vom decide”

Derby cu mize europene: Dinamo, decimată de accidentări!

SURSE Nicușor Dan va putea folosit comunicațiile din avionul Spartan și în timpul zborului. Aeronava a fost modernizată

România accelerează dezvoltarea pieței de capital. Alexandru Nazare, discuții la nivel european pentru atragerea investițiilor

Ne dorim ca datele tale personale să rămână confidențiale