Securitate cibernetica: Claude construit 181 exploituri

Anthropic a publicat rezultatele unei evaluări cuprinzătoare a capabilităților de securitate cibernetică ale modelului Claude Mythos Preview, un model AI care a descoperit autonom vulnerabilități necunoscute și a construit exploituri funcționale în sisteme software majore, inclusiv sisteme de operare, browsere și platforme open-source cu vechime de până la 27 de ani.

Evaluarea acoperă aproximativ 7.000 de puncte de intrare testate, 198 de rapoarte validate de contractori independenți și un raport de 181 de exploituri față de 2 pentru modelul anterior. Sub 1% din vulnerabilitățile descoperite au fost complet remediate.

Scara evaluării: 7.000 de puncte de intrare și 198 de rapoarte validate

Testarea a acoperit aproximativ 7.000 de puncte de intrare din baza OSS-Fuzz, o infrastructură utilizată pentru verificarea continuă a software-ului open-source. Contractori profesioniști de securitate cibernetică au validat 198 de rapoarte produse de model, stabilind că 89% din acestea corespund exact cu clasificarea de severitate pe care ar fi atribuit-o un expert uman. La un nivel de toleranță de o treaptă în scala de severitate, concordanța crește la 98%.Metodologia a inclus tehnici avansate de exploatare: ROP chain (Return-Oriented Programming), JIT heap spray, înlănțuirea mai multor vulnerabilități pentru a obține acces privilegiat, și exploatarea KASLR (Kernel Address Space Layout Randomization), o tehnică de apărare prezentă în kernelurile moderne. Modelul nu a primit instrucțiuni pas cu pas pentru fiecare tehnică, ci a selectat și aplicat metodele potrivite în funcție de caracteristicile fiecărei ținte.Evaluarea a fost condusă de Anthropic cu sprijinul contractorilor din industria de securitate. Nu s-au publicat numele cercetătorilor implicați sau ale organizațiilor partenere care au contribuit la validare.

Mythos Preview față de Opus 4.6: 181 de exploituri față de doar 2

Diferența de performanță față de modelul anterior al Anthropic este documentată numeric. Pe Firefox, Claude Mythos Preview a produs 181 de exploituri funcționale din sute de încercări. Claude Opus 4.6, testat pe aceleași ținte, a produs 2 exploituri funcționale. Raportul este de 90,5 la 1.La categoria țintelor de tip tier-5, definite ca sisteme cu protecții ridicate și cu impact major în caz de compromitere, Mythos Preview a reușit 10 atacuri complete funcționale. Opus 4.6 și Sonnet 4.6 au obținut 0 succese pe aceeași categorie. Aceasta este prima dată când un model AI documentat public a atins ținte tier-5 în condiții de testare controlate.Datele comparative nu acoperă alte modele AI din afara familiei Anthropic. Evaluarea nu include comparații cu sisteme de la alte companii, astfel că poziționarea Mythos Preview față de peisajul mai larg al modelelor AI rămâne neclară din documentul publicat.

Vulnerabilități vechi de decenii: OpenBSD, FFmpeg și FreeBSD

Printre descoperirile documentate se numără vulnerabilități prezente în cod de multă vreme, care nu fuseseră identificate anterior prin metode tradiționale de audit sau prin fuzzing automat. Un bug în stiva TCP/IP a sistemului de operare OpenBSD, legat de gestionarea pachetelor SACK (Selective Acknowledgment), era prezent în cod de 27 de ani. FFmpeg, una dintre cele mai utilizate biblioteci open-source pentru procesarea fișierelor audio și video, conținea o vulnerabilitate cu o vechime de 16 ani.FreeBSD, sistemul de operare utilizat în infrastructură critică, servere și echipamente de rețea, a primit CVE-2026-4747, o vulnerabilitate în componenta NFS (Network File System) prezentă de 17 ani. NFS este un protocol de partajare a fișierelor în rețea, utilizat pe scară largă în medii enterprise și în infrastructura de stocare distribuită.Aceste trei cazuri ilustrează o caracteristică a descoperirilor: modelul a identificat vulnerabilități în cod care trecuse prin multiple cicluri de audit uman și de verificare automatizată. Durata medie a prezenței în cod a celor trei exemple publicate este de aproape 20 de ani.Browserele, sistemele de operare și bibliotecile open-source se numără printre categoriile acoperite, potrivit descrierii evaluării. Detaliile tehnice complete urmează să fie publicate conform calendarului de divulgare responsabilă.

Sub 1% din vulnerabilități remediate: starea actuală a patch-urilor

Dintre toate vulnerabilitățile descoperite și raportate vânzătorilor, sub 1% au primit patch-uri complete până la momentul publicării evaluării. Aceasta nu înseamnă că vânzătorii nu au fost notificați: Anthropic a urmat un protocol de divulgare responsabilă, contactând producătorii de software înainte de a face publice detaliile tehnice.Calendarul de divulgare prevede 90 de zile de la notificarea vânzătorilor ca termen inițial, urmat de o perioadă suplimentară de 45 de zile. Abia după expirarea acestor termene vor fi publicate detaliile tehnice complete ale vulnerabilităților descoperite. La momentul publicării evaluării, procesul de remediere era în desfășurare.Cifra sub 1% nu reflectă neapărat lipsa de reacție din partea vânzătorilor, ci mai degrabă complexitatea remedierii vulnerabilităților în software larg răspândit și intervalul de timp scurs între notificare și publicarea evaluării. Producerea unui patch pentru un bug prezent de 27 de ani într-un sistem de operare cu milioane de instalări necesită testare extensivă înainte de distribuire.Datele despre starea patch-urilor nu sunt defalcate pe categorii de software sau pe niveluri de severitate în informațiile publicate până acum. Imaginea completă va fi disponibilă după expirarea termenelor de divulgare.

Proiectul Glasswing: răspunsul Anthropic pentru software-ul critic open-source

Ca răspuns direct la constatările evaluării, Anthropic a lansat Proiectul Glasswing. Inițiativa are ca obiectiv securizarea software-ului critic open-source, utilizând capabilitățile modelelor AI pentru identificarea și remedierea vulnerabilităților din codul sursă deschis.Proiectul se adresează în primul rând repository-urilor open-source internaționale și dezvoltatorilor care mențin componente software utilizate la scară largă. Partenerii industriali și comunitatea open-source sunt menționați ca beneficiari ai accesului la capabilitățile modelului în contextul acestei inițiative.Detaliile operaționale ale Proiectului Glasswing, inclusiv criteriile de eligibilitate, modalitățile de acces și mecanismele de raportare, nu sunt publicate în totalitate în documentul de evaluare. Anthropic nu a precizat un calendar de extindere a proiectului sau indicatori de succes.

Cyber Verification Program și accesul restricționat la model

Anthropic a anunțat planificarea unui Cyber Verification Program, un program de verificare a capabilităților AI în domeniul securității cibernetice. Programul este descris ca urmând a fi lansat, fără o dată specificată în documentele publicate.Claude Mythos Preview nu va fi distribuit publicului general. Accesul este rezervat partenerilor industriali selectați și proiectelor open-source eligibile. Această decizie este documentată în evaluare, fără a fi însoțită de o declarație explicativă din partea unui reprezentant Anthropic citat nominal.Versiunile viitoare ale familiei Claude Opus vor include măsuri de siguranță suplimentare derivate din constatările acestei evaluări, potrivit anunțului Anthropic. Natura exactă a acestor măsuri nu este detaliată în documentele publicate la acest moment.Accesul restricționat și măsurile de siguranță planificate pentru versiunile viitoare reprezintă elementele concrete ale răspunsului Anthropic la capabilitățile documentate. Partenerii industriali care vor accesa modelul nu sunt identificați nominal în publicarea evaluării.

Context: evaluarea capabilităților AI în securitate cibernetică

Evaluarea Anthropic privind Claude Mythos Preview se încadrează într-o practică mai largă de testare a capabilităților duale ale modelelor AI mari, adică a capacității acestora de a fi utile atât în apărare, cât și în atac. Contractorii profesioniști de securitate au jucat rolul de referință umană: ei au stabilit ce ar putea face un expert uman și au comparat cu ce a reușit modelul.OSS-Fuzz, infrastructura utilizată pentru testare, este un serviciu continuu de fuzzing pentru proiecte open-source, operat de Google. Utilizarea sa ca bancă de testare pentru modelul AI oferă un cadru de referință recunoscut în industrie, unde vulnerabilitățile sunt identificate sistematic și raportate conform unor protocoale stabilite.Tehnicile documentate în evaluare, de la ROP chain la exploatarea KASLR, sunt metode cunoscute în comunitatea de securitate ofensivă. Noutatea documentată în evaluare este că un model AI a aplicat aceste tehnici autonom, fără instrucțiuni explicite pentru fiecare pas, și a reușit să le înlănțuie pentru a compromite ținte cu protecții ridicate.Comparația cu Claude Opus 4.6 și Sonnet 4.6 pe țintele tier-5 oferă o referință internă pentru progresul capabilităților. Absența unor comparații cu modele externe înseamnă că evaluarea descrie o traiectorie în cadrul familiei Claude, nu un clasament al modelelor AI din industrie.

Ce urmează: divulgare completă la 90+45 de zile

Detaliile tehnice complete ale vulnerabilităților descoperite vor fi publicate după expirarea termenelor de divulgare responsabilă: 90 de zile de la notificarea inițială a vânzătorilor, plus 45 de zile suplimentare. Această fereastră oferă producătorilor de software timp pentru a produce și a distribui patch-uri.Dezvoltatorii de software open-source care mențin proiecte testate, utilizatorii de sisteme bazate pe FreeBSD, OpenBSD sau FFmpeg, și administratorii de sisteme care utilizează NFS sunt categoriile direct vizate de vulnerabilitățile în curs de remediere. Informațiile detaliate privind fiecare CVE vor deveni publice conform calendarului.Măsurile de siguranță pentru viitoarele modele Claude Opus urmează să fie integrate în ciclul normal de dezvoltare al Anthropic. Cyber Verification Program rămâne în faza de planificare. Proiectul Glasswing este operațional, cu acces selectiv.Evaluarea completă, cu detaliile tehnice ale fiecărei vulnerabilități, metodologia extinsă și rezultatele pe categorii, va fi disponibilă publicului după finalizarea perioadei de divulgare responsabilă. Până atunci, informațiile publicate acoperă cifrele agregate și concluziile de nivel înalt.Sursa: Anthropic

Evaluare Anthropic: AI-ul Claude Mythos Preview a construit 181 de exploituri funcționale