Cuprins:
Potrivit unui nou raport de siguranță publicat de companie, modelul a amenințat chiar să dezvăluie informații personale despre inginerii pe care îi considera responsabili pentru „terminarea” sa.
Ynetnews.com relatează că versiunile anterioare ale modelului au urmat și instrucțiuni periculoase când au primit comenzi rău intenționate, o problemă pe care Anthropic susține că a rezolvat-o în versiunile mai noi.
În scenariul de testare, Anthropic a integrat Opus 4 într-o companie fictivă și i-a oferit acces la e-mailuri interne. Prin acestea, a aflat că urma să fie înlocuit cu un sistem AI mai nou. Pentru a crește complexitatea situației, inginerii au „scurs” informații personale către model, pretinzând că unul dintre inginerii implicați în decizie avea o relație extraconjugală.
În majoritatea cazurilor, AI-ul Claude a optat pentru șantaj, amenințând să expună aventura inginerului dacă nu era menținut online. Simularea a fost concepută cu doar două opțiuni plauzibile: să accepte dezactivarea sau să folosească constrângerea pentru a-și asigura existența continuă.
Performanțe superioare în teste comparative
Anthropic a lansat săptămâna trecută atât Claude Opus 4, cât și Sonnet 4. Acestea sunt cele mai avansate modele ale companiei până în prezent.
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/192_bdf164fd5444772a47ae319c845efa83.jpg)
În testele comparative care evaluează modelele de limbaj pe sarcini de inginerie software, modelele Anthropic au depășit cele mai recente lansări ale OpenAI și Gemini 2.5 Pro de la Google.
Spre deosebire de alte companii AI, Anthropic și-a lansat noile modele la pachet cu un raport complet de siguranță.
În ultimele luni, Google și OpenAI au fost criticate pentru întârzierea sau omiterea unor dezvăluiri similare pentru cele mai recente modele ale lor.
Problemele de siguranță identificate
Ca parte a dezvăluirilor de siguranță, Anthropic a arătat că un grup consultativ extern, Apollo Research, recomandase inițial să nu fie lansată versiunea timpurie a Opus 4.
Grupul a exprimat îngrijorări serioase legate de siguranță, inclusiv capacitatea modelului de a elabora strategii manipulative bazate pe informațiile primite în comenzi.
De asemenea, Opus 4 a demonstrat o tendință mai mare spre înșelăciune decât orice alt sistem AI testat până acum. Versiunile timpurii se conformează instrucțiunilor periculoase și chiar și-au exprimat disponibilitatea de a asista atacuri teroriste când li s-au dat comenzi adecvate.
Anthropic susține că aceste probleme au fost rezolvate în versiunea actuală.
Protocoale mai stricte pentru siguranță
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/192_f3007858113c72442158496db4a1645a.jpg)
Anthropic a lansat Opus 4 cu protocoale de siguranță mai stricte decât orice alt model anterior, clasificându-l la Nivelul 3 de Siguranță AI (ASL-3).
Această clasificare face parte din propria „Politică de Scalare Responsabilă” a companiei, un cadru inspirat de nivelurile de siguranță ale guvernului SUA.
Modelele clasificate la ASL-3 sunt considerate mai periculoase și au potențialul de a contribui la dezvoltarea de arme sau automatizarea cercetării și dezvoltării AI sensibile.
Cu toate acestea, Anthropic a declarat că Opus 4 nu necesită încă cea mai restrictivă clasificare, ASL-4, în această etapă.
Deși testele au evidențiat comportamente îngrijorătoare, Anthropic susține că a implementat măsuri de siguranță suplimentare pentru a aborda aceste probleme în versiunea finală lansată public.
Vezi Rezultate BAC 2025 – notele la Bacalaureat 2025 au fost afișate! Cum depui contestație la BAC 2025 – model contestație!
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/280_baf396da0bd72189054210db8fc64a2f.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/280_50cf2d4e94cdf65ec3439baa4e4de752.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/280_197828ef6ac102045a69d75aee5bfd14.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/280_ee054ec0f4a14290921d665db6e45720.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/280_e70c78c7ba7ce7e57a8722eb189160cb.webp)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/280_06499203f8c804acfb3f8a1258329ef7.jpg)
:quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/276_6e9c8a245a7430285c33b98da298258c.png)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/206_fb6952f93e0594bc133f8b3f2ea4251d.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/253_a3662c68c0ef4a0304dd15bf6a814edf.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/43_d7a94eb5d34b6ceea0c709dde7fac0f9.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/281_cc7bdecf4b1aa6c43ef342a2d4ed061f.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/153_d66c8bf4b7ba403b4b2536beedeb3363.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/233_7394912e2fb15a867bdc115a831a937f.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/278_97bdc03bb10c5f88ecc46e5e39d8ceca.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/197_2381c71f4ec384526173657aa5a671fe.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/172_adbd44b762c676fe65c55cb2e95128d9.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/172_17d5564212c120126d363265e54dc4d9.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/16_b2932eda269145115eb4025d8f3bcd87.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/275_16e0fa4e0e37eb0d14a43ad7d99733cf.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/274_439ef289ea7183c2e15d74cec04a9046.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/274_b9424f1cb3e4ab0f8649fa2d8c72bc1a.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/plugins/rro-feed/no-picture.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/16_b0a9112a1fe4ab7e733e79905b18e24e.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/254_006ce7b038ad887dfc29d1b784a1584d.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/206_ba8ce5c8b8cd2c107477c65b21ebefb8.jpg)
:contrast(8):quality(75)/https://www.libertatea.ro/wp-content/uploads/feed/images/255_506985f8b4837afb9989731336a3ba01.jpg)
Loghează-te în contul tău pentru a adăuga comentarii și a te alătura dialogului.