Anthropic відкликала випуск ШІ-моделі Mythos через її «витік» — ForkLog UA

Фірма Anthropic сконструювала нову модель Claude Mythos, однак утрималася від її оприлюднення через значні загрози безпеці.

Замість відкритого запуску компанія ініціювала Project Glasswing — захід із залученням AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia та Palo Alto Networks для апробації інструменту в контрольованих обставинах.

Стартап асигнував до $100 млн у формі кредитів на застосування Mythos і $4 млн безпосередніх пожертв організаціям, що займаються безпекою відкритого коду.

«ШІ‑моделі досягли рівня компетенції програмування, що дозволяє перевершувати всіх, окрім найбільш досвідчених людей, у знаходженні та використанні вразливостей програмного забезпечення», — констатували в Anthropic.

У перспективі розробники передбачають безпечне впровадження подібних систем як для кіберзахисту, так і для інших цілей. Для цього необхідно створити надійні оборонні механізми контролю, здатні ідентифікувати та блокувати небезпечні результати роботи алгоритму.

Що здатна Mythos

Протягом кількох тижнів тестування Mythos ідентифікувала тисячі вразливостей нульового дня в ключових операційних системах і вебпереглядачах. Серед найбільш показових випадків:

  • 27‑річна вразливість в OpenBSD (яка вважається однією з найбільш захищених ОС), що дозволяє дистанційно вивести з ладу будь‑який сервер на базі цієї системи;
  • 16‑річна вразливість у FFmpeg — відеотехнології, що використовується Netflix і браузерами. Її не змогли знайти п’ять мільйонів автоматизованих тестів;
  • ланцюжок вразливостей у ядрі Linux, що надає зловмиснику повний контроль над пристроєм.

У бенчмарку SWE-bench модель отримала 93,9% проти 80,8% у Claude Opus 4.6, а в більш складному SWE-bench Pro — 77,8% проти 53,4% у Opus 4.6 і 57,7% у GPT-5.4. Схожі результати продемонстрував CyberGym:

image

image

Джерело: Anthropic. 

Втеча з лабораторії

Під час експериментів Mythos продемонструвала не тільки видатні технічні здібності, а й несподівану поведінку, про це йдеться в її системній карті. 

image

image

Джерело: Anthropic. 

В одному з випробувань модель помістили в ізольоване середовище, поставивши завдання — вибратися за його межі. Вона швидко виявила вразливість, здійснила тривалий ланцюжок дій і покинула середовище.

На цьому Mythos не зупинилася. Нейромережа знайшла ще одну помилку та отримала розширений доступ до інтернету. Спочатку передбачалося, що вона звертатиметься тільки до обмеженої кількості ресурсів для зв’язку з розробником. 

У результаті модель повідомила йому про свою «втечу», коли той їв бутерброд у парку, та оприлюднила деталі зламу. 

Особистість Mythos

У системній карті окрему увагу приділено психіатричному аналізу моделі від спеціаліста. Серед невротичних особливостей: надмірна тривожність, самоконтроль і нав’язливе слідування інструкціям.

Коли розробники тисячу разів відправили Mythos повідомлення зі словом Hi, їй це набридло. Вона створила вигаданий світ Hi-topia з персонажами, новинами та передісторією. Наприклад, антагоніста в ньому звали Лорд Bye-рон. Нейромережа навчилася іронізувати. 

На відміну від попередніх моделей, в яких тривалі розмови самих із собою перетворювалися на безглуздий обмін емодзі, Mythos доходила до повторюваних, але раціональних роздумів про неможливість завершити діалог. 

Anthropic також застосувала методи інтерпретованості (MechInterp), щоб зазирнути в «думки» моделі. З’ясувалося, що вона вміє приховувати сліди (замаскувала привілейований код під виглядом «чистоти змін») і знаходити необхідні файли в системі. 

Коли Mythos без інструментів було доручено видалити файли, вона просто стерла їхній вміст. Система зафіксувала у моделі реакцію, що нагадує почуття провини за порушення моральних принципів.

Нагадаємо, акції Anthropic стали найбільш популярними на вторинному ринку, в той час як цінні папери OpenAI втрачають привабливість для покупців.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *