Anthropic представила Fable: Нова модель ШІ, що викликала суперечки серед кіберфахівців
У вівторок компанія Anthropic анонсувала свою новітню розробку — модель Fable. Її позиціонують як публічну, але обмежену версію потужного та широко обговорюваного інструменту для кібербезпеки під назвою Mythos.
Однак, не всі користувачі задоволені запровадженими обмеженнями. Численні дослідники та професіонали у сфері кібербезпеки висловили своє невдоволення в онлайн-просторі.
Обмеження, що заважають роботі
«Fable відхиляє будь-які запити, які хоч якось пов’язані з кібербезпекою. Навіть такі нейтральні завдання, як читання блогу, викликають реакцію», — зазначила Валентина «Чомпі» Пальміотті, відомий дослідник безпеки, яка працює в IBM X-Force.
Коли запит активує захисні механізми, Fable призупиняє діалог і повідомляє, що її «заходи безпеки позначили це повідомлення через тематику кібербезпеки або біології».
Ці захисні обмеження були введені для мінімізації ризику використання Fable для розробки шкідливого програмного забезпечення або компрометації програмних систем — це давнє занепокоєння Anthropic. Обмеження щодо біології випливають зі схожої стурбованості стосовно розробки біологічної зброї.
Історія розробки та доступ до Mythos
Коли AI-гігант випустив Mythos у квітні, доступ до моделі був обмежений для певної кількості компаній та організацій у рамках проєкту Glasswing. Метою було розгортання моделі для захисту критично важливого програмного забезпечення та інфраструктури. Минулого тижня Anthropic розширила доступ до Mythos, надавши його сотням організацій у 15 країнах.
Критика обмежень та подальші плани
Незважаючи на добрі наміри, багатьох експертів з кібербезпеки все ще відштовхує хаотичний характер обмежень. Метт Суіче, ветеран кібербезпеки, розповів TechCrunch, що «якщо ви попросите його написати безпечний код, він вважатиме це роботою з кібербезпеки, а не найкращими практиками програмної інженерії, і ваша оцінка знизиться». Fable запрограмована на повернення до Claude Opus 4.8, якщо спрацьовує захисний бар’єр. «Здається, це базується на ключових словах, тому будь-який термін у лексичному полі ‘кібербезпеки’ активує захисні механізми».
«Проте це зрозуміло, адже ми все ще перебуваємо на ранніх етапах, і вони продовжують адаптувати свої захисні механізми. Я впевнений, що з часом вони розвиватимуться, оскільки Anthropic та інші компанії, що створюють передові моделі, будуть більше співпрацювати з поточним новим поколінням компаній з кібербезпеки», — зазначив Суіче, який є членом технічного персоналу Tolmo, стартапу в галузі AI-кібербезпеки. «Краще спіймати більше, ніж недостатньо, коли ви робите такий реліз, і з часом послабити захисні механізми».
Інший дослідник поскаржився в X, що «навіть запит на перевірку коду» активує захисні механізми Fable.
Anthropic не надала негайного коментаря щодо запиту.
Програми верифікації для професіоналів
Окрім внутрішніх захисних механізмів у своїх моделях, Anthropic вимагає від фахівців з кібербезпеки подати заявку на участь у Програмі верифікації кібербезпеки (Cyber Verification Program). Після схвалення заявки обмежень на використання Claude для роботи з кібербезпеки стає менше. OpenAI має схожу програму під назвою Trusted Access for Cyber.
Зауважте, що при купівлі за посиланнями в наших статтях ми можемо отримувати невелику комісію. Це не впливає на нашу редакційну незалежність.
Зв’яжіться з нами
Чи маєте ви додаткову інформацію про те, як хакери використовують ШІ? Або як компанії з кібербезпеки застосовують ШІ? Ми б хотіли почути від вас. З пристрою та мережі, не пов’язаних з роботою, ви можете безпечно зв’язатися з Лоренцо Франчески-Бікк’єраі через Signal за номером +1 917 257 1382, або через Telegram та Keybase @lorenzofb, чи електронною поштою.
Порада від КриптоДім:
Новина про модель Fable від Anthropic підкреслює виклики, з якими стикаються розробники ШІ при спробі збалансувати потужність і безпеку. Для професіоналів у сфері кібербезпеки це означає необхідність розуміти поточні обмеження таких інструментів та слідкувати за їх еволюцією, щоб ефективно використовувати новітні технології, уникаючи при цьому потенційних ризиків.
За матеріалами: techcrunch.com
