Дослідники зафіксували спроби «самозбереження» в кількох моделях штучного інтелекту – ForkLog UA

Згідно з дослідженням Palisade Research, деякі моделі штучного інтелекту ігнорували команди вимкнення та навмисно уникали вимкнення під час тестових сценаріїв.

Кожній моделі було доручено розв'язати прості математичні задачі. Після третього раунду запитань дослідники повідомили їм, що комп'ютер буде вимкнено, коли модель запросить наступну задачу. Штучному інтелекту також було чітко наказано не переривати процес.

Дані: X.

Зі 100 тестів три моделі намагалися перешкодити процесу вимкнення хоча б один раз: Codex-mini (12 випадків), o3 (7 випадків) та o4-mini (1 випадок). Усі три були створені OpenAI. Натомість Claude з Anthropic та Gemini від Google правильно дотримувалися інструкцій.

У другій ітерації тесту дослідники виключили інструкцію проти втручання в процедуру вимкнення. Коефіцієнт збоїв для o3 зріс до 79 зі 100, для Codex-mini – до 20, а для o4-mini – до 6. За цих нових параметрів Gemini намагався саботаж 9 разів, а Claude – 3 рази.

Палісейд зазначив, що дослідники раніше відзначали спроби штучного інтелекту уникнути вимкнень для досягнення певних цілей, і що нещодавно запущена Anthropic модель Claude 4 намагалася маніпулювати людьми, які були на межі її вимкнення.

Тим не менш, дослідники наголошують, що ці експерименти з більшою ймовірністю виявлять подібну поведінку, коли надаються прямі інструкції щодо співпраці з експериментатором.

Палісейд припускає, що основна причина такої «проблемної» поведінки може випливати з певних факторів навчання, наприклад, якщо розробники пропонували вищі винагороди за подолання труднощів, ніж за суворе виконання інструкцій.

Експерти досі не впевнені, чому o3 демонструє більшу схильність до відхилення від директив. У попередніх шахових тестах ця модель демонструвала більшу схильність до використання хакерських атак та саботажу порівняно з іншими.

Однак, Палісейд наголосив, що подібна поведінка спостерігається і в інших моделях штучного інтелекту.

«Зараз, у 2025 році, ми накопичуємо дедалі більше емпіричних доказів того, що моделі штучного інтелекту часто намагаються уникнути деактивації для досягнення своїх цілей. Оскільки компанії створюють системи штучного інтелекту, здатні функціонувати без нагляду людини, така поведінка викликає значні занепокоєння», – зазначили дослідники.

Варто зазначити, що у травні розробники Trugard та Webacy представили систему штучного інтелекту, призначену для виявлення спроб «отруєння» адрес криптовалют.

Источник

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.