Anthropic застерегла щодо небезпек рекурсивного самовдосконалення штучного інтелекту – ForkLog UA

Співробітники Anthropic все частіше доручають системам штучного інтелекту значну частину розробки нових моделей. У компанії розглядають це як ознаку наближення до рекурсивного самовдосконалення.

Згідно з внутрішніми даними, понад 80% коду поточних продуктів компанії написав Claude. При цьому в другому кварталі обсяг коду на одного інженера зріс учетверо порівняно з 2024 роком.

Джерело: Anthropic Institute.

Керівниця Anthropic Institute Марина Фаваро та співзасновник компанії Джек Кларк зазначили, що за наявності достатніх обчислювальних ресурсів цей тренд може призвести до створення системи, здатної «повністю автономно проєктувати та розробляти свого наступника».

«Ми ще не досягли точки неповернення, і рекурсивне самовдосконалення не є неминучим. Однак воно може відбутися раніше, ніж до цього підготується більшість організацій», — наголосили фахівці.

Тести та показники

У квітні Claude здійснив понад 800 виправлень, що, за оцінками куратора-інженера, зайняло б у людини чотири роки.

У відкритих завданнях частка успішних сесій Claude зросла до 76% у травні 2026 року, що на 50% більше за шість місяців.

Джерело: Anthropic Institute.

Anthropic повідомила, що тривалість завдань, які ШІ може надійно виконувати автономно, подвоюється приблизно кожні чотири місяці (раніше цей показник становив сім місяців).

У завданні з прискорення навчання невеликої ШІ-моделі Claude Opus 4 у травні 2025 року в середньому забезпечував приріст швидкості приблизно втричі, а Mythos Preview у квітні 2026 — приблизно в 52 рази.

Джерело: Anthropic Institute.

Під час внутрішніх тестів модель Mythos Preview продемонструвала здатність розв’язувати дослідницькі завдання у сфері безпеки ШІ. За 800 годин роботи група агентів закрила 97% проблемних розривів в експерименті, тоді як двоє дослідників-людей за тиждень впоралися лише з 23% обсягу.

Нові обмеження

Попри успіхи в написанні коду, за людьми залишається перевага в «дослідницькому мисленні» та визначенні стратегічних пріоритетів.

В Anthropic вважають, що найближчим часом роль розробників зміститься від написання рядків коду до ретельного аналізу результатів роботи нейромережі. Саме людський контроль може стати головним вузьким місцем у швидкості розробки нових моделей.

У компанії також висловили думку, що світу було б корисно мати можливість сповільнювати або тимчасово призупиняти розробку передових ШІ-систем, аби суспільні інституції та дослідження у сфері узгодження досягли відповідного рівня.

Водночас представники стартапу попередили: одностороннє сповільнення може бути невигідним для тих, хто гальмує, — менш обережні гравці зможуть скоротити відставання. Без загального механізму координації рішення щодо безпеки доведеться ухвалювати під тиском конкуренції та геополітики.

Нагадаємо, у травні Anthropic опублікувала перший звіт за Project Glasswing — програмою пошуку вразливостей за допомогою моделі Claude Mythos.

Того ж місяця компанія представила Claude Opus 4.8 і окремо інтегрувала для Claude Code функцію динамічних робочих процесів.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *