Anthropic представила динамічні робочі процеси в Claude Code – ForkLog UA

Компанія Anthropic представила Claude Opus 4.8 і анонсувала функцію динамічних робочих процесів для Claude Code.

Цей інструмент надає штучному інтелекту можливість самостійно створювати скрипти для оркестрації, запускати десятки чи сотні паралельних субагентів та верифікувати отримані результати.

Рішення призначене для вирішення складних завдань у великих кодових базах, включаючи аудит безпеки, виявлення дефектів, міграцію між різними фреймворками та мовами програмування, а також модернізацію проєктів.

Ця функція доступна в режимі попереднього тестування через інтерфейс командного рядка Claude Code, десктопну версію та плагін для VS Code, а також через API, і через платформи Amazon Bedrock, Vertex AI та Microsoft Foundry.

Запуск режиму можливий за допомогою прямої команди на створення робочого процесу або через ultracode. Він максимізує рівень обчислювальних ресурсів і дозволяє моделі самостійно визначати, коли слід застосувати багатоетапну стратегію.

В Anthropic попередили: динамічні робочі процеси потребують значно більшої кількості токенів порівняно зі стандартною сесією Claude Code.

Модель декомпозує завдання на менші підзадачі, розподіляє їх між паралельними агентами, а потім синтезує висновки після взаємної перевірки та спроб спростування знайдених рішень.

Як ілюстрацію Anthropic навела приклад перенесення Bun з мови програмування Zig на Rust. Розробник Джаред Самнер використав динамічні робочі процеси для генерації приблизно 750 000 рядків коду на Rust. Порт успішно пройшов 99,8% наявних тестів, а процес від першого коміту до злиття зайняв 11 днів. Однак в Anthropic уточнили, що ця версія поки що не використовується у комерційному продакшені.

Показники нової моделі Opus 4.8:

  • 69,2% у SWE-Bench Pro;
  • 49,8% у Humanity’s Last Exam без інструментів і 57,9% з ними;
  • 83,4% в OSWorld-Verified;
  • 1890 балів у GDPval-AA;
  • 53,9% у Finance Agent v2.

У Terminal-Bench 2.1 Opus 4.8 показала результат 74,6%, поступившись GPT-5.5, який отримав 78,2%.

В Anthropic зазначили, що Opus 4.8 демонструє помітно більшу «чесність» під час виконання завдань агентами: модель частіше вказує на невизначеність, рідше стверджує про досягнення прогресу без підтвердження і краще виявляє проблеми у власному коді перед передачею результату користувачеві.

Нагадаємо, у травні Anthropic опублікувала перший звіт щодо Project Glasswing — програми для пошуку вразливостей із використанням моделі Claude Mythos.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *