Claude Opus 4.6 обігнала GPT-5.2 у тестах та отримала "агентську команду" - ForkLog UA

AI-стартап Anthropic представив оновлену версію своєї провідної моделі Claude Opus до версії 4.6. Нейронна мережа ефективніше планує операції, витримує тривалі завдання та продуктивніше працює з великими кодовими базами.

Контекстне вікно збільшили до 1 млн токенів. Такий розмір дозволяє обробляти великі документи та підтримувати розгорнуті діалоги без втрати логічного зв’язку.

Удосконалені алгоритми оптимізовані для виконання робочих завдань: здійснення фінансового аналізу, проведення досліджень, застосування та створення документів, електронних таблиць і презентацій.

Opus 4.6 отримала найвищий бал у тесті з кодування Terminal-Bench 2.0 та обігнала конкурентів у складному міждисциплінарному тесті на логічне міркування Humanity’s Last Exam.

Порівняння Opus 4.6 з конкурентами у ряді тестів. Джерело: Anthropic.

У GDPval-AA, що оцінює рівень міркувань і прийняття рішень, модель перевершила GPT-5.2 від OpenAI. LLM також продемонструвала найкращі результати в BrowseComp, який вимірює здатність знаходити у мережі важкодоступну інформацію.

Джерело: Anthropic.

Opus 4.6 результативно витягує дані з великих документів. Завдяки розширеному контекстному вікну модель відстежує та вловлює неочевидні приховані деталі.

Команди агентів

Ключове нововведення — здатність формувати групи агентів для спільної праці. У цьому режимі декілька AI-асистентів працюють одночасно та самостійно координують свою діяльність.

Інструмент підходить для завдань, які розділяються на незалежні етапи та потребують обробки великих обсягів тексту.

Замкнений цикл

В Anthropic запевнили, що «створюють Claude разом із Claude». Розробники пишуть код за допомогою власної AI-моделі, а кожен новий продукт перед випуском проходить перевірку на внутрішніх задачах компанії.

Команда виявила, що Opus 4.6 приділяє більше уваги найскладнішим частинам завдання без додаткових вказівок, швидко виконує прості доручення, краще справляється з нечіткими проблемами та зберігає продуктивність на довгій дистанції.

«Opus 4.6 часто розмірковує більш глибоко і старанно перевіряє свої висновки перед прийняттям рішення. Це забезпечує кращі результати під час вирішення комплексних кейсів, проте може збільшити витрати та видатки у випадку з простими», — повідомили в компанії.

Безпека

Автоматизований аудит показав у Opus 4.6 низьку схильність до небажаної поведінки: обману, підлабузництва, закріпленню помилкових переконань користувача та сприянню неправомірним діям.

Модель демонструє безпеку на рівні Opus 4.5. Джерело: Anthropic.

Для оцінки моделі компанія провела наймасштабнішу серію оцінок, уперше застосувавши новітні методики тестування та вдосконаливши існуючі.

Доступність і нові функції

Claude Opus 4.6 вже доступна у вебінтерфейсі, через API та на основних хмарних платформах.

У набір інструментів для розробників додали нові можливості:

адаптивне мислення — нейромережа самостійно визначає, коли варто активувати режим глибокого мислення;
регулювання зусиль — передбачено чотири рівні інтенсивності роботи: від низького до максимального;
ущільнення контексту — інструмент автоматично підсумовує та замінює попередній контекст, коли розмова наближається до ліміту токенів.

Нагадаємо, у січні CEO Anthropic Даріо Амодей спрогнозував швидку появу AGI та скорочення робочих місць.

No votes yet.

Please wait...

Claude Opus 4.6 обігнала GPT-5.2 у тестах та отримала “агентську команду” – ForkLog UA

Команди агентів

Замкнений цикл

Безпека

Доступність і нові функції

Залишити відповідьСкасувати відповідь