Sakana Fugu: новий мультимодельний ШІ досягає кращої продуктивності, обходячи Claude 3 Opus

Минулої ночі компанія Sakana, яка зосереджується на корпоративному сегменті, представила Fugu – систему оркестрації на базі кількох агентів, що забезпечує продуктивність ШІ рівня “frontier” через єдиний API, сумісний з OpenAI.

Fugu (японською “риба-їжак”), розроблений для розробників, підприємств та держав, які прагнуть стійкості до прив’язки до постачальника та геополітичних експортних обмежень, оминає традиційну монолітну структуру моделей, динамічно маршрутизуючи запити до змінної групи спеціалізованих ШІ-агентів.

Генеральний директор та співзасновник Sakana Девід Ха, раніше з Google Brain, позиціонував Fugu як більш надійний варіант для корпоративних робочих процесів, ніж будь-який окремий постачальник моделей ШІ, після того, як 12 червня Anthropic припинила загальнодоступний доступ до своїх найпотужніших моделей Claude Mythos 5 та Claude Fable 5 через наказ про експортний контроль уряду США. Як написав Ха у своєму дописі сьогодні в X:

“Fugu динамічно оркеструє найкращі моделі світу для виконання складних завдань. Ми доводимо, що добре оркестрована група змінних агентів може конкурувати з обмеженими моделями frontier, такими як Fable та Mythos. Але Fugu – це більше, ніж просто продуктивність. Я вважаю, що оркестраційні моделі – це наступний рубіж, за межами більших моделей. Покладатися на моделі однієї компанії для національної інфраструктури – це величезний ризик. Як показали нещодавні експортні обмеження, доступ до найкращих моделей може зникнути за одну ніч. Колективний інтелект – це практична страховка проти такої концентрації влади. Fugu просто обходить обмеження постачальників, покладаючись на повністю змінну групу агентів”.

Sakana AI чітко зазначає, що конкретні моделі, які обирає Fugu, та спосіб їх координації є власністю компанії, тобто ця інформація про маршрутизацію прихована від користувача за дизайном. Документація загалом посилається на “різноманітну групу потужних моделей”, “кілька LLM” або “спеціалізовані моделі” без зазначення конкретної кількості.

Виступаючи як складний координатор, а не як самостійна базова модель, Fugu відповідає якості виводу провідних моделей, таких як Fable та Mythos, на сторонніх бенчмарках агентських завдань, одночасно фундаментально змінюючи спосіб розгортання критично важливої ШІ-інфраструктури розробниками.

Як працює Sakana Fugu і чим він перевершує Claude Fable 5 від Anthropic

По суті, Sakana Fugu працює як головний генеральний підрядник. Отримуючи складний запит, Fugu не намагається виконати кожен крок самостійно.

Натомість він розбиває проблему на підзадачі, делегує їх групі експертних базових моделей, перевіряє їхню роботу та синтезує кінцевий результат.

Sakana Fugu: новий мультимодельний ШІ досягає кращої продуктивності, обходячи Claude 3 Opus 5

“Fugu сам по собі є LLM, навченою викликати різні LLM у групі агентів, включаючи рекурсивно екземпляри себе”, – зазначила команда Sakana AI у своєму технічному релізі.

Базуючись на двох наукових роботах Sakana 2026 року, TRINITY та The Conductor, система автономно керує повним життєвим циклом вибору та верифікації моделей, використовуючи стратегії координації, вивчені на основі машинного навчання, а не розроблені вручну робочі процеси. Для кінцевого користувача ця багатоагентна “зграя” повністю абстрагована за стандартним API-інтерфейсом.

Sakana AI пропонує дві версії системи для різних робочих навантажень:

Fugu: Високошвидкісна модель з низькою затримкою, оптимізована для повсякденних завдань. Вона розроблена як стандартний рушій для інтерактивних чат-ботів і інтегрується безпосередньо в середовища кодування, такі як Codex.
Fugu Ultra: Флагманський рівень, розроблений для складних, критично важливих завдань, таких як дослідження ШІ, аналіз кібербезпеки та багатоетапні патентні розслідування. За даними Sakana, Fugu Ultra координує глибшу групу експертів і конкурує з провідними монолітними моделями за жорсткими науковими та логічними бенчмарками.

Крім того, за планом оплати за використання, стандартний Fugu стягує динамічну плату залежно від активованих базових моделей, тоді як Fugu Ultra використовує фіксовану структуру ціноутворення, починаючи з 5 доларів за мільйон вхідних токенів і 30 доларів за мільйон вихідних токенів.

Як свідчать діаграми бенчмарків, надані Sakana, Fugu фактично перевершує продуктивність Claude Fable 5 від Anthropic у LiveCodeBench – відкритому бенчмарку, що тестує продуктивність кодування на регулярно оновлюваних завданнях вирішення програмних проблем (Fugu Ultra: 93.2, Fugu: 92.9, Fable: 89.8), і перевершує попередню модель Claude Mythos Preview у GPQA-D (Diamond) – тесті зі 198 випускних завдань з множинним вибором з біології, фізики та хімії (Fugu Ultra: 95.5, Fugu: 95.5, Mythos Preview: 94.6).

Sakana Fugu: новий мультимодельний ШІ досягає кращої продуктивності, обходячи Claude 3 Opus 6

Завдяки оркестрації багатьох моделей від різних постачальників, Fugu по суті створює вбудовану резервність у стеку ШІ. Якщо один постачальник зазнає збою або стикається з раптовими регуляторними обмеженнями, Fugu обходить збій, щоб забезпечити безперебійну роботу.

Ліцензування та доступність

Fugu пропонується як комерційна, пропрієтарна API-послуга, а не як фреймворк з відкритим вихідним кодом.

Оскільки основна інтелектуальна власність Sakana полягає в її неочевидних патернах співпраці, специфічна інформація про маршрутизацію – тобто, які саме базові моделі Fugu обирає для конкретного запиту – залишається власністю компанії та навмисно прихована від користувача.

Проте Sakana пропонує критично важливі елементи контролю для відповідності корпоративним даним. Розробники можуть явно виключати певні моделі або постачальників зі свого пулу маршрутизації Fugu, щоб дотримуватися суворих корпоративних стандартів конфіденційності.

Крім того, користувачі можуть відмовитися від використання своїх запитів для подальшого навчання даних. Географічно Fugu обмежений у роботі в межах Європейського Союзу (ЄС) та Європейської економічної зони (ЄЕЗ), поки Sakana працює над приведенням своєї архітектури маршрутизації даних “чорної скриньки” у відповідність з GDPR.

Ціноутворення досить високе

Fugu доступний негайно в більшості регіонів (з тимчасовим винятком ЄС та ЄЕЗ) за рівнями підписки та тарифами оплати за використання.

Команди можуть обрати щомісячні пакетні пропозиції, розроблені для індивідуального або активного використання: стандартний рівень за 20 доларів на місяць для легких робочих процесів, рівень Pro за 100 доларів на місяць, що забезпечує 10-кратне стандартне використання, та рівень Max за 200 доларів на місяць, що пропонує 20-кратне використання для безперервних, довготривалих завдань. Мені не вдалося знайти точну кількість токенів, що покриваються цими планами, але я звернувся до Ха в X за додатковою інформацією.

У рамках початкового розгортання Sakana пропонує безкоштовний другий місяць для користувачів, які підпишуться на будь-який рівень до 31 липня 2026 року.

Для масштабування підприємств та виробничих розгортань Sakana пропонує гнучкий план оплати за використання. Важливо для критичних середовищ: запити, зроблені за цією моделлю оплати за споживанням, обслуговуються з вищим пріоритетом, ніж ті, що надходять від щомісячних планів підписки.

За цією структурою, стандартний рушій Fugu стягує єдину ставку найвищого рівня задіяної базової моделі для запиту, без нарахування плати за багатоагентність. Флагманський рівень Fugu Ultra (fugu-ultra-20260615) використовує фіксовану структуру ціноутворення за один мільйон токенів: 5 доларів за вхідні, 30 доларів за вихідні та 0,50 доларів за кешовані вхідні дані. Ці ставки зростають до 10, 45 та 1,00 доларів відповідно для екстремальних робочих навантажень, що використовують контекстні вікна понад 272 тис. токенів. Це робить його одним із найдорожчих варіантів порівняно з окремими моделями ШІ через API постачальників:

Знімок цін на API моделей Frontier від VentureBeat AI

Модель	Вхідні	Вихідні	Загальна вартість	Джерело
MiMo-V2.5 Flash	$0.10	$0.30	$0.40	Xiaomi MiMo
deepseek-v4-flash	$0.14	$0.28	$0.42	DeepSeek
deepseek-v4-pro	$0.435	$0.87	$1.305	DeepSeek
MiniMax-M3	$0.30	$1.20	$1.50	MiniMax
Gemini 3.1 Flash-Lite	$0.25	$1.50	$1.75	Google
Qwen3.7-Plus	$0.40	$1.60	$2.00	Alibaba Cloud
MiMo-V2.5	$0.40	$2.00	$2.40	Xiaomi MiMo
Grok 4.3 (low context)	$1.25	$2.50	$3.75	xAI
MiMo-V2.5 Pro (≤256K)	$1.00	$3.00	$4.00	Xiaomi MiMo
Kimi-K2.6	$0.95	$4.00	$4.95	Moonshot
GLM-5.2	$1.40	$4.40	$5.80	Z.ai
Grok 4.3 (high context)	$2.50	$5.00	$7.50	xAI
MiMo-V2.5 Pro (>256K)	$2.00	$6.00	$8.00	Xiaomi MiMo
Qwen3.7-Max	$2.50	$7.50	$10.00	Alibaba Cloud
Gemini 3.5 Flash	$1.50	$9.00	$10.50	Google
Gemini 3.1 Pro Preview (≤200K)	$2.00	$12.00	$14.00	Google
GPT-5.4	$2.50	$15.00	$17.50	OpenAI
Gemini 3.1 Pro Preview (>200K)	$4.00	$18.00	$22.00	Google
Claude Opus 4.8	$5.00	$25.00	$30.00	Anthropic
GPT-5.5	$5.00	$30.00	$35.00	OpenAI
Sakana Fugu Ultra	$5.00	$30.00	$35.00	Sakana AI
Claude Fable 5 / Claude Mythos 5	$10.00	$50.00	$60.00	Anthropic

При моделюванні операційних витрат розробники також повинні враховувати суттєву архітектурну примітку щодо того, як Fugu виставляє рахунки за свої багатоагентні можливості. Згідно з документацією для розробників, відповіді API Fugu Ultra включають докладні поля використання, які відокремлюють генерацію токенів, видиму користувачеві, від внутрішньої роботи з оркестрації. Фоновий обсяг токенів, спожитий і згенерований, коли Fugu делегує підзавдання, перевіряє код або маршрутизує між базовими агентами, не поглинається постачальником; вони представляють реальне використання токенів і враховуються у кінцевій ціні запиту за стандартними тарифами.

Ландшафт оркестрації: Fugu проти конкурентів та помітна продуктивність на бенчмарках

Щоб зрозуміти позицію Fugu в екосистемі ШІ середини 2026 року, важливо розрізняти маршрутизацію моделей та оркестрацію на базі кількох агентів.

За останній рік спостерігалося стрімке зростання корпоративного використання стандартних платформ маршрутизації, таких як Not Diamond, Martian та фреймворк з відкритим вихідним кодом RouteLLM. Ці системи діють як інтелектуальні авіадиспетчери; використовуючи семантичні класифікатори або мета-моделі, вони аналізують вхідний запит і прогнозують, яка окрема базова модель дасть найвищу якість або найефективнішу за вартістю відповідь, відповідно направляючи запит.

Fugu працює на принципово іншій парадигмі. Замість одноразового рішення про маршрутизацію, Fugu більше відповідає складним багаторазовим системам, таким як Router-R1 (фреймворк, представлений на NeurIPS 2025). Він розбиває запит, чергує міркування з делегуванням і динамічно призначає підзавдання кільком моделям паралельно або послідовно перед синтезом кінцевого результату.

Хоча фреймворки, такі як LangGraph, CrewAI та Microsoft AutoGen, пропонують розробникам інструменти для створення подібних багатоагентних систем, вони вимагають величезної ручної конфігурації – визначення ролей, налаштування умовних переходів та керування станом протягом тривалих циклів.

Fugu повністю абстрагує ці операційні накладні витрати. По суті, це робочий процес стилю LangGraph, упакований як єдиний API-інтерфейс “чорної скриньки”.

Оркестраційна система в кінцевому підсумку обмежена сирими можливостями базових моделей у її групі, що відображає реальність власних тестових результатів Sakana порівняно з автономними моделями frontier.

На складних завданнях кодування та агентних завданнях колективний інтелект демонструє явну перевагу над стандартними моделями. Fugu Ultra показав результат 73.7 на SWE-Bench Pro, значно перевершивши Claude Opus 4.8 від Anthropic (69.2) та GPT-5.5 від OpenAI (58.6).

Однак Fugu не є панацеєю, і його продуктивність не є беззаперечною. Порівняно з високоспеціалізованими монолітними моделями з обмеженим доступом, Fugu іноді відстає:

SWE-Bench Pro: Хоча Fugu Ultra (73.7) перевершив більшість доступних моделей, він був комфортно обійдений обмеженим доступом Fable 5 від Anthropic (80.0), яка наразі відсутня у змінній групі Fugu через наказ уряду США про експортний контроль та подальшу відповідь Anthropic на повне видалення моделі з глобального використання.
Humanity’s Last Exam: Fugu Ultra (50.0) ледь випередив Opus 4.8 (49.8), але знову не досяг рівня Fable 5 (53.3).
Довгий контекст та безпека: У тесті на відкликання довгого контексту MRCRv2 GPT-5.5 від OpenAI зберіг лідерство (94.8 проти 93.6 у Fugu Ultra), а Opus 4.8 залишився найкращим у бенчмарку кібербезпеки CTI-REALM (69.6 проти 69.4 у Fugu Ultra).

Кількісні дані вказують на чіткий висновок: Fugu є високоефективним у підвищенні продуктивності на складних, багатоетапних завданнях (таких як створення складної гри на HTML5 з нуля) завдяки поєднанню сильних сторін кількох моделей середнього та високого рівня.

Однак для чистого грубого міркування в межах однієї, високообмеженої області, найбільші автономні моделі галузі все ще зберігають перевагу – за умови, що підприємство може забезпечити безперебійний доступ до них.

Історія створення Sakana та помітні досягнення на сьогодні

Sakana AI була заснована в Токіо у 2023 році Лліоном Джонсом, співавтором фундаментальної статті Google 2017 року “Attention Is All You Need”, та Девідом Ха, колишнім керівником дослідницького відділу Stability AI.

Розчаровані бюрократією великих технологічних компаній та гіперфокусуванням галузі на масштабуванні однієї, величезної фундаментальної моделі, засновники побудували Sakana на принципах біомімікрії та еволюційних обчислень.

Назва компанії, що походить від японського слова “риба”, відображає її основну технічну тезу: використання колективного “роєвого” інтелекту, а не грубої сили обчислень. Після оцінки у 2,6 мільярда доларів на другому раунді фінансування наприкінці 2025 року та нещодавнього запуску в червні 2026 року Marlin – автономного восьмигодинного дослідницького агента для B2B-сектору – Fugu представляє комерціалізацію технології маршрутизації на базі кількох агентів Sakana для розробників.

Змішаний прийом серед ширшої спільноти ШІ онлайн

Спільнота розробників відреагувала на Fugu, ретельно тестуючи його практичні компроміси, зважуючи його ефективність маршрутизації проти чистої потужності монолітних базових моделей.

Спостерігач за ШІ, розробник та інфлюенсер Кріс (@ChrissGPT в X) виділив специфічну корисність Fugu порівняно з сирим фундаментальним ШІ.

“Для одного чіткого запиту ви, ймовірно, [використовували б Fable 5, Mythos або GPT-5.5 безпосередньо]”, – зазначив він, але стверджував, що справжня цінність Fugu проявляється в “брудних”, багатоетапних середовищах. “…чи включає це делегування, перевірку, синтез, перегляд коду, дослідницькі цикли, аналіз безпеки… тим більше сенсу його використовувати”, – написав він.

Кріс також вказав на стратегічну геополітичну перевагу архітектури Fugu, зазначивши, що якщо доступ до передових ШІ буде раптово припинено через регуляторні обмеження чи експортний контроль, оркестратор може динамічно змінювати моделі, щоб запобігти повному збою системи.

Власник креативного агентства Марк Сантос (@markksantos) з Mark Studios надав пряме порівняння в реальному світі, доручивши Fugu Ultra та Claude Opus 4.8 створити клон гри “Crossy Road” за допомогою Three.js. Результати підкреслили операційні відмінності між оркестратором і монолітним гігантом:

Sakana Fugu Ultra: Завершив завдання за 22 хвилини, використавши приблизно 89 000 токенів приблизно за 7,32 долара. Однак у фінальній грі були незначні логічні помилки, такі як перевернуті повороти напрямку та дивні кути камери.
Claude Opus 4.8: Зайняв 79 хвилин, витратив приблизно 940 000 токенів майже за 37,85 доларів і потрапив у цикл повторних спроб, що вимагав втручання людини. Незважаючи на неефективність, він зрештою забезпечив кращий дизайн та функціональність програми.

Сантос підсумував експеримент, заявивши: “З точки зору функціональності програми, якості та дизайну, Opus переміг. З точки зору швидкості та продуктивності моделі, Fugu… переміг”.

Елі Бакуш, інженер-дослідник хмарного постачальника відкритих ШІ-інфраструктури та систем Prime Intellect, зазначив в X, що “слід уточнити, що це закритий вихідний оркестратор поверх закритих вихідних моделей. Якщо раніше ви не контролювали моделі, то тепер ви навіть не контролюєте, які з них використовуються або в якій кількості. Це не ‘суверенітет ШІ’…”

Ці ранні тести та реакції відображають думку, узагальнену користувачем Reddit GreedyWorking1499 в обговореннях на початковому етапі платформи: “Поки не доведено протилежне, це просто високорозвинений маршрутизатор/обгортка, а не фундаментальний стрибок у інтелекті, як це було з Mythos/Fable.“

Однак, оскільки підприємства все частіше вимагають гарантій від залежності від одного постачальника, Sakana доводить, що пакування колективного інтелекту в єдиний API-інтерфейс є надзвичайно життєздатним комерційним шляхом.

Як захиститися (Порада CryptoDom): Будь-які послуги, що агрегують інші сервіси (навіть ШІ), можуть мати приховані ризики. Завжди уважно читайте політику конфіденційності та умови використання, особливо щодо даних, які ви надаєте, та способу їх обробки. Якщо можливо, віддавайте перевагу рішенням з відкритим кодом або чітко зрозумілими механізмами роботи.

Дізнатися більше на: venturebeat.com

No votes yet.

Please wait...