DeLM від Стенфорду знижує вартість багатоагентних завдань удвічі без центрального координатора

DeLM від Стенфорду знижує вартість багатоагентних завдань удвічі без центрального координатора 2

Одне з припущень, що лежить в основі сучасних фреймворків штучного інтелекту (ШІ), полягає в тому, що агентам потрібен «бос» у центрі; цей оркестратор керує процесом, маршрутизує запити та забезпечує, щоб уся система не скотилася до хаосу.

Це припущення може бути хибним, а ціна його підтримки може вимірюватися в доларах за інференс (обчислення) та затримках у координації. Новий фреймворк від Стенфорду, який називається децентралізована мовна модель (DeLM), побудований на засадах того, що агенти можуть координуватися безпосередньо, без необхідності маршрутизувати кожне оновлення через центральний контролер.

Спільна база знань DeLM слугує «спільною комунікаційною основою», щоб агенти могли спиратися на перевірений прогрес один одного, не витрачаючи час на маршрутизацію кожної взаємодії через головного агента для «об’єднання, фільтрації та повторного розповсюдження», пояснюють співрозробники фреймворку Южень Мао та Азалія Мірхосейні у дослідницькій роботі.

Це система, яка не тільки можлива, але й бажана в певних випадках. «Агенти можуть спиратися на попередні висновки, уникати повторних невдач, зберігати обмеження та відновлювати детальні докази лише за потреби».

Проблеми традиційних багатоагентних систем

У типовій централізованій багатоагентній системі головний агент розбиває завдання на підзавдання, паралельно призначає їх багатьом підпорядкованим агентам, чекає на відповіді, об’єднує та узагальнює проміжний прогрес, а потім запускає наступну хвилю команд на основі зібраного контексту.

Хоча це природний спосіб масштабування міркувань мовних моделей (LLM), дослідники зі Стенфорду стверджують, що він погано масштабується. Кожне корисне відкриття, частковий висновок та невдача повинні бути повідомлені головному агенту, який потім визначає, яку інформацію об’єднати та повторно розповсюдити агентам нижчого рівня.

«Зі зростанням кількості підзавдань цей контролер стає вузьким місцем у комунікації та інтеграції», — пишуть Мао та Мірхосейні. Крім того, головний оркестратор може «розмивати, пропускати або спотворювати» корисну інформацію, що призводить до втрати прогресу.

Це вузьке місце також виникає в сценаріях міркувань з довгим контекстом. Отримавши звіти від підпорядкованих агентів, головний агент зазвичай групує пов’язані поняття, точки даних та інші матеріали в циклі ненаглядового навчання. Потім він може попередньо призначити ці «кластери доказів» підпорядкованим агентам, ще не знаючи, який матеріал є справді релевантним або чи правильно він поєднаний.

Коли підпорядкований агент отримує цей недостатній контекст, він, по суті, спантеличується і повертається до головного агента, запускаючи черговий раунд пошуку або делегування. «Ця переписка робить координацію повільнішою, більш ітеративною та дедалі більш обмеженою одним перевантаженим головним агентом», — пишуть дослідники.

VB Transform · 14–15 липня · Менло-Парк · Оркестрація на основі агентів

Intuit перебудував свою багатоагентну систему за 60 днів. Що вони змінили — і чому?

На Transform лідери інженерії з Intuit, Target та Instacart розкривають, як вони переробили свої архітектури оркестрації для надійності, масштабування та роботи з реальними клієнтами.

Дивіться повну програму →

Що вирішує DeLM і як він працює

DeLM, навпаки, побудований навколо паралельних агентів, спільного контексту та черги завдань.

Спільний контекст — це, по суті, впорядковане сховище «суттєвих висновків» (gists) або узагальнень інформації, які можуть бути корисними іншим агентам. До них входять перевірені висновки, підкріплені доказами, а також часткові висновки та задокументовані невдачі; вони також вказують на детальні докази, які агенти можуть отримати на основі свого конкретного завдання.

Черга завдань — це набір подальших завдань, які агенти можуть брати на себе незалежно.

«Агенти записують компактні, перевірені оновлення до спільного контексту, який пізніші агенти можуть читати безпосередньо», — пишуть дослідники. Корисні висновки, невдачі та обмеження накопичуються як «спільний стан проблеми», а не проходять через центральний контролер.

Пайплайн виглядає наступним чином:

  • Ініціалізація: Вхідні дані розбиваються на різні робочі одиниці та додаються до черги;

  • Паралельне виконання: Агенти працюють незалежно і синхронно, вибираючи завдання та читаючи спільний контекст під час прогресу.

  • Стиснення та верифікація: Результати стискаються в багаторазові «суттєві висновки», які перевіряються на основі підтверджуючих доказів. Лише висновки, які повністю перевірені, поширюються групі.

  • Додаткова робота (за потреби): Коли черга спорожніє, останній агент, який повернув відповідь, перевіряє весь спільний контекст, щоб визначити, чи потрібні подальші дії.

  • Фінальний крок: Останній агент визначає, що подальші кроки не потрібні, і повертає остаточну відповідь.

Агенти «обмінюються прогресом через спільний стан, асинхронно вибирають готові завдання та адаптивніше масштабуються зі зростанням кількості підзавдань», — пояснюють дослідники.

Як DeLM працює на практиці

З DeLM агенти можуть уникати надлишкового дослідження; повторно використовувати та спиратися на відкриття та невдачі один одного; і зосереджуватися на невирішених проблемах.

Цей фреймворк може бути особливо корисним для масштабування в інженерії програмного забезпечення під час тестування, коли моделям надається час для «роздумів» для покращення їхніх можливостей міркування та розв’язання проблем. Різні агенти можуть паралельно досліджувати власні гіпотези або проходити шляхами міркувань, продовжуючи ділитися проміжним прогресом. Один з прикладів — паралельне налагодження.

DeLM також підходить для міркувань з довгим контекстом та відповідей на запитання за багатьма документами; агенти можуть одночасно вивчати власні кластери доказів (колекції статей, коду чи інших матеріалів), зберігаючи при цьому «глобальний компактний огляд» накопичених доказів.

Дослідники стверджують, що це робить завдання агентів точнішими та значно дешевшими. Це підтверджується його ефективністю на реальних бенчмарках: на SWE-bench Verified — який оцінює, наскільки добре ШІ-моделі та агенти вирішують реальні проблеми в інженерії програмного забезпечення — він показав результати на 10,5% кращі, ніж найсильніший базовий показник, і зменшив вартість завдання приблизно на 50%.

Але він може вийти за межі кодування: на LongBench‑v2 Multi‑Doc QA — який оцінює здатність LLM обробляти реальні проблеми з довгим контекстом — DeLM мав найвищу точність у чотирьох сімействах моделей, включаючи GPT‑5.4, Claude Sonnet, Gemini Flash та DeepSeek‑V4‑Pro.

DeLM перевершує інші моделі на SWE-Bench з низки причин, як деталізував Мао в X.

По-перше, агенти діляться невдачами. У звичайних паралельних запусках, коли один агент йде неправильним шляхом, ця невдача залишається приватною, і наступні агенти можуть витрачати час (і гроші) на той самий мертвий кінець. Але з DeLM невдалі гіпотези записуються до спільного контексту.

«Пізніші агенти можуть читати їх як обмеження, уникати повторного дослідження та перенаправляти свій пошук до більш перспективних виправлень», — сказав Мао.

Крім того, обмеження, після верифікації, негайно додаються до спільного контексту агентів. Це означає, що вони стають обов’язковим спільним станом. «Пізніші агенти успадковують їх, будують навколо них і уникають повторення глобально недійсних спрощень», — сказав Мао.

Критично важливо, що DeLM зберігає спільний прогрес достатньо компактним для повторного використання. Він є «розгортаним», тобто агенти за замовчуванням бачать короткі висновки, але можуть вибрати розгортання їх у більш детальні узагальнення та необроблені докази.

Як зазначають дослідники, надання всіх необроблених документів і трасувань дає агентам максимальну кількість інформації, але це може перевантажити їхні контекстні вікна та зрештою збільшити витрати.

«Якби агенти ділилися повними трасуваннями, кожен працівник мусив би читати довгі історії команд, дампи файлів, невдалі редагування та проміжні міркування, перетворюючи саму координацію на ще одне вузьке місце довгого контексту», — сказав Мао.

З іншого боку, хоча обмін компактними узагальненнями є дешевшим, важливі деталі та докази можуть бути втрачені, що призводить до менш надійних міркувань.

Розгортання, отже, надає «грубо-до-тонкий» вибірковий доступ. Це може покращити точність і вартість.

Зрештою, завдяки такому фреймворку, як DeLM, агенти можуть бути ефективнішими, оскільки їм запобігають від багаторазового читання одних і тих самих документів або повторного виконання одного й того ж невдалого аналізу; більш ефективними, оскільки корисні висновки поширюються між паралельними потоками; і більш надійними, оскільки вони діляться лише перевіреними твердженнями.

Для розробників корпоративного рівня DeLM кидає виклик ключовому припущенню: що кожен робочий процес з кількома агентами потребує центрального контролера. Результати SWE-bench та LongBench‑v2 свідчать про те, що децентралізована модель не просто теоретично чистіша — вона швидша, точніша і приблизно вдвічі дешевша.

Як захиститися (Порада CryptoDom): Для підвищення безпеки ваших облікових записів завжди використовуйте унікальні та складні паролі, а також увімкніть двофакторну автентифікацію, де це можливо. Це створить додатковий бар’єр для зловмисників, навіть якщо ваші паролі будуть скомпрометовані.

Джерело новини: venturebeat.com

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *