Xiaomi HarnessX переписує свій ШІ-каркас посеред завдання, найбільший виграш у менших моделей

Оскільки корпоративні ШІ-агенти беруть на себе дедалі складніші завдання з довгостроковою перспективою, їхня продуктивність часто обмежується “оболонкою” (harness) – програмним каркасом, що з’єднує основну велику мовну модель (LLM) з її середовищем.

Наразі оболонки значною мірою статичні та створюються вручну. Їхнє вдосконалення вимагає значних ручних зусиль, і вони не покращуються автоматично на основі даних виконання, зібраних із середовища.

Для вирішення цієї інженерної проблеми дослідники Xiaomi представили HarnessX – фреймворк, який розглядає оболонку ШІ як компонований об’єкт і автономно застосовує покращення до її коду.

У реальних корпоративних застосунках ця автоматизована адаптація дозволяє системам ШІ динамічно пристосовуватися до специфічних вимог програми. Практичні тести показали, що HarnessX забезпечує суттєве підвищення продуктивності в таких галузях, як розробка програмного забезпечення та взаємодія з вебом.

Результати демонструють, що масштабування базової моделі — це не єдиний шлях до більш потужного ШІ, і для менших моделей це може бути навіть не найкращий. Еволюція оболонки HarnessX призвела до середнього зростання продуктивності на +14,5% за 15 комбінаціями моделей та бенчмарків; для моделі з відкритим доступом Qwen3.5-9B приріст досяг +44% у завданнях планування вбудованих систем.

Виклики інженерії оболонок

У застосунках ШІ здатність базової моделі значною мірою залежить від її оточення – оболонки. Оболонка діє як операційний шар, що перетворює сирі виходи моделі на структуровану, виконувану поведінку агента. Вона включає промпти, інтеграції зовнішніх інструментів, управління пам’яттю та потоки керування, які визначають, як система ШІ спостерігає своє середовище, аналізує проблему та діє.

Оскільки корпоративні агенти виконують все складніші робочі процеси з довгостроковою перспективою, інженерія оболонок стала фундаментальною частиною розробки ШІ. Незважаючи на її важливість, розробка оболонок далека від зрілої інженерної дисципліни і створює три ключові виклики.

По-перше, оболонки є статичними та створюються вручну. Будь-яка зміна в базовій моделі, впровадження нових інструментів або перехід до іншої операційної сфери вимагає індивідуальних, ручних змін коду. Традиційні оболонки не мають механізмів для автономного навчання та вдосконалення на основі минулого досвіду виконання.

По-друге, більшість існуючих оболонок страждають від архітектурної заплутаності. Вони тісно пов’язують шаблони промптів, обгортки інструментів, політики повторних спроб та управління пам’яттю в межах одних і тих самих шляхів коду. Ця заплутаність означає, що зміна одного компонента може непомітно зламати інші. Спроба повторно використати оболонку в різних бізнес-сферах часто зводиться до прямого копіювання коду, а не до чистої, модульної композиції.

По-третє, оболонка та базова модель оптимізуються ізольовано. Коли інженери запускають тести для покращення оболонки, згенеровані траси виконання зазвичай відкидаються, а не використовуються як навчальні дані для покращення моделі. Відповідно, оновлення моделі не призводять природним чином до покращення оболонки, створюючи вузьке місце, коли команди не можуть отримати повну цінність від операційних даних свого агента.

HarnessX: автономна “кузня” для ШІ-агентів

HarnessX вирішує інженерні проблеми ручної розробки оболонки за допомогою того, що дослідники називають “єдиною кузнею оболонок” (unified harness foundry).

Основна інновація HarnessX полягає в тому, що оболонка розглядається як “об’єкт першого класу”. З точки зору програмної інженерії, це означає, що оболонка є незалежно серіалізованою, модульною та взаємозамінною сутністю. Відокремлюючи конфігурацію моделі (тобто, яка ШІ-модель працює) від конфігурації оболонки, інженери можуть безперешкодно замінювати, адаптувати та еволюціонувати каркас без зміни базової моделі.

Xiaomi HarnessX переписує свій ШІ-каркас посеред завдання, найбільший виграш у менших моделей 7

HarnessX розбиває поведінку агента на різні компоненти, такі як збирання контексту, управління пам’яттю, екосистеми інструментів, потік керування та спостережуваність. Кожна специфічна поведінка реалізується як “процесор”, що підключається до точних “гачків” життєвого циклу оболонки. Ця модульна структура дозволяє системі замінювати, додавати або видаляти ці процесори без порушення навколишнього конвеєра.

Для автоматизації оптимізації цієї модульної структури HarnessX представляє AEGIS – рушій еволюції на основі трасування. AEGIS розглядає адаптацію оболонки як проблему навчання з підкріпленням (RL) над різними символьними компонентами оболонки.

Формулювання оптимізації оболонки як проблеми навчання з підкріпленням вносить три патології, проти яких дослідники мусили спеціально працювати:

Зловживання винагородою (Reward hacking): Система може використовувати короткі шляхи до рішення, замість того, щоб дійсно розв’язувати завдання.
Катастрофічне забування (Catastrophic forgetting): Зміна, що виправляє модель відмови в одній області, може непомітно порушити раніше вирішений робочий процес в іншій.
Недостатня розвідка (Under-exploration): Система може ітерувати незначні зміни промптів, замість того, щоб досліджувати нові, структурно кращі конфігурації інструментів.

Xiaomi HarnessX переписує свій ШІ-каркас посеред завдання, найбільший виграш у менших моделей 8

Щоб запобігти цим проблемам, AEGIS використовує повну спостережуваність трас та чотириетапний конвеєр:

Дигестор (Digester): Стискає траси виконання в структуровані підсумки для виявлення, де агент зазнав невдачі.
Планувальник (Planner): Аналізує ці підсумки, щоб дозволити системі досліджувати структурні зміни, а не лише локальні налаштування промптів.
Еволюціонер (Evolver): Генерує редагування оболонки на рівні коду та проводить тестування, щоб забезпечити їх коректну роботу перед розгортанням.
Критик та шлюз (Critic and gate): Критик оцінює зміни для виявлення зловживання винагородою, тоді як детермінований шлюз відхиляє будь-яке оновлення, що регресує раніше вирішену задачу, щоб запобігти катастрофічному забуванню.

HarnessX виходить на зростаюче поле досліджень самовдосконалюваних оболонок — але що відрізняє його, так це спільна еволюція оболонки та моделі.

Дослідники підкреслюють, що оптимізація будь-якого компонента окремо врешті-решт досягає стіни. Еволюція лише оболонки досягає “стелі” каркаса, якщо базова модель не має достатньої здатності до міркування для використання нових інструментів. Навчання лише моделі досягає “стелі” навчального сигналу, якщо оболонка ніколи не спонукає модель використовувати свої розширені можливості.

HarnessX чергує еволюцію оболонки з навчанням моделі. Траси виконання, згенеровані під час спроб оболонки адаптуватися до завдань, перетворюються на сигнали навчання з підкріпленням для базової моделі. Кожного разу, коли оболонка покращує свою стратегію, модель одночасно вчиться краще використовувати цю нову стратегію, долаючи стелі можливостей традиційної розробки агентів ШІ.

Xiaomi HarnessX переписує свій ШІ-каркас посеред завдання, найбільший виграш у менших моделей 9

HarnessX робить цю спільну еволюцію можливою завдяки крос-харесному GRPO (Group Relative Policy Optimization). GRPO – це популярний алгоритм RL, який використовується для навчання моделей міркування, таких як DeepSeek-R1.

При тонкій настройці моделі, крос-харесний GRPO об’єднує траєкторії виконання агента для одного й того ж завдання з абсолютно різних версій оболонок програми. Це дозволяє базовій моделі інтерналізувати зміни на високому рівні стратегії, такі як використання нового API-ендпоінту або управління бюджетом виконання, а не просто вивчати незначні варіації формулювань промптів.

HarnessX у дії на галузевих бенчмарках

Для перевірки практичної корисності HarnessX дослідники тестували його на п’яти бенчмарках, що охоплюють розробку програмного забезпечення, діалоги обслуговування клієнтів з багатьма раундами, навігацію в вебі, відкриті мікро-задачі міркування та планування вбудованих систем.

Вони розділили ШІ на дві ролі. “Мета-агент”, керований Claude Opus 4.6, аналізував журнали та писав код для еволюції оболонок. “Цільові агенти” виконували фактичні робочі процеси. Щоб довести, що фреймворк є незалежним від моделі, вони протестували його на трьох різних робочих моделях: Claude Sonnet 4.6, GPT-5.4 та відкритій моделі Qwen3.5-9B.

Xiaomi HarnessX переписує свій ШІ-каркас посеред завдання, найбільший виграш у менших моделей 10

HarnessX порівнювали з двома основними базовими лініями. Перша – статична оболонка, що представляє сучасний спосіб розгортання ШІ в більшості підприємств: ручні, заморожені налаштування з бенчмарк-специфічними промптами та інструментами. Друга – Claude Code SDK, базова лінія, що представляє еволюціонер одного агента, для перевірки, чи складний чотириетапний конвеєр AEGIS перевершує запит до однієї мовної моделі на ітерацію коду.

Динамічна еволюція оболонки демонструє значне зростання продуктивності на тій самій базовій моделі. HarnessX покращив продуктивність у 14 з 15 комбінацій моделей-бенчмарків. Загалом, еволюція оболонки призвела до середнього абсолютного приросту продуктивності на +14,5%.

Найслабші моделі найбільше виграли від динамічного вдосконалення оболонки. Відкрита модель Qwen3.5-9B показала +44,0% приросту продуктивності на бенчмарку планування вбудованих систем ALFWorld та +18,2% на SWE-bench Verified для розробки програмного забезпечення.

Спільна еволюція також виявилася надзвичайно ефективною. Коли дослідники тренували базову модель, використовуючи дані, згенеровані під час еволюції оболонки, вони побачили додатковий середній приріст продуктивності на +4,7%. Одночасне вдосконалення оболонки та моделі забезпечує найвищу стелю можливостей. Приріст від спільної еволюції застосовується лише до моделей з відкритим доступом.

Емпіричні дані з експериментів показують, як HarnessX вирішує складні проблеми при створенні оболонок агентів для реальних завдань. Наприклад, на бенчмарку багатоетапних міркувань GAIA цільовий агент послідовно зазнавав невдачі, оскільки інструмент браузера з “глухою” головою, який він використовував для парсингу Вікіпедії, перевищував ліміт часу на JavaScript-інтенсивному фронтенді сайту. HarnessX проаналізував траси виконання, діагностував помилку та написав новий інструмент, який взагалі обійшов браузер і напряму запитував API MediaWiki для отримання простого тексту. Він замінив цей інструмент в оболонці та миттєво розблокував завдання, що не виконувалися.

Під час тестів електронної комерції WebShop ШІ-агент часто потрапляв у петлі пагінації, нескінченно натискаючи “наступна сторінка” та переформулюючи пошукові запити, ніколи не приймаючи рішення про покупку. Замість того, щоб просто налаштовувати промпт, HarnessX створив процесор дорадника, який виявляв, коли агент повторював дії навігації. Він вставив попередження в контекст, щоб змусити прийняти рішення, усунувши поведінку циклічності та підвищивши продуктивність.

Межі автоматизованої інженерії оболонок

Важливим застереженням є те, що система наразі покладається на потужні моделі, які діють як мета-агент, що перезаписує код оболонки. У своїх експериментах дослідники використовували закриті передові моделі, такі як Claude Opus. Моделі з відкритим доступом швидко вдосконалюються, але їхня здатність виступати як мета-агент залишається неперевіреною.

Іншим обмеженням, яке варто врахувати, є внутрішні можливості використовуваних моделей. Якщо базова модель, що виконує завдання, фундаментально занадто слабка для виконання складних робочих процесів, запропонованих новою оболонкою, HarnessX не зможе покращити загальні здібності агента (дослідники спостерігали це з моделлю Qwen3.5-9B у тестах кодування SWE-bench).

Незважаючи на ці обмеження, HarnessX робить конкретний висновок, що інженерія оболонки — а не лише масштабування моделі — є важелем, який практики можуть використовувати вже зараз. Для команд, які використовують менші моделі з відкритим доступом для складних робочих процесів, приріст настільки великий, що виправдовує оцінку еволюції оболонки як першого кроку перед зверненням до дорожчої передової моделі. Дослідники планують випустити код у майбутньому оновленні.

Як захиститися (Порада CryptoDom): Для користувачів: завжди використовуйте надійні, унікальні паролі для кожного облікового запису та вмикайте двофакторну автентифікацію, де це можливо. Для адміністраторів: регулярно оновлюйте все програмне забезпечення, включаючи базові моделі та інструменти, і впроваджуйте суворі політики безпеки для контролю доступу до критично важливих даних.

Оригінал статті: venturebeat.com

No votes yet.

Please wait...

Виклики інженерії оболонок

HarnessX: автономна “кузня” для ШІ-агентів

HarnessX у дії на галузевих бенчмарках

Межі автоматизованої інженерії оболонок

Залишити відповідьСкасувати відповідь