
Підприємства постійно стикаються з однією й тією ж проблемою. Штучний інтелект (ШІ) демонструє вражаючі можливості, його впроваджують у виробництво, але він швидко зупиняється: працює деякий час, а потім вимагає людського втручання для доповнення контексту та перевірки результатів. Обіцяна ефективність зникає, замінюючись необхідністю постійного нагляду. Агент виконав роботу, а ви — спостерігали. Це одна з причин, чому багато пілотних проєктів ШІ-агентів так і не переходять у стадію промислового використання.
Протилежна сторона цієї проблеми — це обіцянка, в яку кожна команда прагне повірити: агент, який самостійно виконує тривале завдання, навіть протягом ночі, залишаючи людині лише необхідність перевірити останні 10% роботи. Чи досяжно це, залежить від проблеми, яку часто ігнорують під час обговорення процесів керування (оркестрації). Коли компанія Chroma тестувала 18 провідних моделей ШІ, кожна з них втрачала точність зі збільшенням обсягу вхідних даних. Це властивість роботи механізму уваги (attention mechanism), а не недолік, який може виправити потужніша модель. Агент, який отримує все більше даних про ваш бізнес під час роботи, стає не стабільнішим, а навпаки — більш хитким.
Це той рівень, який лежить в основі гонки в галузі керування. Маршрутизація, надійна робота та спостережуваність — усе це передбачає, що кожен агент уже достатньо компетентний для координації. Глибше питання полягає в тому, як довго агент може працювати, перш ніж людині доведеться втрутитися. Це залежить від того, де знаходяться знання вашої компанії відносно моделі. Обидва стандартні способи вирішення проблеми залишають людину в процесі.

Чому навчання моделі знанням вашого бізнесу залишає вас у процесі
Сучасні моделі стають дедалі потужнішими, але розрив не зменшується, оскільки це не проблема їхніх можливостей. Річ у тому, де ваші знання розташовані відносно моделі, і підприємства мали два способи розмістити їх там.
Перший — це тонке налаштування (fine-tuning), яке вбудовує знання у ваги моделі. Однак це залишається вразливим до катастрофічного забування (catastrophic forgetting) — проблеми, виявленої ще у 1980-х роках і досі не вирішеної у 2026 році: навчання моделі чомусь новому має тенденцію стирати те, що вона вже знала. Команди обходять це, ізолюючи кожне завдання у власній тонко налаштованій моделі або адаптері, що призводить до розгалуженої системи моделей, яка збільшує витрати та ускладнює управління. Крім того, тонко налаштована модель є знімком, який застаріває в день зміни політики, коли починається дорогий і повільний цикл перенавчання.
Другий метод — це навчання в контексті (in-context learning), яке дозволяє уникнути перенавчання, розміщуючи відповідні політики в запиті (prompt) під час виконання. Саме тут виникає проблема “гниття контексту” (context rot). Пошук (retrieval) звужує те, що потрапляє до запиту, але невдалий пошук виглядає так само, як і впевнена відповідь, а вартість та затримка зростають з кожним доданим токеном.
Ці два недоліки схожі. При тонкому налаштуванні модель може впевнено працювати з політикою минулого кварталу. При навчанні в контексті вона може впевнено працювати з деталлю, яку вона втратила посередині довгого запиту. В обох випадках результат виглядає однаково переконливо, тому ви не можете визначити, які частини неправильні, не перевіривши всі. Ось чому людина ніколи не може вийти з процесу. Деякі команди часто використовують обидва методи одночасно: тонко налаштовують стабільні знання та отримують решту за допомогою пошуку. Це пом’якшує кожен недолік, але не усуває жодного: для будь-якого конкретного результату ви все ще не можете бути впевнені, що модель є актуальною та працює з правильним контекстом, тому ви все одно її перевіряєте.
Третій шлях: створення спеціалізованої моделі на вимогу
Третій підхід переходить від досліджень до ранніх продуктів. Замість перенавчання однієї моделі або перевантаження її запиту, генератор створює невелику, специфічну для завдання модель на вимогу з ваших політик під час висновку (inference). Генератор є гіпермережею (hypernetwork): мережею, виходом якої є ваги іншої мережі.
Ідея була сформульована у 2016 році; застосування її для створення спеціалізованих мовних моделей з текстів або документів є відносно новим і активним напрямком. Технологія Text-to-LoRA від Sakana AI, представлена на ICML 2025, генерує адаптер моделі з опису звичайною мовою за один прохід, а система SHINE 2026 року називає адаптацію за допомогою гіпермережі перспективним новим напрямком, саме тому, що вона дозволяє уникнути як витрат на перенавчання при тонкому налаштуванні, так і обмежень контексту при формулюванні запитів.
Суть генерації адаптерів, а не їх навчання та зберігання, полягає в тому, щоб звести розгалужену бібліотеку адаптерів LoRA для кожного завдання до однієї мережі, яка може створювати їх на вимогу, навіть для завдань, які вона раніше не бачила.
Елегантність полягає в тому, як це замикає цикл проблеми, описаної вище: адаптер для кожного завдання, який команди створюють вручну, щоб уникнути катастрофічного забування, є тим самим об’єктом, який гіпермережа створює автоматично. Зоопарк моделей перестає бути проблемою управління і стає згенерованим результатом.

Обґрунтування на користь створення малих моделей, що лежать в основі цих процесів, було найчіткіше викладене у статті дослідників Nvidia 2025 року: для вузьких, повторюваних завдань, які становлять основу робочих процесів агентів, малі моделі є достатньо потужними та на 10-30% дешевшими в експлуатації, ніж провідні універсальні моделі. Nace.AI, каліфорнійська компанія, яка залучила 21,5 мільйона доларів початкового фінансування у травні, є найяскравішим комерційним прикладом. Її основна технологія, генератор, який вона називає MetaModel, створює параметричні адаптери для моделі під час висновку з політик компанії, орієнтуючись на регульовану роботу: аудит, відповідність вимогам, оцінка ризиків. Компанія стверджує, що її агенти обробляють основну частину робочого процесу, тоді як експерти-люди перевіряють результат, що вони позиціонують як співвідношення 90/10.
Порівняння трьох підходів
|
Тонке налаштування |
Навчання в контексті / RAG |
Модель, згенерована гіпермережею |
|
|
Де зберігаються знання бізнесу |
У вагах моделі |
У запиті, що надається щоразу |
У згенерованих на вимогу вагах |
|
Вартість оновлення при зміні політики |
Висока: перенавчання |
Низька: редагування вихідного коду |
Низька: регенерація |
|
Застарівання |
Високе: знімок |
Низьке |
Низьке: регенерація з поточної політики |
|
Вартість та затримка за виклик |
Низька |
Висока, зростає з контекстом |
Низька під час виконання |
|
Основний режим збою |
Забування; розростання зоопарку моделей |
Гниття контексту; приховані невдачі пошуку |
Якість генератора; калібрування |
|
Хто володіє активом, що вдосконалюється |
Той, хто тренує модель |
Той, хто володіє сховищем даних |
Залежить від того, де знаходиться генератор і зворотний зв’язок |
Чому модель, побудована гіпермережею, підвищує межу автономії
Вузька, актуальна та мала модель має меншу поверхню для помилок. Менше помилок, обмежених відомою областю, означає менше результатів, які агент повинен ескалувати людині, що є справжньою основою будь-якої претензії на високу автономію. Саме звідси походить цифра 90/10: це не заздалегідь встановлений параметр, а результат того, наскільки мало системі потрібно передавати на перевірку. Заявлені частки автономії найкраще інтерпретувати як вимірювання архітектури, а не як налаштування.

Два конструктивних рішення визначають, чи є ця автономія надійною, чи просто швидкою. Перше — це прив’язка до джерела (grounding): зв’язування кожного виходу з його першоджерелом, щоб рецензент міг перевірити, а не переробляти. Дослідницькі моделі, створені саме для цього, як-от HalluGuard, маркують кожне твердження як підтверджене чи ні та вказують уривок, на який вони спиралися. Nace надає своїм агентам моделі прив’язки та трасування міркувань з тієї ж причини. 10% перевірки мають сенс лише тоді, коли людина може швидко підтвердити походження.
Друге — це петля зворотного зв’язку, яка ставить питання, яке має поставити кожен покупець: коли ваші експерти перевіряють результат, чия модель вдосконалюється і де вона знаходиться? Це визначає, кому належить накопичуваний актив: постачальнику чи вам. Домовленості різняться. Наприклад, Nace використовує зовнішню мережу сертифікованих експертів для деяких завдань, а для прямих корпоративних розгортань — власний персонал клієнта, при цьому згенерована модель зберігається в хмарі клієнта. Кожен вибір спрямовує навчання та володіння у різному напрямку.
Де ламається третій шлях
Цей підхід ще на ранній стадії, і кілька питань визначать, наскільки далеко він зайде. Калібрування (calibration) є ключовим: цінність полягає в тому, що модель знає, коли вона не впевнена. І це справді невирішеність: недавні дослідження з генерації цих адаптерів виявили, що вони не покращують калібрування автоматично порівняно зі звичайним тонким налаштуванням, при цьому покращення з’являються лише за певних умов.
Якість згенерованої моделі також значною мірою залежить від даних політики, на основі яких вона побудована, що підвищує цінність курації даних. А масштаб є відкритою дослідницькою проблемою: гіпермережі, показані в опублікованих роботах досі, були невеликими. Саме тут робота самої Nace стає цікавою: в нашому інтерв’ю компанія повідомила, що масштабувала свій генератор значно далі опублікованих розмірів і вивела закон масштабування для зростання продуктивності. Результати, які вони почали публікувати і зараз проходять рецензування. Якщо це підтвердиться, це допоможе відповісти на одне з центральних відкритих питань у цій галузі, і це стаття, на яку варто звернути увагу.
Незалежно від того, який підхід переможе, робота все одно закінчується на людині, і це передання є власною проблемою дизайну. Коли Deloitte Australia представила урядовий звіт вартістю приблизно 440 000 австралійських доларів, він містив вигадані цитати та вигадану цитату з суду після проходження вищого рівня перегляду, оскільки рецензенти перевіряли висновки, які були обґрунтованими, а не їхнє першоджерело, яке було недійсним. Контрольовані дослідження свідчать, що ця закономірність є загальною: експерти рідше виправляли однакову помилкову рекомендацію, коли вона була позначена як згенерована ШІ.
Стаття 14 Закону ЄС про ШІ тепер називає це “автоматизаційною упередженістю” (automation bias). Висновок полягає не в одному постачальнику: висока частка автономії концентрує увагу людини на тонкому, пізньому етапі роботи, тому цінність цього перегляду повністю залежить від того, чи може людина швидко перевірити походження, що повертає нас до прив’язки до джерела.
Що будувати та що запитувати перед покупкою
Чесний висновок: те, що стримує ваших агентів, зазвичай не є управлінням чи розміром моделі, а тим, чи достатньо добре модель знає ваш бізнес, щоб її можна було залишити наодинці. Правильне рішення залежить від завдання. Для автоматизації тривалого, повторюваного процесу з високим обсягом роботи протягом ночі, коли ваші власні експерти перевіряють фінальний фрагмент, модель, згенерована гіпермережею, є найбільш імовірним підходом, який зробить це дешево і працюватиме достатньо довго, щоб мати значення. Для короткого завдання, яке завершується за кілька кроків і ніколи не потребувало роботи без нагляду, розрив між цим і потужною моделлю з добре сформованим запитом майже зникає і не вартий витрат на інтеграцію.
Коли постачальник пропонує автономних або спеціалізованих агентів, чотири питання допоможуть розібратися:
-
Де зберігаються знання бізнесу: у вагах, запиті чи генеруються на вимогу?
-
Що супроводжує кожен результат, щоб рецензент міг перевірити його, а не переробляти?
-
Що визначає, яка робота передається людині?
-
І чия модель вдосконалюється завдяки цьому відгуку, і де вона працює?
Відповіді, а не гучні показники, розкажуть вам, що ви купуєте.
Підхід з гіпермережею є найбільш правдоподібною спробою створити малу модель, яка знає специфіку бізнесу, не забуваючи її та не перепояснюючи її під час кожного запуску. Це також найменш доведений підхід, і найважливіші його частини — калібрування та масштаб — все ще проходять рецензування. Для правильного завдання — пілотуйте його зараз. Для неправильного завдання витрати на інтеграцію дадуть вам небагато того, чого не надасть добре проіндексована потужна модель.
Як захиститися (Порада CryptoDom):
Завжди використовуйте надійну двофакторну автентифікацію (2FA) для всіх ваших облікових записів, особливо для тих, що містять конфіденційну інформацію. Регулярно оновлюйте програмне забезпечення та операційну систему, щоб усунути відомі уразливості, які можуть бути використані зловмисниками.
За даними порталу: venturebeat.com
