
Великі мовні моделі (LLM) продовжують стикатися з проблемою “галюцинацій” (генерації вигаданої інформації), що створює значні перешкоди для їх реального застосування в корпоративному секторі. Зменшення цих помилок є складним завданням, яке змушує розробників моделей йти на компроміс: усунення фактичних помилок часто пригнічує видачу коректних відповідей.
У новій статті дослідники Google представляють концепцію “добросовісної невизначеності” (faithful uncertainty) – метакогнітивної техніки, яка узгоджує відповідь моделі з її внутрішньою впевненістю. Така узгодженість дозволяє моделі пропонувати обґрунтовані гіпотези, наприклад, “Моя найкраща здогадка – це…”, замість того, щоб обирати між “відповідь або мовчання”.
У реальних агентних застосунках ШІ ця метакогнітивна обізнаність діє як необхідний рівень контролю. Вона дозволяє автономним системам точно визначати, коли їхні внутрішні знання є достатніми, а коли необхідно динамічно активувати зовнішні інструменти або API для пошуку інформації.
## “Податок на корисність” поточних стратегій пом’якшення
Розуміння причин “галюцинацій” LLM залежить від розмежування двох можливостей: знання моделі про факти та знання моделі про те, що їй відомо. Історично, основний прогрес у досягненні фактичної точності ШІ досягався за рахунок розширення межі знань, тобто розробники просто “запаковували” більше фактів у параметри моделі шляхом збільшення масштабів та обсягу навчальних даних.
Однак, розширення знань моделі не покращує автоматично її обізнаність про межі власного знання – здатність відрізняти відоме від невідомого та визнавати власні обмеження.
“Існують два основні способи покращення фактичної точності LLM,” – розповів VentureBeat Гал Йона, науковий співробітник Google та співавтор статті. Перший – це продовжувати навчати модель новим фактам. Але, зазначає Йона, “потужність моделі обмежена, а довгий хвіст знань фактично нескінченний”.
Після досягнення цього ліміту, сподівання полягає в тому, що моделі знатимуть, чого вони не знають, і просто утримуватимуться від відповіді. Однак, для LLM це надзвичайно складно.
“Саме тому більшість практичних спроб зменшити “галюцинації” шляхом різних втручань не досягають етапу розгортання,” – пояснює Йона. “Вони дійсно зменшують “галюцинації”, але також шкодять корисності, оскільки модель зрештою відмовляється відповідати на запитання, на які вона насправді знає відповідь.”
Ця нездатність розрізняти відоме та невідоме створює те, що автори статті називають “податком на корисність”. Нав’язування стандарту нульових “галюцинацій” вимагає, щоб модель утримувалася від відповіді, коли вона навіть трохи невпевнена, відкидаючи величезні обсяги абсолютно коректної інформації. Наприклад, автори демонструють, що зниження базового рівня помилок у 25% до суворого цільового показника у 5% змушує розробників відкидати 52% правильних відповідей моделі.

Сприйняття всіх помилок як “галюцинацій” змушує корпоративні системи обирати між надійністю та корисністю. Розробники застосунків, як правило, не готові платити такий значний “податок на корисність”, роблячи свої моделі марними.
Відповідно, вони оптимізують системи для пріоритету охоплення, змушуючи моделі працювати в стані, де вони продовжують генерувати впевнені “галюцинації”.
VB Transform · 14-15 липня · Менло-Парк · Оркестрація агентів
Intuit перебудувала свою мультиагентну систему за 60 днів. Що вони змінили – і чому?
На Transform інженерні лідери з Intuit, Target та Instacart розкажуть, як вони перепроектували свої оркестраційні архітектури для надійності, масштабу та роботи з реальними клієнтами.
Дивіться повний розклад →
Переосмислення “галюцинацій” як впевнених помилок
Щоб подолати “податок на корисність”, дослідники пропонують припинити розглядати будь-яку фактичну помилку як “галюцинацію”. Натомість, вони переосмислюють “галюцинації” як “впевнені помилки” (confident errors) – неправдиву інформацію, подану авторитетно, без належних застережень.
Це тонке переосмислення руйнує жорстку дихотомію “відповідь або мовчання” і дозволяє моделі висловлювати свою невизначеність.
У цій новій моделі, якщо модель робить фактичну помилку, але належним чином обережна у своїй відповіді (наприклад, заявляючи: “Я не цілком впевнений, але я думаю, що…”), це не є “галюцинацією”. Це просто гіпотеза, запропонована користувачеві для розгляду. Висловлюючи невизначеність, ШІ зберігає свою корисність, ділячись будь-якими частковими або ймовірними знаннями, які він має, не порушуючи довіри користувача.
Однак, якщо ШІ-асистент завжди надає відповіді з дисклеймером, користувач змушений перевіряти все, що повністю знецінює мету інструменту.
Рішення, яке пропонують дослідники, – це “добросовісна невизначеність”. Цей підхід вимагає узгодження мовної невизначеності моделі, тобто слів, які вона використовує для висловлення сумніву, з її внутрішньою невизначеністю, яка є її реальною, внутрішньою статистичною впевненістю у цій конкретній відповіді. Це гарантує, що модель висловлює сумнів лише тоді, коли її внутрішній стан дійсно відображає суперечливу або малоймовірну інформацію.

Добросовісна невизначеність є ключовим компонентом “метапізнання” – здатності ШІ усвідомлювати власну невизначеність і діяти відповідно. Щоб зрозуміти це на практиці, розгляньте інтуїтивний приклад консультації з лікарем. Ми довіряємо лікарям не тому, що вони всезнаючі. Ми довіряємо їм, тому що вони надійно розрізняють впевнений діагноз (“У вас перелом”) та обґрунтовану гіпотезу (“Це може бути розтягнення, але давайте проведемо деякі тести”).
Практичні наслідки для корпоративного ШІ
За новою моделлю, помилки, коли модель справді впевнена, але фактично неточна, класифікуються як “чесні помилки”. Це робить розширення знань (навчання моделі на більшій кількості даних) та добросовісну невизначеність взаємодоповнюючими зусиллями. Розширення знань виштовхує межу абсолютних знань назовні, щоб мінімізувати “чесні помилки”, тоді як добросовісна невизначеність чесно комунікує, де саме лежить ця межа на даний момент.
Це нове формулювання має важливі наслідки для агентних застосунків. Перехід до агентного ШІ може створити враження, що знання про те, чого модель не знає, є надлишковим, оскільки моделі можуть просто шукати в зовнішніх базах даних. Однак, доступ до зовнішніх інструментів фактично посилює потребу в добросовісній невизначеності. В агентних системах метапізнання стає центральним шаром контролю, який керує всією системою.
Зовнішні інструменти вирішують проблему зберігання, оскільки моделі більше не потрібно кодувати кожен факт у своїх параметрах. Однак, це створює нову проблему контролю: управління тим, коли потрібно отримувати інформацію, перевіряти факти та оркеструвати ці зовнішні інструменти. Без добросовісної невизначеності, агент фактично діє “наосліп” і повинен покладатися на зовнішні, статичні евристики або надмірно складні структури.
“Модель може шукати те, що вона вже впевнено знає – витрачаючи затримку та кошти без вигоди. Або навпаки: вона впевнено відповідає з пам’яті, коли мала б шукати, генеруючи правдоподібний, але неправильний вихід,” – сказав Йона. Сучасні інструменти для агентів намагаються вирішити це зовні за допомогою класифікаторів запитів або правил “завжди шукати”, але Йона зазначає, що вони “статичні та крихкі”. Використовуючи власну внутрішню невизначеність для регулювання своєї поведінки, агент динамічно оптимізує використання інструментів, обираючи виклик інструменту пошуку лише тоді, коли його внутрішня впевненість справді низька.
Окрім прийняття рішення про те, коли шукати, добросовісна невизначеність є критично важливою для оцінки результатів пошуку. Якщо інструмент повертає інформацію низької якості або несподівану, метакогнітивний агент не приймає сліпо будь-які дані, що з’являються у його контекстному вікні. Натомість, він використовує обізнаність про свою невизначеність, щоб зважити отримані зовнішні сигнали проти власних внутрішніх пріоритетів. Це запобігає “підлабузнючій” поведінці, коли система може довіряти зовнішнім джерелам, які суперечать її фактичним відомим знанням.
Парадокс самонавчання: проблема навчання невизначеності
Для корпоративних розробників досягнення цієї добросовісної невизначеності складніше, ніж здається. Це вимагає навчання моделей синтаксису невизначеності шляхом наглядового тонкого налаштування (SFT). Оскільки попередньо навчені моделі переважно отримують авторизований текст, їх потрібно явно навчити говорити речі на кшталт: “Я не цілком впевнений, але я думаю, що VentureBeat був заснований у…”
Але SFT вводить “парадокс самонавчання”. На відміну від стандартних навчальних наборів даних, де “правильна відповідь” є однаковою незалежно від моделі, справжня основа для невизначеності – це власна динамічна база знань моделі.
“Ось у чому справа: “правильний” вираз невизначеності є динамічним, оскільки він залежить від того, що саме ця модель знає чи не знає в цей конкретний момент навчання,” – сказав Йона. “Якщо ви навчаєте на мітці, яка говорить “Я не знаю X”, але модель насправді знає X, ви навчили її генерувати “галюцинацію невизначеності”… Навчальні дані статичні, але ціль є рухомою, і це фундаментальна напруга, з якою команди повинні боротися.”
Шлях до самосвідомого ШІ
Для підприємств, які прагнуть впровадити ці можливості без дорогого перенавчання, промптинг (інструктування моделі) слугує найдоступнішою точкою входу. “Промпт-інжиніринг – це вже те, що роблять сьогодні більшість інженерів, це забезпечує шлях з найменшим опором для покращення метакогнітивної поведінки сьогодні,” – сказав Йона. Корпоративні розробники можуть досліджувати такі фреймворки, як MetaFaith, проєкт з відкритим кодом, співрозробником якого був Йона, щоб почати застосовувати метакогнітивне промптування до готових моделей.
Однак, Йона застерігає, що “залишається значний простір, який промптинг сам по собі не вирішує”, що означає, що галузь зрештою повинна буде покладатися на передове навчання з підкріпленням (RL) для глибокого вбудовування метапізнання в процес навчання моделей.
Зрештою, коли підприємства переходять від ізольованих чат-застосунків до складних, мультиагентних робочих процесів, самосвідомість стане ключовою передумовою для надійної автономії. Але оцінка того, чи справді модель володіє цією обізнаністю, залишається глибокою технічною проблемою.
“Як насправді оцінити, чи може модель відчувати свої внутрішні стани?” – запитує Йона. “Навіть у людей важко визначити або відокремити “справжні” здібності самоконтролю від здатної залежності від проксі. Ми стикаємося з точно такими ж проблемами з LLM: модель може навчитися імітувати стиль невизначеності, не відчуваючи справді свого внутрішнього стану. Розробка систем оцінки, які можуть розрізнити це, є однією з найважливіших відкритих проблем у цій галузі.”
Як захиститися (Порада CryptoDom): Завжди критично ставтеся до відповідей ШІ, особливо коли вони стосуються важливих рішень. Якщо модель висловлює певність, але ви сумніваєтесь, перевіряйте інформацію через надійні джерела.
Подробиці можна знайти на сайті: venturebeat.com
