Штучний інтелект: Нова система пам'яті для ШІ обробляє 118 тисяч токенів за запит

Тривалий процес міркування виявив фундаментальну слабкість ШІ-агентів: вікна контексту швидко заповнюються, а конвеєри отримання даних повертають шум замість корисної інформації.

Для вирішення цієї проблеми дослідники з Національного університету Сінгапуру розробили MRAgent — фреймворк, який відмовляється від статичного підходу «отримай, а потім міркуй». Натомість він використовує механізм, що дозволяє агенту динамічно розвивати свою пам’ять на основі накопичених доказів.

Ця багатоетапна реконструкція пам’яті інтегрована в процес міркування великої мовної моделі (LLM). Хоча MRAgent не є єдиним фреймворком у цій галузі, він значно зменшує споживання токенів та витрати на виконання порівняно з іншими підходами до управління пам’яттю агентів.

Обмеження пасивного отримання даних у завданнях з тривалим горизонтом

У класичних конвеєрах отримання даних документи витягуються за допомогою векторного пошуку або обходу графа і передаються LLM для аналізу. Цей пасивний підхід не працює, оскільки він не дозволяє поєднувати міркування з доступом до пам’яті, створюючи три основні вузькі місця:

Ці системи не можуть переглядати свою стратегію отримання даних під час міркування. Якщо агент отримує документ і виявляє критично важливу відсутню підказку — конкретну дату чи особу — він не має можливості сформулювати новий запит на основі цього висновку.
Фіксовані показники подібності та заздалегідь визначені розширення графа повертають поверхневі збіги, які заповнюють контекстне вікно LLM нерелевантним шумом, погіршуючи процес міркування.
Сучасні системи значною мірою покладаються на попередньо побудовані структури, такі як результати top-k та статичні функції релевантності, обмежуючи гнучкість, необхідну для масштабування в непередбачуваних, довгострокових взаємодіях з користувачами.

Дослідники стверджують, що для подолання цих обмежень розробники повинні перейти до «активного процесу асоціативної реконструкції» — концепції, натхненної когнітивною нейронаукою.

Штучний інтелект: Нова система пам'яті для ШІ обробляє 118 тисяч токенів за запит 6

За цією парадигмою виклик пам’яті відбувається послідовно, а не як пасивне зчитування статичної бази даних. Система починає з невеликих, специфічних тригерів із запиту користувача, таких як ім’я особи, дія або місце. Ці початкові підказки вказують на пов’язані поняття або категорії, а не на величезні блоки тексту.

Проходячи за цими метаданими, агент збирає невеликі фрагменти інформації один за одним. Він використовує кожну нову частину інформації для спрямування свого наступного кроку, доки успішно не відтворить повну, точну історію.

Як MRAgent реалізує активну реконструкцію пам’яті

Замість того, щоб розглядати пам’ять як статичну базу даних, MRAgent (Memory Reasoning Architecture for LLM Agents) сприймає її як інтерактивне середовище. При обробці складного запиту агент використовує можливості міркування базової LLM для дослідження кількох кандидатських шляхів отримання даних через структурований граф пам’яті.

На кожному кроці LLM оцінює проміжні докази, які вона зібрала, і використовує їх для ітеративної оптимізації свого пошуку. Вона виводить нові обмеження пошуку, переслідує шляхи з найкращою інформацією та відсікає нерелевантні гілки. Це дозволяє MRAgent відтворювати глибоко приховану інформацію, не перевантажуючи контекст LLM шумом.

Штучний інтелект: Нова система пам'яті для ШІ обробляє 118 тисяч токенів за запит 7

Щоб зробити це активне дослідження обчислювально ефективним і масштабованим, фреймворк організовує свою базу даних за допомогою механізму «Cue-Tag-Content» (Підказка-Мітка-Зміст). Це працює як багатошаровий асоціативний граф із трьома типами вузлів:

Підказки (Cues): Деталізовані ключові слова, такі як сутності або контекстні атрибути, витягнуті з взаємодій користувача.
Зміст (Content): Фактичні збережені одиниці пам’яті. Вони поділені на шари різної деталізації, такі як епізодична пам’ять для конкретних подій та семантична пам’ять для стабільних фактів і вподобань користувача.
Мітки (Tags): Семантичні містки, які узагальнюють реляційні асоціації між конкретними Підказками та Змістом.

Ця структура забезпечує високоефективний двостадійний процес отримання даних. LLM спочатку переходить від Підказок до кандидатських Міток. Оскільки Мітки явно відображають семантичні взаємозв’язки та структурні асоціації даних, агент оцінює ці короткі резюме, щоб визначити їх релевантність. LLM визначає перспективні шляхи обходу та відкидає нерелевантні гілки, перш ніж витрачати обчислювальні ресурси та токени промпту для доступу до детального, об’ємного вмісту пам’яті.

Наприклад, користувач може запитати ШІ-агента: «Як Нейт використав призові гроші, коли виграв свій третій турнір з відеоігор?»

MRAgent спочатку витягує деталізовані початкові підказки із запиту, такі як «Нейт», «турнір з відеоігор» та «виграш».
Агент зіставляє ці початкові підказки з графом пам’яті та переглядає доступні асоціативні Мітки, пов’язані з ними. Агент бачить мітки, такі як «Перемога в турнірі» та «Участь у турнірі». Оскільки його цікавить лише те, що особа зробила після перемоги в чемпіонаті, MRAgent відкидає мітку участі в турнірі та продовжує за міткою перемоги.
Агент отримує епізодичний вміст, пов’язаний із вибраною парою Підказка-Мітка, витягуючи три окремі епізоди пам’яті, де Нейт виграв турнір.
MRAgent переглядає три спогади, визначає, що один з них особливо релевантний запиту, і відкидає два інші.
З цією інформацією він оновлює свої підказки та починає новий раунд пошуку та відсіювання. З нового епізодичного спогаду, який він отримав, агент додає «заробітки від турніру» до своїх підказок і використовує це для переходу до нових міток та пошуку нових спогадів. Він повторює цей процес, доки не збере достатньо інформації для відповіді на запит, яка може бути чимось на кшталт «Нейт заощадив гроші».

Продуктивність MRAgent на галузевих тестах

MRAgent працює поряд із кількома іншими фреймворками, що займаються створенням пам’яті агентів. Серед альтернатив — A-MEM, фреймворк агентної пам’яті на основі графів, та MemoryOS, ієрархічний фреймворк пам’яті. Інші фреймворки постійної пам’яті включають LangMem та Mem0.

Дослідники протестували MRAgent на галузевих тестах LoCoMo та LongMemEval. Вони оцінюють можливості агентів вирішувати запити в довгострокових завданнях та розмовах протягом десятків сесій та сотень діалогових поворотів. Використовуваними базовими моделями були Gemini 2.5 Flash та Claude Sonnet 4.5. Систему тестували проти стандартних RAG, A-MEM, MemoryOS, LangMem та Mem0.

MRAgent послідовно перевершував кожен базовий варіант на обох моделях та всіх типах запитань зі значним відривом.

Однак для корпоративних розробників найважливішим показником часто є обчислювальні витрати. У тестах LongMemEval MRAgent скоротив споживання токенів промпту лише до 118 тис. на вибірку. Для порівняння, A-Mem спожив 632 тис. токенів, а LangMem використав 3,26 мільйона токенів на запит. MRAgent також фактично скоротив час виконання вдвічі порівняно з A-Mem, зменшивши його з 1122 до 586 секунд.

Штучний інтелект: Нова система пам'яті для ШІ обробляє 118 тисяч токенів за запит 8

Те, що робить MRAgent ефективним на практиці, — це його поведінка за запитом. Оцінка міток та відсіювання нерелевантних шляхів перед отриманням даних заощаджує кошти та простір контексту. Крім того, система автономно оцінює свій накопичений контекст і сама знає, коли зупинити пошук, повністю уникаючи надлишкового дослідження даних.

Впровадження та розробка

Хоча MRAgent є високоефективним, структура Cue-Tag-Content повинна бути підготовлена перед тим, як агент зможе її запитувати. Розробникам доводиться вирішувати, як структурувати базову базу даних пам’яті, щоб дозволити LLM ефективно переміщатися між асоціативними елементами та відсіювати нерелевантні шляхи без вибухового зростання витрат на обчислення.

На щастя, розробникам не потрібно вручну мітити або структурувати ці дані. Автори розробили MRAgent з автоматизованим конвеєром дистиляції, який використовує LLM для обробки необроблених історій взаємодії та автоматичного заповнення графа пам’яті. Для розробника завдання полягає в реалізації та оркестрації цього автоматизованого конвеєра прийому, а не в ручному тегуванні даних.

Вам потрібно налаштувати фонове завдання або конвеєр потокової передачі, який пропускає необроблені взаємодії користувачів через шаблони промптів для вилучення цих метаданих перед їх збереженням у вашій графічній базі даних.

Однак автори наголошують, що це етап легкого конструювання, і MRAgent свідомо зберігає процес прийому даних простим.

Автори випустили код на GitHub.

Як захиститися (Порада CryptoDom): Уникайте розкриття надто великої кількості персональної інформації в онлайн-взаємодіях з ШІ-агентами, особливо щодо фінансових даних або конфіденційної інформації, якщо ви не впевнені в механізмах безпеки їхньої пам’яті.

Джерело новини: venturebeat.com

No votes yet.

Please wait...

Штучний інтелект: Нова система пам’яті для ШІ обробляє 118 тисяч токенів за запит

Залишити відповідьСкасувати відповідь