
Вікно контексту стає обчислювальним вузьким місцем. Чим довше працює агент, тим більше токенів накопичується з отриманих документів, слідів міркувань та історії розмов, і тим більше пам’яті та обчислювальних ресурсів вимагає цей зростаючий контекст. Більшість існуючих рішень або знижують точність моделі, потребують повного завантаження контексту перед початком стиснення, або дають економію пам’яті, яка не транслюється у реальне прискорення на стандартній інфраструктурі обслуговування.
Дослідницька команда з Університету Нью-Йорка, Колумбійського університету, Прінстонського університету, Мерілендського університету, Гарвардського університету та Національної лабораторії Лоуренса Лівермора цього тижня опублікувала статтю, що пропонує новий виправлення. Дослідники представляють концепцію Latent Context Language Models (LCLM) – сімейство стискаючих моделей типу “кодер-декодер”, які стискають вхідний контекст перед тим, як він потрапить до декодера. Моделі є відкритими і доступними на HuggingFace.
На відміну від методів стиснення KV-кешу — домінуючого підходу в цій галузі, який все ще матеріалізує повний KV-кеш перед видаленням записів — LCLM стискають послідовність вхідних токенів перед попередньою обробкою декодером, тому вищі коефіцієнти стиснення безпосередньо зменшують обчислення та пам’ять на стороні декодера. У статті повідомляється, що LCLM зі стисненням у 16 разів демонструють вивід у 8,8 рази швидше, ніж базові методи KV-кешу на бенчмарку RULER для довгих контекстів.
“Ці роздуті контексти займають пам’ять і обчислювальні ресурси, і вони стають обчислювальним вузьким місцем для LLM”, — розповів VentureBeat Міка Голдблюм, співкерівник проєкту та дослідник Колумбійського університету. “Нашою метою було навчити мовні моделі наскрізно, які можуть ефективно та точно обробляти дуже довгі контексти. Якщо ви можете створити таку мовну модель, все стає дешевше і швидше”.
Що можуть робити LCLM
LCLM дозволяють моделям обробляти значно довші контексти, ніж це було б практично можливо, з часткою витрат на пам’ять і обчислення, без зниження точності, яке робить більшість методів стиснення невигідним компромісом у продакшені.
При 4-кратному стисненні, як повідомляється у статті, точність на бенчмарку RULER становить 91,76% порівняно з 94,41% без стиснення. Це менше ніж 3% падіння при скороченні контексту до чверті його початкового розміру. При 16-кратному стисненні, коли видаляється 93,75% вхідних токенів, точність впала до 75,06%. Кожен метод KV-кешу, протестований з тим самим коефіцієнтом стиснення, показав нижчі результати.
Переваги зберігаються і на коротших входах. На задачах математичних текстових завдань GSM8K, де стискається весь промпт, а не тільки отримані документи, LCLM випередили кожен інший протестований метод незалежно від коефіцієнта стиснення.

Як це було створено
Архітектура поєднує кодер об’ємом 0,6 млрд параметрів і декодер об’ємом 4 млрд параметрів. Кодер стискає блоки вхідних токенів у коротші послідовності латентних вбудовувань (latent embeddings). Декодер обробляє їх замість оригінальних токенів. Навчання проводилося на більш ніж 350 мільярдах токенів.
Рецепт навчання включає комбінацію трьох типів даних:
Дані для безперервного попереднього навчання з чергуванням стиснених та нестиснених фрагментів.
Дані для керованого тонкого налаштування, що охоплюють завдання міркування та роботи з довгими контекстами.
Додаткове завдання реконструкції, яке спонукає кодер зберігати дрібні деталі.
Ця комбінація вирішує компроміс, який обмежував попередні роботи зі стиснення, де збереження точності реконструкції відбувалося за рахунок загальної продуктивності моделі.
Пошук архітектури визначив оптимальну конфігурацію. Дослідження показало, що масштабування декодера має більше значення, ніж масштабування кодера.
Де це вписується в агентську екосистему
LCLM — це не абстрактна дослідницька концепція. Вона розроблена для роботи з існуючими системами. “Ви можете просто замінити будь-яку існуючу LLM на LCLM”, — сказав Голдблюм. “Щоразу, коли ви отримуєте дані, такі як документи, і хочете помістити їх у контекст моделі, просто пропустіть ці документи через компресор LCLM”.
Він зазначив, що в дослідницькій роботі автори продемонстрували, як створювати агентів, які вибірково розпаковують корисний текст.
“Уявіть собі це як людину, яка швидко переглядає контент, перш ніж зосередитися на релевантних деталях”, — сказав Голдблюм.
Голдблюм також попередив, що команди, які інтегрують цей підхід у існуючі агентські конвеєри, повинні будуть відповідним чином налаштувати свої RAG-системи (Retrieval-Augmented Generation — генерація, доповнена пошуком).
“Ми також не працювали над стисненням трасування міркувань в реальному часі”, — сказав він. “Наївний підхід періодичного стиснення трасування під час його генерації може спрацювати, але це ще належить визначити”.
Що це означає для підприємств
Вікна контексту зростають швидше, ніж інфраструктура виведення (inference infrastructure) встигає за ними, і підприємства вже витрачають кошти на їх оптимізацію. Дані опитування VB Pulse за перший квартал 2026 року, проведене серед організацій зі штатом понад 100 співробітників, показують триразове зростання намірів щодо впровадження гібридного пошуку: з 10,3% у січні до 33,3% у березні. Оптимізація пошуку випередила оцінку як пріоритет інвестицій, досягнувши 28,9% кваліфікованих респондентів.
Три аспекти є ключовими для команд, що оцінюють виробниче застосування:
Вартість виведення зростає пропорційно довжині контексту. При 1 мільйоні токенів, нестиснене виведення зі стандартними методами KV-кешу вичерпує пам’ять на одному H200 GPU. У статті повідомляється, що LCLM зі стисненням у 16 разів залишаються в межах пам’яті при такій довжині контексту.
Інтеграція RAG-конвеєрів потребує налаштування. Командам з існуючими RAG-конвеєрами доведеться перевірити поведінку стиснення відносно метрик якості пошуку перед масштабуванням розгортання.
Стиснення трасування міркувань залишається невирішеним. Для агентів, що виконують довгі ланцюжки міркувань, зростання контексту від трасування є окремою проблемою від отримання документів. Голдблюм прямо визнав цю прогалину: наївний підхід періодичного стиснення трасування може працювати, але він не був протестований.
Моделі доступні на huggingface.co/latent-context, а код — на github.com/LeonLixyz/LCLM.
“Найбільше, що роблять наші архітектури — це надають вашій моделі доступ до значно більших контекстів, але вони також відкривають можливості мультимасштабних підходів, коли ваша модель може надзвичайно швидко переглядати величезні обсяги тексту або коду, а потім лише фокусуватися та повністю читати невелику частину найкориснішого тексту”, — сказав Голдблюм.
Як захиститися (Порада CryptoDom): Щоб мінімізувати ризики, пов’язані з обробкою великих обсягів даних у системах ШІ, завжди застосовуйте багаторівневу безпеку: перевіряйте джерела даних, використовуйте шифрування для захисту інформації під час передачі та зберігання, а також запроваджуйте суворі політики доступу та автентифікації для всіх компонентів системи.
За даними порталу: venturebeat.com
