Штучний інтелект досяг межі пам'яті — тепер йому потрібен новий рівень контексту

Представлено Solidigm

З еволюцією робочих навантажень висновків (inference workloads) від дискретних обмінів питаннями та відповідями до стійких, багатоетапних агентних систем, доступність GPU більше не є найкритичнішим вузьким місцем у штучному інтелекті (ШІ). Натомість, за словами Джеффа Харторна, керівника відділу прикладних досліджень ШІ в Solidigm, вузьке місце мігрувало від обчислень до контексту.

“Чому управління контекстом стало основним вузьким місцем, а не доступність GPU чи ефективність обчислень, – це питання 2026 року”, – каже Харторн. “GPU стали значно дешевшими за FLOP. Архітектури моделей та механізми обслуговування висновків стали набагато ефективнішими. Але те, що зросло швидше за обидва ці показники, – це контекст. Стійкий стан, який повинен зберігатися між сесіями, зріс ще швидше, ніж сам контекст”.

Це відбувається в умовах драматичного зростання контекстних вікон, що робить окремі вхідні дані набагато більшими, ніж раніше. Агентні системи ШІ ланцюжково з’єднують десятки або сотні викликів моделі, кожен з яких генерує стан, що потребує відстеження. Підприємства вимагають, щоб стан висновків зберігався між сесіями для аудиту, управління та повторного використання. Ці тенденції посилюють одна одну, штовхаючи обсяги контексту за межі можливостей будь-якого існуючого рівня пам’яті.

“Всі ці три фактори відбуваються одночасно, і всі вони призводять до стрімкого зростання обсягів контекстних даних та контекстної пам’яті, набагато швидше, ніж ми звикли бачити”, – додає Ейс Страйкер, директор з маркетингу ШІ та екосистеми в Solidigm.

Рішенням є виділений рівень контексту, що з’являється між пам’яттю GPU та масовим мережевим сховищем: рівень високопродуктивних, щільних флеш-накопичувачів, розроблених спеціально для зберігання та обслуговування кешу ключ-значення (KV cache) – даних висновків, які дозволяють моделям зберігати та повторно використовувати контекст, а також даних для пошуку зі швидкістю висновків. Nvidia формалізувала цю архітектуру під терміном CMX. Компанії-виробники сховищ, включно з Solidigm, створюють SSD-продукти, оптимізовані для такого навантаження.

“Про сховища зазвичай не думали першочергово, коли планували інфраструктуру для підприємств”, – каже Страйкер. “У багатьох відношеннях вартість сховища була відносно невисокою порівняно з обчислювальними потужностями, і це був товар. Ви просто шукали найнижчу ціну за гігабайт і вважали це достатнім. Але тепер, якщо ваші сховища не відповідають вимогам, ваша рентабельність інвестицій страждає, і це безпосередньо впливає на ваш прибуток”.

Чому висновки ШІ потребують іншої архітектури зберігання, ніж навчання

Архітектура зберігання, на яку сьогодні покладаються системи ШІ, значною мірою успадкована від робочих процесів навчання. Навчання є послідовним і домінуючим за записом, при цьому дані переміщуються великими блоками до та з масового об’єктного сховища. Структура рівнів із високошвидкісною пам’яттю на GPU, швидкими NVMe-накопичувачами в сервері та масовим сховищем у мережі цілком задовольняє цей сценарій використання.

Однак висновки – це інша історія. Його сигнатура вводу/виводу є дрібнозернистою, чутливою до затримок і дедалі більш залежною від стану. Дані кешу KV та дані для пошуку мають різні патерни доступу, але обидва повинні швидко обслуговуватися та повторно використовуватися між взаємодіями. Жоден з них не вписується ідеально в пам’ять GPU з високою пропускною здатністю, яка є дорогою та фізично обмеженою, ні в традиційне масове сховище, яке ніколи не було розроблене для активних робочих процесів висновків.

“Архітектурний розрив, який мене зараз найбільше цікавить, знаходиться не на верхньому чи нижньому рівні, а посередині”, – каже Харторн. “Багато з того, що розташовується нижче HBM GPU, змушене виконувати завдання, для яких воно насправді не призначене, і саме там відбуваються найцікавіші системні роботи сьогодні”.

Одним з найбільш помітних симптомів цього розриву є повторне обчислення. Під час висновків етап попереднього заповнення обробляє весь контекст, релевантний для певної сесії, перш ніж може початися генерація токенів. Коли стан кешу KV недоступний у швидкому, доступному рівні, система переобчислює його, витрачаючи цикли GPU, які не дають нового результату.

“Значна частка циклів GPU витрачається на повторне попереднє заповнення”, – пояснює Харторн. “Під час цього обчисленого контексту потенційно витрачаються обчислювальні ресурси на відтворення стану, а не на виконання нової роботи. Коли ви починаєте дивитися на проблему з цього боку, ефективність використання GPU частково виглядає як проблема зберігання”.

Це переосмислення викликає новий інтерес до метрики, запозиченої з мережевих технологій: goodput, або корисні токени за долар, замість сирих токенів за долар.

Рівень пам’яті контексту ШІ та як він працює

Відповідь галузі набуває структурної форми. Між пам’яттю GPU та традиційним мережевим сховищем з’являється новий рівень, розроблений спеціально для зберігання та обслуговування контексту висновків. Цей рівень відрізняється від дисків у серверах GPU (G3) та серверів зберігання даних у мережі (G4) і розроблений для максимально швидкої передачі контекстних даних до прискорювачів.

“Якщо ви будуєте дата-центр, починаючи з другої половини цього року або на початку наступного, ви не можете думати про зберігання лише у двох місцях”, – каже Страйкер. “Зберігання має знаходитися щонайменше у трьох місцях для забезпечення рівня пам’яті контексту, і це, ймовірно, стане постійною складовою майбутньої побудови інфраструктури”.

Це аналогічно появі об’єктного зберігання як категорії, яка не існувала доти, доки її не потребувало достатньо робочих навантажень. І як тільки це сталося, вона розробила власні примітиви, SLA, моделі витрат та екосистему постачальників.

“Здається, контекстний рівень рухається подібною траєкторією”, – каже Харторн. “Цей об’ємний тиск спричиняє формування категорії, а не дорожню карту окремого постачальника”.

Для лідерів інфраструктури це означає активне планування нового рівня, а не ставлення до нього як до опції. Розгортання додаткової NAND на цьому рівні зменшує залежність від DRAM, яка в сотні разів дорожча за гігабайт і обмежена як за доступністю, так і за тепловим запасом.

“З точки зору ефективності ваших інвестицій, ви витрачаєте менше коштів, якщо покладаєтеся на рівень SSD, як це зараз рекомендує і призначає Nvidia для багатьох випадків використання”, – додає Страйкер.

Що флеш-пам’ять повинна забезпечити для підтримки висновків ШІ

Значуща участь у стеку висновків ставить нові вимоги до технології SSD. Кінцева затримка (tail latency), тобто найгірша продуктивність накопичувача, повинна бути передбачуваною, а не просто швидкою в середньому. Система оркестрації, яка виділяє ресурси GPU на основі очікуваного часу відгуку сховища, не може терпіти несподівані затримки в кілька секунд. Послідовна, спостережувана продуктивність тут важливіша за пікову пропускну здатність.

Окрім затримки, щільність стає критичним фактором, особливо при гіпермасштабуванні. У дата-центрах, де обмеженням є потужність, а не вартість, метрикою стають вати на петабайт. Планарна NAND (floating gate NAND), підхід до виробництва, який лежить в основі продуктів Solidigm, добре підходить для цього розрахунку. Інтеграція з мережею через NVMe over Fabrics, RDMA та майбутню підтримку CXL також є надзвичайно важливою, враховуючи жорсткі бюджети затримок активних конвеєрів висновків.

“Диски повинні мати надійні характеристики продуктивності, окрім пропускної здатності та можливості передавати якомога більше даних якомога швидше, як це було потрібно для навчання”, – каже Харторн. “Тепер важливо мати можливість робити це дуже послідовно, у спосіб, який дуже добре спостерігається тими, хто експлуатує та оркеструє ці системи”.

Як лідери корпоративного ШІ повинні планувати контекстний рівень

Стандарти, програмні примітиви та найкращі практики, які встановлюються зараз, визначатимуть, як працюватиме інфраструктура висновків ШІ протягом багатьох років. Solidigm бере участь у цьому процесі через стандартизаційні органи, співпрацю в партнерських лабораторіях та опубліковані дослідження, що є критично важливим саме тому, що категорія ще формується.

“Цікаве питання на наступні кілька років полягає не в тому, чи потребує інфраструктура ШІ більше обчислювальних потужностей”, – каже Харторн. “А в тому, чи зможе вона ефективніше використовувати наявні ресурси. Значна частина цієї відповіді проходить через цей рівень, який будується сьогодні”.

Рекламні статті – це контент, створений компанією, яка або платить за публікацію, або має ділові стосунки з VentureBeat, і вони завжди чітко позначені. Для отримання додаткової інформації звертайтеся за адресою [email protected].

Як захиститися (Порада CryptoDom):
Оскільки обсяги даних для ШІ-моделей стрімко зростають, важливо забезпечити надійність та безпеку сховищ. Для користувачів: переконайтеся, що ваші дані зберігаються на надійних носіях з регулярним резервним копіюванням. Для бізнесу: інвестуйте в сучасні рішення для зберігання даних, оптимізовані для роботи з великими обсягами контексту, та впроваджуйте багаторівневі стратегії безпеки для захисту від потенційних атак на дані.

Джерело новини: venturebeat.com

No votes yet.

Please wait...

Штучний інтелект досяг межі пам’яті — тепер йому потрібен новий рівень контексту

Чому висновки ШІ потребують іншої архітектури зберігання, ніж навчання

Рівень пам’яті контексту ШІ та як він працює

Що флеш-пам’ять повинна забезпечити для підтримки висновків ШІ

Як лідери корпоративного ШІ повинні планувати контекстний рівень

Залишити відповідьСкасувати відповідь