
За підтримки F5
Коли підприємства переходять від пілотних проєктів до промислового використання рішень зі штучним інтелектом (ШІ), доставка даних часто стає визначальним фактором для надійності масштабування цих систем. Точкові архітектури, що безпосередньо з’єднують сховище з обчислювальними ресурсами, добре працюють в умовах демонстрації, але часто виявляються неспроможними під час стабільного, одночасного виробничого трафіку. Наслідками цього є зупинка конвеєрів інференсу (висновування), затримки в системах RAG (Retrieval-Augmented Generation – генерація, доповнена пошуком), недовантаження GPU та порушення угод про рівень обслуговування (SLA), кожне з яких несе прямі бізнес-втрати.
“Організації успішно експлуатують ШІ, коли їхня інфраструктура побудована для обробки реальних збоїв, а не лише контрольованих умов”, – зазначає Хантер Сміт, старший менеджер з маркетингу продукції F5.
Виробничий трафік виявляє архітектурні слабкості
У пілотному проєкті зупинка передачі даних є незручністю, тоді як у виробничих умовах така сама зупинка стає інцидентом, за який хтось несе відповідальність. Базова архітектура часто ідентична в обох випадках: коли клієнт безпосередньо підключений до сховища, система стає все більш крихкою під час стабільного, одночасного виробничого трафіку, оскільки таке пряме з’єднання не має рішення у випадку відмови вузла або сплеску трафіку. Звідси виникають каскадні повторні спроби та тайм-аути, що призводить до блокування всього конвеєра саме тоді, коли бізнес залежить від його результатів.
“Точкові архітектури, де S3-клієнт підключається безпосередньо до S3-сховища, не є стійкими”, – каже Пол Піндер, головний архітектор рішень з технологічних альянсів F5. “Якщо один вузол сховища виходить з ладу, весь трафік до цього кластера деградує, а в деяких випадках кластер може вийти з ладу повністю”.
Проблема полягає в тому, що робочі процеси ШІ, включно з інференсом на основі RAG та агентним ШІ, все частіше розглядають S3-сховище як повноцінного учасника ШІ-кластера. Однак мережеве з’єднання між цим сховищем і кластером ніколи не було розроблене для високопродуктивного, безперебійного переміщення даних, необхідного для оптимальної роботи GPU.
Реальна вартість зупинених конвеєрів та недовантажених GPU
“Керівники підприємств схильні розглядати інфраструктуру ШІ крізь призму використання GPU, але те, що відрізняє ШІ від традиційних детермінованих навантажень, полягає в тому, що інфраструктура постійно впливає на результати при кожній взаємодії”, – зазначає Тану Мутреджа, старший директор з управління продуктами F5. “У середовищах ШІ інфраструктура більше не є лише другорядною проблемою. Вона формує клієнтський досвід, якість, стійкість та вартість при кожній транзакції”.
Це може мати значні бізнес-наслідки. Наприклад, коли конвеєри інференсу зупиняються, це стає проблемою SLA та клієнтського досвіду. Коли системи RAG затримуються, моделі втрачають доступ до своєчасного, релевантного контексту, що призводить до неточних, застарілих або галюцинаторних відповідей, створюючи операційні ризики, ризики відповідності нормативним вимогам та репутаційні ризики. Водночас інфраструктурні проблеми, що створюють ці труднощі, можуть також збільшувати витрати, залишаючи дорогі GPU-ресурси недовантаженими або простоюючими.
“Коли GPU недовантажені, це свідчить про неефективність інфраструктури, яка завищує витрати, обмежуючи масштабованість та швидкість реагування”, – каже Мутреджа. “Ключове питання керівництва полягає в тому, чи забезпечує наскрізна ШІ-інфраструктура стабільно надійні, безпечні, високоякісні та керовані ШІ-досвіди за сталими одиничними економічними показниками”.
Створення готового до виробництва рівня доставки даних
F5 розглядає доставку даних як першочерговий інфраструктурний рівень, а не як щось, що має працювати “само собою”. Якщо оптимізація доставки додатків спрямована на потік запитів між користувачами та додатками, то оптимізація доставки даних – на потік даних між сховищем, мережами та обчислювальними ресурсами, включно з ШІ-обчисленнями.
Перетворення доставки даних на першочерговий рівень означає вбудовування в нього трьох властивостей:
- Спостережуваність (Observability) забезпечує видимість у режимі реального часу щодо затримок, пропускної здатності та стану потоків.
- Програмованість (Programmability) дозволяє керувати переміщенням даних на основі політик, через динамічну маршрутизацію, оптимізацію трафіку, управління частотою запитів та автоматичне перемикання при збоях.
- Усвідомлення збоїв (Failure-awareness) створює стійкість до деградованих мереж, обмежень швидкості сховища та перебоїв у роботі сервісів.
В архітектурі, яку F5 розробила для Dell ObjectScale, F5 BIG-IP розташовується між ObjectScale та ШІ-обчисленнями як програмована точка контролю на межі сховища.
“Ми бачили випадки, коли неправильна конфігурація в шарі ШІ-обчислень фактично спричиняла DDoS-атаку на S3-інфраструктуру сховища”, – каже Піндер. “Не зі злим умислом, а скоріше за принципом ‘Ой, що я наробив?’, але це все одно призвело до зупинки роботи сховища для всієї організації”.
Розміщення BIG-IP як контролера доставки додатків між рівнями сховища та обчислень захищає сховище за допомогою QoS (Quality of Service – якість обслуговування), обмежень швидкості та кількості з’єднань, забезпечуючи його стійкість та працездатність під таким навантаженням. Тестування, проведене SecureIQLab, підтвердило, що цей захист не відбувається за рахунок зниження пропускної здатності, що є архітектурно важливим, зазначає Піндер.
“Збереження, і навіть покращення, пропускної здатності є обов’язковою умовою”, – пояснює він. “Це дозволяє нашаровувати функціонал вищого рівня, стійкість та розширену безпеку, не жертвуючи при цьому продуктивністю”.
Додаткова складність гібридного та мультихмарного ШІ
Розгортання ШІ в гібридних мультихмарних середовищах ставлять ще складніші завдання перед доставкою даних через наявну гетерогенність. Іншими словами, дані, що передаються в таких середовищах, стикаються з неузгодженими політиками, засобами безпеки, системами ідентифікації, вимогами до управління, фрагментованою видимістю та чіткими межами відмовостійкості.
Програмоване управління трафіком та спостережуваність разом вирішують цю складність. Спостережуваність забезпечує єдине уявлення про стан додатків, мережі та інфраструктури в середовищах, які інакше є непов’язаними. Програмоване управління трафіком використовує ці дані для інтелектуальної маршрутизації, балансування та перемикання трафіку в режимі реального часу. Разом вони створюють систему зворотного зв’язку із замкненим циклом, яка забезпечує дотримання узгоджених політик, підвищує стійкість у доменах відмовостійкості та гарантує надійну, високопродуктивну доставку даних для ШІ, незалежно від місця розташування додатків, даних чи користувачів.
Що відрізняє промисловий ШІ від постійних пілотних проєктів
Організації, які виходять за рамки постійних пілотних проєктів, мають спільну специфічну інженерну дисципліну, каже Сміт.
“Це ті, хто проєктує для виробництва, розглядаючи збій як нормальний стан, а не виняток”, – пояснює він. “Вони припускатимуть, що затримки, перевантаження та часткові збої траплятимуться. І вони будуть створювати шлях передачі даних, який є настільки спостережуваним та обізнаним про збої, щоб поглинати їх, з явними заходами для пом’якшення наслідків для кожного деградованого стану, а не сподіватися, що мережа витримає”.
Організації, що застрягли в постійних пілотних проєктах, все ще оптимізують для досягнення ідеального лабораторного результату і виявляють розрив з реальним світом лише тоді, коли робоче навантаження запускається. Проблема не в якості моделі чи кількості GPU, а в тому, чи був рівень доставки даних розроблений з таким самим рівнем ретельності, як і обчислювальні ресурси.
“Команди повинні розуміти, що реальна мережа поводиться дуже відмінно від оптимізованої лабораторної мережі”, – каже Піндер. “Їм потрібен план пом’якшення наслідків для станів збоїв та вузьких місць продуктивності, з якими вони зіткнуться у виробничих умовах”.
Як захиститися (Порада CryptoDom): Не покладайтеся виключно на прямі з’єднання між обчислювальними ресурсами та сховищем для критично важливих ШІ-навантажень. Впроваджуйте проміжні шари з можливостями моніторингу, управління трафіком та автоматичного перемикання при збоях, щоб забезпечити стабільність та відмовостійкість доставки даних навіть під час пікових навантажень чи мережевих проблем.
Подробиці можна знайти на сайті: venturebeat.com
