
Компанія Shopify розробила проксі-сервер для великих мовних моделей (LLM), який надає кожному інженеру доступ до декількох постачальників ШІ. Він забезпечує автоматичне перемикання у разі збоїв, змін чи зникнення одного з них. Коли модель Claude Fable 5 припинила свою роботу, інженери Shopify не піддалися паніці. Проксі-сервер автоматично перевів їх на Claude Opus або GPT 5.5, не перериваючи робочий процес. «Fable виглядає чудово, ми, звісно, його використовували», — зазначив Фархан Тавар, керівник інженерного відділу Shopify, в подкасті VentureBeat Beyond the Pilot. «Коли модель з’являється, а потім зникає, або це може бути нешкідлива оновлення, проксі-сервер дозволяє нам розподіляти навантаження між різними постачальниками», — сказав Тавар.
Shopify купує токени (одиниці даних для обробки ШІ) оптом, і всі користувачі підключаються до моделей через їхній проксі-сервер. Це надає команді доступ до звітності та функцій резервування. У разі проблем з доступністю у одного постачальника, користувачі можуть бути «автоматично, безперебійно» переведені на іншого. Підприємства можуть врахувати цей приклад і подумати, як збої можуть вплинути на їхній бізнес, наголошує Тавар. Як мінімум, слід розробити надійний план резервування. Важливо мати систему, яка дозволяє гнучко перемикатися між моделями, щоб компанії не були «жорстко прив’язані» до певного постачальника. Дистиляція (спрощення) — це ще одна важлива стратегія. За допомогою дистиляції студентська модель навчається від вчительської моделі та зазвичай спеціалізується на вужчому завданні. Такі малі мовні моделі (SLM) можуть бути більш вигідними, ніж узагальнені готові моделі. Наприклад, флагманський ШІ-асистент Shopify, Sidekick, виконує численні спеціалізовані підзадачі для продавців, дозволяючи їм «усунути рутину» зі своєї щоденної роботи. Використання менших, дистильованих моделей може бути швидшим і дешевшим, ніж використання більш узагальнених моделей, каже Тавар. У деяких випадках вони виявилися вдвічі дешевшими та швидшими, а в екстремальних — у 30 разів. Але «це не лише про вартість і затримку, хоча це й важливо, — це про точність», — підкреслює Тавар. Інженери передають UDP (User Datagram Protocol, протокол передачі даних) їхній вчительській моделі, навчальним даним, оцінкам та цільовій моделі — наприклад, Opus 4.8, що дистилюється до Qwen 3.5. Процес триває близько доби, після чого повертається оцінка, що показує, чого насправді досягла доналаштована модель за швидкістю, вартістю та точністю для цього підзавдання. Якщо співвідношення виглядає добре, інженер розгортає її — без процесу затвердження. Внутрішня платформа Shopify, Tangle, дозволяє візуалізувати весь процес. Тавар каже, що його «мрія» — зрештою не надавати конвеєру дистиляції цільову модель. Натомість користувачі зможуть надати вчительській моделі дані та оцінки з директивою: «На основі ваших знань з часом, я хочу, щоб ви розглянули інший клас моделей, різні розміри, різні типи, і ви самі визначте, яка цільова модель для дистиляції буде найкращою». «Можливо, ми будемо здивовані. Можливо, це буде така мала модель, що її можна буде запускати на телефоні», — говорить Тавар. «Іншим часом, можливо, вона повернеться і скаже: «Немає способу дистилювати це до чогось кращого, ніж те, що ми маємо на передовій».
Перехід від «ШІ-рефлексії» до «ШІ-важеля»
Користувачі Shopify можуть застосовувати будь-які інструменти: Claude Code, Codex, Cursor, GitHub Copilot для VS Code. «Ми надаємо всім доступ до різних інструментів, щоб вони могли відчути, що може працювати, а що ні, в їхніх робочих процесах». Компанія також запровадила інформаційну панель використання. Це дозволяє команді Тавара ставити цікаві запитання не тільки про витрати токенів, але й: хто використовує найдорожчі токени? хто витрачає більше часу на міркування? які типи моделей використовуються, і в яких дисциплінах та на яких рівнях? Щодо питання «tokenmaxxing» (надмірного використання токенів), Shopify має впроваджені «автоматичні вимикачі». Якщо користувач тривалий час (наприклад, 10 годин) використовує модель, яка споживає багато токенів, йому буде надіслано повідомлення: «Ви мали намір це витратити?» Як пояснює Тавар, іноді відповідь: «О, абсолютно». Іншим разом: «Вау, я не знав, що це працює у фоновому режимі. Я зовсім забув про це. Я б радше зупинив це зараз». Кінцева мета, як описує її Тавар, — перейти від «ШІ-рефлексії» до «ШІ-важеля», щоб люди глибоко замислилися над тим, де вони можуть отримати найбільшу вигоду від ШІ у своїх робочих процесах. Прослухайте повний подкаст, щоб дізнатися більше про:
-
Філософію Shopify щодо побудови інфраструктури перед функціями. Як каже Тавар: «Ми завжди будували більше інфраструктури. Ми завжди будемо будувати більше інфраструктури».
-
Як внутрішній ШІ-агент Shopify, River, створює «основу інформації» по всій компанії.
-
Як агент OpenClaw Тавара визначив, що він подорожує, виходячи з його календаря — і що цей момент розповів йому про те, куди насправді прямують агенти.
Ви також можете слухати та підписуватися на Beyond the Pilot на Spotify, Apple або будь-де, де ви слухаєте подкасти.
Як захиститися (Порада CryptoDom): Щоб уникнути залежності від одного постачальника ШІ та забезпечити безперебійну роботу, використовуйте інструменти або розробляйте власні проксі-сервери, які дозволяють автоматично перемикатися між різними моделями ШІ у разі збоїв або змін. Регулярно переглядайте використання ресурсів ШІ, щоб уникнути несподіваних витрат і оптимізувати ефективність.
Інформація підготовлена на основі матеріалів: venturebeat.com
