
Nous Research, стартап у сфері штучного інтелекту з відкритим кодом, підтриманий венчурною компанією Paradigm, у понеділок представив нову модель для змагального програмування, яка, за їхніми словами, перевершує або дорівнює кільком великим комерційним системам. Ця модель була навчена всього за чотири дні з використанням 48 найновіших графічних процесорів Nvidia B200.
NousCoder-14B, як назвали цю модель, є черговим гравцем у насиченому сегменті помічників зі створення коду на базі ШІ. Однак її випуск припадає на особливо напружений період: Claude Code, інструмент для програмування від конкурента Anthropic, домінує в обговореннях у соціальних мережах з Нового року, а розробники діляться захопленими відгуками про його можливості. Паралельні розробки підкреслюють, як швидко еволюціонує розробка програмного забезпечення за допомогою ШІ, і наскільки завзято компанії, великі та малі, змагаються за домінування в тому, що багато хто вважає фундаментальною технологією майбутнього програмної інженерії.
NousCoder-14B демонструє точність 67,87% на LiveCodeBench v6 — стандартизованому тесті, що оцінює моделі на задачах змагального програмування, опублікованих між серпнем 2024 та травнем 2025 року. Згідно з технічним звітом Nous Research, опублікованим разом з релізом, цей показник є на 7,08% вищим за базову модель, на основі якої проходило навчання — Qwen3-14B від Alibaba.
«Я надав Claude Code опис проблеми, і він згенерував те, що ми будували минулого року, за годину», — написала у своєму популярному дописі в X минулого тижня Джаана Доган, провідна інженерка Google, відповідальна за Gemini API. Її слова відображали загальний настрій щодо інструментів для кодування на базі ШІ. Доган описувала систему оркестрації розподілених агентів, яку її команда розробляла рік — систему, що Claude Code приблизно відтворив за три абзаци опису.
Це протиставлення є показовим: поки Claude Code від Anthropic захоплює уяву демонстраціями наскрізної розробки програмного забезпечення, Nous Research робить ставку на те, що альтернативи з відкритим кодом, навчені на перевірених задачах, зможуть скоротити розрив — і що прозорість у процесі створення цих моделей є такою ж важливою, як і їхня сира потужність.
Як Nous Research створили модель для кодування на ШІ, яку може відтворити кожен
Що відрізняє реліз NousCoder-14B від багатьох анонсів конкурентів, так це радикальна відкритість. Nous Research опублікували не тільки ваги моделі, але й повне середовище для навчання з підкріпленням, набір бенчмарків та інструментарій для тренування, побудовані на фреймворку компанії Atropos. Це дозволяє будь-якому досліднику з достатніми обчислювальними ресурсами відтворити або розширити цю роботу.
«Відкриття стеку Atropos надає необхідну інфраструктуру для досліджень, пов’язаних із міркуваннями олімпіадного рівня, які можна відтворити», — зазначив один з спостерігачів у X, підсумовуючи значущість цього кроку для академічної та open-source спільноти.
Навчання моделі проводив Джо Лі, дослідник у Nous Research і колишній учасник змагань з програмування. Технічний звіт Лі розкриває несподівано особистий вимір: він порівняв траєкторію вдосконалення моделі з власним прогресом на Codeforces, платформі для змагального програмування, де учасники отримують рейтинги за результатами конкурсів.
Базуючись на приблизних оцінках, що співставляють бали LiveCodeBench з рейтингами Codeforces, Лі розрахував, що прогрес NousCoder-14B — від приблизно 1600-1750 рейтингових балів до 2100-2200 — дзеркально відображає стрибок, який зайняв у нього майже два роки безперервної практики у віці від 14 до 16 років. Модель досягла цього еквіваленту за чотири дні.
«Спостерігати за останнім етапом тренування було досить сюрреалістичним досвідом», — написав Лі у технічному звіті.
Проте Лі швидко зробив важливе зауваження, яке стосується ширших питань ефективності ШІ: він розв’язав приблизно 1000 задач за ці два роки, тоді як моделі знадобилося 24 000. Люди, принаймні наразі, залишаються значно ефективнішими в навчанні на основі невеликої кількості прикладів.
Всередині системи навчання з підкріпленням, що тренується на 24 000 задачах змагального програмування
Процес навчання NousCoder-14B дає змогу зазирнути у все більш витончені методики, які використовують дослідники для покращення можливостей ШІ до міркування шляхом навчання з підкріпленням.
Цей підхід покладається на те, що дослідники називають «перевіреними винагородами» — систему, де модель генерує програмні рішення, ці рішення виконуються проти тестових випадків, і модель отримує простий бінарний сигнал: правильно або неправильно. Цей цикл зворотного зв’язку, хоч і простий за концепцією, вимагає значної інфраструктури для виконання в масштабі.
Nous Research використовували Modal, хмарну платформу, для паралельного виконання коду в ізольованих середовищах. Кожна з 24 000 навчальних задач містить у середньому сотні тестових випадків, і система повинна перевіряти, що згенерований код дає правильні результати в межах обмежень часу та пам’яті — 15 секунд і 4 гігабайти відповідно.
Під час навчання застосовувалася техніка під назвою DAPO (Dynamic Sampling Policy Optimization), яка, як виявили дослідники, показала трохи кращі результати, ніж альтернативи в їхніх експериментах. Ключовим нововведенням є «динамічна вибірка» — відкидання навчальних прикладів, де модель або успішно виконує всі спроби, або зазнає невдачі в усіх спробах, оскільки вони не надають корисного градієнтного сигналу для навчання.
Дослідники також застосували «ітеративне розширення контексту», спочатку навчаючи модель з контекстним вікном у 32 000 токенів, а потім розширюючи його до 40 000 токенів. Під час оцінки подальше розширення контексту приблизно до 80 000 токенів дало найкращі результати, з точністю до 67,87%.
Можливо, найважливішим є те, що конвеєр навчання поєднує інференс та верифікацію: як тільки модель генерує рішення, вона починає роботу над наступною задачею, поки попереднє рішення перевіряється. Ця конвеєризація, разом з асинхронним навчанням, де кілька екземплярів моделі працюють паралельно, максимізує використання обладнання на дорогих GPU-кластерах.
Загроза дефіциту даних, що може сповільнити прогрес моделей для кодування на ШІ
У технічному звіті Джо Лі приховано висновок, що має значні наслідки для майбутнього розвитку ШІ: навчальний набір даних для NousCoder-14B охоплює «значну частину всіх доступних, перевірених задач змагального програмування у стандартизованому форматі даних».
Іншими словами, для цієї конкретної галузі дослідники наближаються до межі високоякісних навчальних даних.
«Загальна кількість задач змагального програмування в Інтернеті приблизно того ж порядку величини», — написав Лі, маючи на увазі 24 000 задач, використаних для навчання. «Це свідчить про те, що в домені змагального програмування ми досягли межі високоякісних даних».
Це спостереження перегукується зі зростаючими побоюваннями в індустрії ШІ щодо обмежень даних. Тоді як обчислювальні потужності продовжують масштабуватися відповідно до добре вивчених економічних та інженерних принципів, навчальні дані «стають все більш обмеженими», за словами Лі.
«Здається, що найважливіші дослідження, які необхідно провести в майбутньому, будуть стосуватися генерації синтетичних даних та ефективних з точки зору даних алгоритмів і архітектур», — підсумував він.
Проблема особливо гостро стоїть для змагального програмування, оскільки ця галузь вимагає задач із відомими правильними рішеннями, які можна автоматично перевірити. На відміну від завдань обробки природної мови, де достатньо людської оцінки або проксі-метрик, код або працює, або ні — що робить генерацію синтетичних даних значно складнішою.
Лі визначив один потенційний шлях: навчання моделей не тільки для розв’язання задач, але й для генерації розв’язних задач, що дозволить реалізувати форму самонавчання, подібну до технік, які виявилися успішними в системах ШІ для ігор. «Коли генерація синтетичних задач буде вирішена, самонавчання стане дуже цікавим напрямком», — написав він.
Ставка в 65 мільйонів доларів на те, що open-source ШІ зможе конкурувати з Big Tech
Nous Research зайняла чітку позицію на ринку ШІ: компанія, що віддана випускам з відкритим кодом, які конкурують, а іноді й перевершують, комерційні альтернативи.
Компанія залучила 50 мільйонів доларів у квітні 2025 року в раунді, очолюваному Paradigm, венчурною фірмою, що спеціалізується на криптовалютах і заснована співзасновником Coinbase Фредом Ерсамом. Загальне фінансування сягнуло 65 мільйонів доларів, за деякими даними. Інвестиції відображають зростаючий інтерес до децентралізованих підходів до навчання ШІ, в галузі якого Nous Research розробила свою платформу Psyche.
Серед попередніх релізів — Hermes 4, сімейство моделей, яке, за нашою інформацією, «перевершує ChatGPT без обмежень щодо контенту», та DeepHermes-3, яке компанія описала як першу «модель міркувань з можливістю ввімкнення» — що дозволяє користувачам активувати розширені можливості мислення за запитом.
Компанія виробила відмінний стиль та спільноту, що викликало певний скептицизм щодо того, чи не переважає стиль над суттю. «Звісно, я буду вірити компанії з аніме-аватаром. Припиніть бенчмарксінг, заради Бога», — написав один критик у X, маючи на увазі брендинг Nous Research в стилі аніме та галузеву практику оптимізації для продуктивності за бенчмарками.
Інші висували технічні питання. «Виходячи з бенчмарку, Nemotron кращий», — зазначив один коментатор, маючи на увазі сімейство мовних моделей Nvidia. Інший запитав, чи є NousCoder-14B «орієнтованою на агентність чи просто «одноразовою» для кодування» — розрізнення, яке має значення для практичної розробки програмного забезпечення, де ітерація зі зворотним зв’язком зазвичай дає кращі результати, ніж одноразові спроби.
Що, на думку дослідників, має статися далі, щоб інструменти для кодування на ШІ продовжували вдосконалюватися
Реліз містить кілька напрямків для майбутніх робіт, які натякають на те, куди може прямувати дослідження в галузі кодування на ШІ.
Багаторазове навчання з підкріпленням посідає перше місце у списку. Наразі модель отримує лише остаточну бінарну винагороду — успіх або невдача — після генерації рішення. Однак задачі змагального програмування зазвичай містять публічні тестові випадки, що надають проміжний зворотний зв’язок: помилки компіляції, неправильні результати, порушення часових обмежень. Навчання моделей враховувати цей зворотний зв’язок протягом кількох спроб може значно покращити продуктивність.
Контроль довжини відповіді також залишається викликом. Дослідники виявили, що неправильні рішення, як правило, були довшими за правильні, а довжина відповідей швидко насичувала доступні контекстні вікна під час навчання — модель, яку різні алгоритмічні модифікації не змогли усунути.
Можливо, найамбітнішою пропозицією є «генерація задач та самонавчання» — навчання моделей як розв’язувати, так і створювати задачі програмування. Це безпосередньо вирішило б проблему дефіциту даних, дозволивши моделям генерувати власні навчальні програми.
«Люди чудово генерують цікаві та корисні задачі для інших змагальних програмістів, але, схоже, ще існує значний розрив у можливостях великих мовних моделей у творчій генерації задач», — написав Лі.
Модель доступна на Hugging Face під ліцензією Apache 2.0. Для дослідників та розробників, які хочуть спиратися на цю роботу, Nous Research опублікували разом з нею повний стек для навчання Atropos.
Те, що зайняло Джо Лі два роки юнацької відданості — піднятися від новачка з рейтингом 1600 до конкурента з рейтингом 2100 на Codeforces — штучний інтелект відтворив за 96 годин. Йому знадобилося 1000 задач. Моделі знадобилося 24 000. Але незабаром ці системи, можливо, навчаться писати власні задачі, навчатимуться самі і залишать людські бенчмарки позаду.
Питання вже не в тому, чи зможуть машини навчитися програмувати. Питання в тому, чи скоро вони стануть кращими вчителями, ніж ми коли-небудь були.
Порада від CryptoDom: Нова модель NousCoder-14B демонструє значний прогрес у сфері ШІ для програмування, пропонуючи відкритий та відтворюваний підхід. Це може бути надзвичайно корисно для розробників, які шукають потужні інструменти для прискорення своєї роботи, а також для дослідників, зацікавлених у вивченні та розширенні можливостей моделей штучного інтелекту. Її ефективність у розв’язанні складних задач змагального програмування свідчить про потенціал ШІ у сфері розробки програмного забезпечення.
Подробиці можна знайти на сайті: venturebeat.com
