
Компанія Moonshot AI цього тижня випустила Kimi K2.7-Code – оновлену версію своєї моделі кодування K2, яка тепер має відкритий вихідний код. Розробники стверджують, що вона демонструє покращену ефективність у міркуваннях та двозначне зростання продуктивності.
K2.7-Code базується на тій самій архітектурі Mixture-of-Experts (MoE) з трильйоном параметрів, що і її попередниця K2.6. Вона інтегрується через API, сумісний з OpenAI, що є важливим для команд, які вже використовують K2.6 у виробничих шлюзах.
Під час запуску K2.6 у квітні вона очолила тижневий рейтинг LLM (великих мовних моделей) від OpenRouter. Цей рейтинг базується на реальних рішеннях розробників щодо маршрутизації API, а не на самостійно заявлених показниках продуктивності.
Moonshot AI заявляє, що K2.7-Code вирішує проблему, яку вони називають “надмірним обдумуванням” (“overthinking”), скорочуючи використання токенів для міркувань на 30% порівняно з K2.6. Це безпосередньо вплине на витрати на виведення (inference costs) для команд, які використовують робочі процеси з агентами (agentic workflows). Однак, чи підтвердиться таке підвищення ефективності на незалежних тестах, вже викликає питання у фахівців.
Що таке Kimi K2.7-Code
K2.7-Code випущено під ліцензією Modified MIT, а вагові коефіцієнти моделі доступні на HuggingFace. Модель можна розгорнути за допомогою vLLM або SGLang. Вона працює виключно в режимі міркувань і не підтримує налаштування температури (temperature adjustment). Moonshot AI зафіксувала її на рівні 1.0, що означає, що команди не можуть налаштовувати детермінізм виведення, як це можливо з іншими моделями.
Ключова відмінність K2.7-Code від K2.6 полягає у способі генерації низькорівневого коду. Якщо K2.6 створювала реалізації, обгортаючи існуючі бібліотеки та використовуючи усталені фреймворки, то K2.7-Code генерує реалізації безпосередньо. Moonshot AI стверджує, що це забезпечує надійнішу узагальнювальну здатність у мовах Rust, Go та Python, а також для різних типів завдань, включаючи розробку фронтенду, DevOps та оптимізацію продуктивності.
Щодо показників продуктивності, Moonshot AI заявляє про зростання на 21,8% у Kimi Code Bench v2, на 11% у Program Bench та на 31,5% у MLS Bench Lite. Усі три є пропрієтарними бенчмарками, розробленими Moonshot AI. Модель не була представлена на DeepSWE – незалежному бенчмарку для оцінки коду, який показує різницю до 70 пунктів між моделями, на відміну від 30 пунктів у SWE-Bench Pro. Це робить його більш точним показником для команд, що налаштовують системи маршрутизації моделей.
VB Transform · 14–15 липня · Менло-Парк · Інференс та інфраструктура ШІ
GM отримав 300% зростання об’єднаних запитів на злиття (PRs) завдяки реархітектурі для агентів. Ось що вони побудували.
Трек інфраструктури на Transform охоплює генерацію відео в реальному часі, стеки машинного розуміння між машинами та реальні потреби для масштабування агентів у корпоративному середовищі.
Дивитись повний порядок денний →
Більш “чесна”, але менш потужна
Картина за межами власних бенчмарків Moonshot виглядає складнішою.
Дослідник Елліот Арледж протестував K2.7-Code порівняно з K2.6 та Claude Fable 5 на KernelBench-Hard – публічному бенчмарку, зосередженому на оптимізації GPU-ядер. Він опублікував повні журнали тестування на kernelbench.com.
“K2.7 більш чесна, але не більш потужна”, – написав Арледж у X.
У п’яти з шести завдань K2.7-Code створила реальні ядра Triton, тоді як K2.6 використовувала обгортки бібліотек. Два з цих ядер зазнали збою через власні помилки моделі. Результат для MoE-ядра погіршився з 0,222 у K2.6 до 0,157.
“Fable, для порівняння, лідирує у всіх випадках, де не зазнає збою”, – зазначив Арледж.
Сугумаран Баласубраманіян, розробник, який створив маршрутизатор завдань моделі для платформи Hermes Agent, використовуючи DeepSWE як орієнтир, публічно відреагував на випуск K2.7-Code і поставив під сумнів вибір бенчмарків Moonshot AI.
“З повагою, кожна модель “покращує” свої результати на двозначні цифри у власному наборі тестів”, – написав Баласубраманіян у X.
Він зазначив, що K2.6 набрала 24% на DeepSWE, зрівнявшись з GPT-5.4-mini, і запитав, чи подасть Moonshot AI K2.7-Code на цей же бенчмарк. Баласубраманіян додав, що йому знадобилося 13 раундів перевірки, щоб отримати правильні дані бенчмарку для свого маршрутизатора, і він би спрямовував завдання кодування до K2.7-Code, якби незалежні показники підтвердилися.
Що це означає для підприємств
Підвищення ефективності використання токенів є безпосередньо застосовним. Команди, які використовують K2.6 у виробництві, можуть замінити її на K2.7-Code через сумісний з OpenAI API та очікувати на зниження витрат на виведення у робочих процесах з агентами, не змінюючи архітектуру. 30% скорочення токенів для міркувань – це показник від Moonshot, але шлях інтеграції має достатньо низький ризик, щоб протестувати його на власних робочих навантаженнях перед повним впровадженням.
Практичне питання полягає в тому, чи збережуться ці переваги ефективності для конкретного розподілу завдань команди. Тестування K2.7-Code на власних робочих навантаженнях перед коригуванням ваг шлюзу є найменш ризикованим шляхом до отримання відповіді.
Як захиститися (Порада CryptoDom): Завжди перевіряйте незалежні бенчмарки продуктивності моделі, перш ніж впроваджувати її у виробництво, особливо якщо компанія-розробник надає лише власні показники. Розгляньте можливість використання ретельно протестованих альтернатив або проведіть власне тестування на реальних завданнях.
Інформація підготовлена на основі матеріалів: venturebeat.com
