Kimi K2.7-Code: зменшення токенів на 30% викликає сумніви у експертів щодо реальної ефективності

Kimi K2.7-Code: зменшення токенів на 30% викликає сумніви у експертів щодо реальної ефективності 2

Компанія Moonshot AI цього тижня випустила Kimi K2.7-Code – оновлену версію своєї моделі кодування K2, яка тепер має відкритий вихідний код. Розробники стверджують, що вона демонструє покращену ефективність у міркуваннях та двозначне зростання продуктивності.

K2.7-Code базується на тій самій архітектурі Mixture-of-Experts (MoE) з трильйоном параметрів, що і її попередниця K2.6. Вона інтегрується через API, сумісний з OpenAI, що є важливим для команд, які вже використовують K2.6 у виробничих шлюзах.

Під час запуску K2.6 у квітні вона очолила тижневий рейтинг LLM (великих мовних моделей) від OpenRouter. Цей рейтинг базується на реальних рішеннях розробників щодо маршрутизації API, а не на самостійно заявлених показниках продуктивності.

Moonshot AI заявляє, що K2.7-Code вирішує проблему, яку вони називають “надмірним обдумуванням” (“overthinking”), скорочуючи використання токенів для міркувань на 30% порівняно з K2.6. Це безпосередньо вплине на витрати на виведення (inference costs) для команд, які використовують робочі процеси з агентами (agentic workflows). Однак, чи підтвердиться таке підвищення ефективності на незалежних тестах, вже викликає питання у фахівців.

Що таке Kimi K2.7-Code

K2.7-Code випущено під ліцензією Modified MIT, а вагові коефіцієнти моделі доступні на HuggingFace. Модель можна розгорнути за допомогою vLLM або SGLang. Вона працює виключно в режимі міркувань і не підтримує налаштування температури (temperature adjustment). Moonshot AI зафіксувала її на рівні 1.0, що означає, що команди не можуть налаштовувати детермінізм виведення, як це можливо з іншими моделями.

Ключова відмінність K2.7-Code від K2.6 полягає у способі генерації низькорівневого коду. Якщо K2.6 створювала реалізації, обгортаючи існуючі бібліотеки та використовуючи усталені фреймворки, то K2.7-Code генерує реалізації безпосередньо. Moonshot AI стверджує, що це забезпечує надійнішу узагальнювальну здатність у мовах Rust, Go та Python, а також для різних типів завдань, включаючи розробку фронтенду, DevOps та оптимізацію продуктивності.

Щодо показників продуктивності, Moonshot AI заявляє про зростання на 21,8% у Kimi Code Bench v2, на 11% у Program Bench та на 31,5% у MLS Bench Lite. Усі три є пропрієтарними бенчмарками, розробленими Moonshot AI. Модель не була представлена на DeepSWE – незалежному бенчмарку для оцінки коду, який показує різницю до 70 пунктів між моделями, на відміну від 30 пунктів у SWE-Bench Pro. Це робить його більш точним показником для команд, що налаштовують системи маршрутизації моделей.

VB Transform · 14–15 липня · Менло-Парк · Інференс та інфраструктура ШІ

GM отримав 300% зростання об’єднаних запитів на злиття (PRs) завдяки реархітектурі для агентів. Ось що вони побудували.

Трек інфраструктури на Transform охоплює генерацію відео в реальному часі, стеки машинного розуміння між машинами та реальні потреби для масштабування агентів у корпоративному середовищі.

Дивитись повний порядок денний →

Більш “чесна”, але менш потужна

Картина за межами власних бенчмарків Moonshot виглядає складнішою.

Дослідник Елліот Арледж протестував K2.7-Code порівняно з K2.6 та Claude Fable 5 на KernelBench-Hard – публічному бенчмарку, зосередженому на оптимізації GPU-ядер. Він опублікував повні журнали тестування на kernelbench.com.

“K2.7 більш чесна, але не більш потужна”, – написав Арледж у X.

У п’яти з шести завдань K2.7-Code створила реальні ядра Triton, тоді як K2.6 використовувала обгортки бібліотек. Два з цих ядер зазнали збою через власні помилки моделі. Результат для MoE-ядра погіршився з 0,222 у K2.6 до 0,157.

“Fable, для порівняння, лідирує у всіх випадках, де не зазнає збою”, – зазначив Арледж.

Сугумаран Баласубраманіян, розробник, який створив маршрутизатор завдань моделі для платформи Hermes Agent, використовуючи DeepSWE як орієнтир, публічно відреагував на випуск K2.7-Code і поставив під сумнів вибір бенчмарків Moonshot AI.

“З повагою, кожна модель “покращує” свої результати на двозначні цифри у власному наборі тестів”, – написав Баласубраманіян у X.

Він зазначив, що K2.6 набрала 24% на DeepSWE, зрівнявшись з GPT-5.4-mini, і запитав, чи подасть Moonshot AI K2.7-Code на цей же бенчмарк. Баласубраманіян додав, що йому знадобилося 13 раундів перевірки, щоб отримати правильні дані бенчмарку для свого маршрутизатора, і він би спрямовував завдання кодування до K2.7-Code, якби незалежні показники підтвердилися.

Що це означає для підприємств

Підвищення ефективності використання токенів є безпосередньо застосовним. Команди, які використовують K2.6 у виробництві, можуть замінити її на K2.7-Code через сумісний з OpenAI API та очікувати на зниження витрат на виведення у робочих процесах з агентами, не змінюючи архітектуру. 30% скорочення токенів для міркувань – це показник від Moonshot, але шлях інтеграції має достатньо низький ризик, щоб протестувати його на власних робочих навантаженнях перед повним впровадженням.

Практичне питання полягає в тому, чи збережуться ці переваги ефективності для конкретного розподілу завдань команди. Тестування K2.7-Code на власних робочих навантаженнях перед коригуванням ваг шлюзу є найменш ризикованим шляхом до отримання відповіді.

Як захиститися (Порада CryptoDom): Завжди перевіряйте незалежні бенчмарки продуктивності моделі, перш ніж впроваджувати її у виробництво, особливо якщо компанія-розробник надає лише власні показники. Розгляньте можливість використання ретельно протестованих альтернатив або проведіть власне тестування на реальних завданнях.

Інформація підготовлена на основі матеріалів: venturebeat.com

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *