Велика суперечка навколо маленького VibeThinker-3B від Weibo: знову про бенчмарки в світі ШІ

У неділю команда з дев’яти дослідників з Sina Weibo — китайського соціального медіа-гіганта, відомого своєю мікроблогерською платформою, а не передовим штучним інтелектом — тихо опублікувала 14-сторінкову технічну доповідь на arXiv, яка викликала справжній резонанс у спільноті дослідників ШІ. Їхнє твердження: мовна модель лише з 3 мільярдами параметрів може відповідати або перевищувати продуктивність у сфері міркувань флагманських систем від Google DeepMind, OpenAI, Anthropic і DeepSeek, які в сотні разів більші.

Модель під назвою VibeThinker-3B набрала 94.3 бала на AIME 2026 — Американській запрошеній олімпіаді з математики, одному з найскладніших стандартизованих змагань з математики у світі. Цей показник ставить її на один рівень з DeepSeek V3.2, моделлю з 671 мільярдом параметрів, і випереджає Gemini 3 Pro, високопродуктивну флагманську систему міркувань від Google, яка набрала 91.7 бала. Завдяки техніці масштабування в момент тестування, яку команда називає “Оцінка надійності на рівні тверджень” (Claim-Level Reliability Assessment), результат зростає до 97.1, випереджаючи практично кожну систему, що є в публічному доступі.

Протягом кількох годин після публікації, стаття отримала 62 “вподобання” у стрічці щоденних статей Hugging Face, репозиторій моделі зібрав 130 лайків, а репозиторій GitHub досяг 685 зірок. Однак реакція в соціальних мережах не була виключно святковою. У багатьох випадках вона була глибоко скептичною.

“ЩО, ЧОРТ ЗАБИРАЙ, відбувається в ШІ?” — написав користувач @orcus108 у X, опублікувавши допис, який зібрав понад 161 000 переглядів. “3-мільярдна модель показала результати в кодуванні на рівні Claude Opus 4.5… Я щиро не знаю, чи це прорив, чи просто зламані бенчмарки”.

Саме ця напруженість — між справжнім науковим прогресом і зростаючою підозрою, що бенчмарки ШІ стали настільки маніпульованими, що втратили своє значення — лежить в основі історії VibeThinker-3B. І відповідь на це питання має величезне значення не лише для академічних трофеїв, але й для багатомільярдної проблеми: чи є невтомний рух індустрії ШІ до все більших моделей єдиним шляхом до інтелекту.

Результати бенчмарків, що кидають виклик законам масштабу сучасного ШІ

Результати, представлені в технічній доповіді, за будь-якими стандартними показниками є надзвичайними.

З математичної точки зору, VibeThinker-3B показала 91.4 на AIME 2025, 94.3 на AIME 2026, 89.3 на HMMT 2025 (Математичний турнір Гарварду та MIT), 93.8 на BruMO 2025 (Математична олімпіада Браунського університету) та 76.4 на IMO-AnswerBench, бенчмарку, що складається з 400 задач рівня Міжнародної олімпіади з математики. У сфері кодування модель показала 80.2 Pass@1 на LiveCodeBench v6, бенчмарку, розробленому для тестування генерації виконуваного коду, і досягла 96.1% коефіцієнта прийняття рішень у нових тижневих та двотижневих змаганнях LeetCode з кінця квітня до кінця травня 2026 року. Щодо виконання інструкцій, модель набрала 93.4 на IFEval.

Щоб зрозуміти різницю в кількості параметрів: DeepSeek V3.2 має 671 мільярд параметрів — приблизно в 224 рази більше, ніж VibeThinker-3B. GLM-5 від Zhipu AI має 744 мільярди параметрів. Kimi K2.5 від Moonshot AI перевищує 1 трильйон. 3 мільярди параметрів VibeThinker-3B могли б працювати на звичайному ноутбуці.

Дослідники представляють цей результат не як аномалію, а як доказ більш широкої теоретичної тези. Вони вводять так звану “Гіпотезу параметричної компресії-покриття” (Parametric Compression-Coverage Hypothesis), яка стверджує, що різні типи можливостей ШІ мають фундаментально різні зв’язки з розміром моделі. Перевірені міркування — такі, як тестуються на математичних змаганнях та в задачах з кодування, де відповіді можна остаточно перевірити — це те, що в статті називається “параметрично щільною” можливістю: такою, що може бути стиснута в компактне ядро. Навпаки, знання з відкритих доменів є “параметрично експансивними”, вимагаючи широкого охоплення фактів, концепцій та граничних випадків, що неминуче потребує більшої кількості параметрів.

У статті безпосередньо визнається ця відмінність. На GPQA-Diamond, науковому бенчмарку рівня аспірантури, VibeThinker-3B набрала лише 70.2 бала — значно нижче, ніж 91.9, досягнуті Gemini 3 Pro, та 87.0, досягнуті Claude Opus 4.5. Автори пишуть, що цей розрив “відповідає нашій тезі, а не суперечить їй: головний висновок полягає не в тому, що 3-мільярдна модель повністю замінила провідні загальні моделі, а в тому, що невелика модель може досягти першокласної продуктивності у багатьох задачах, що вимагають перевірених міркувань”.

Внутрішній погляд на чотириетапний конвеєр навчання, що забезпечує роботу крихітного механізму міркувань

VibeThinker-3B не створена з нуля. Вона пройшла пост-тренування на основі Qwen2.5-Coder-3B, компактної базової моделі від команди Alibaba Qwen, за допомогою того, що дослідники ШІ Sina Weibo називають “Принципом спектра до сигналу” (Spectrum-to-Signal Principle) — багатоетапним конвеєром, вперше представленим у попередній роботі команди VibeThinker-1.5B у листопаді 2025 року.

Навчання проходить у чотири основні фази. Перша — це двохетапний процес керованого тонкого налаштування (supervised fine-tuning) з використанням навчального курсу (curriculum learning): модель спочатку навчається на широкій суміші даних з математики, коду, STEM-міркувань, загального діалогу та виконання інструкцій, а потім переходить до відібраної підмножини складніших, довших задач на міркування. На другому етапі відкидаються зразки з довжиною міркувань менше 5000 токенів, а задачі, які VibeThinker-1.5B може вирішити більше ніж у 75% випадків, фільтруються, змушуючи модель зосередитися на дійсно складних викликах.

Друга фаза застосовує навчання з підкріпленням (reinforcement learning) у кількох доменах — математика, код та STEM — з використанням алгоритму команди MaxEnt-Guided Policy Optimization (MGPO), який надає пріоритет навчанню на задачах на межі поточних можливостей моделі, а не на задачах, які вона вже легко вирішує або вважає неможливими. Варто зазначити, що команда виявила, що стратегія, яка добре працювала при масштабі 1.5B — поступове розширення контекстного вікна під час навчання з підкріпленням — насправді погіршила результати при 3B. Вони висувають гіпотезу, що сильніший початковий чекпойнт означав, що скорочення траєкторій міркувань під час “розігріву” більше не видаляло шум, а порушувало дійсні патерни міркувань. Рішенням стало навчання з єдиним контекстним вікном довжиною 64 000 токенів протягом усього процесу.

У рамках фази навчання з підкріпленням для математики команда також впроваджує так званий “Long2Short Math RL” — додатковий етап оптимізації, який перерозподіляє винагороди на користь коротших правильних рішень порівняно з довшими, зменшуючи багатослівність без шкоди для точності. Ця техніка використовує перерозподіл винагороди за нульовою сумою, що дозволяє уникнути зміщення загального сигналу винагороди, одночасно підштовхуючи модель до більш ефективних міркувань.

Третя фаза витягує високоякісні траєкторії міркувань з чекпойнтів, навчених за допомогою навчання з підкріпленням, і переносить їх назад до уніфікованої моделі через кероване тонке налаштування. Команда використовує “оцінку навчального потенціалу” — по суті, перплексію моделі-студента на кожній траєкторії вчителя — для пріоритизації траєкторій, які є правильними, але які студент ще не засвоїв. Фінальна фаза, яка називається Instruct RL, застосовує навчання з підкріпленням для завдань виконання інструкцій, використовуючи комбінацію валідаторів на основі правил для обмежень формату та моделей винагороди на основі рубрик для відкритої оцінки якості.

Франческо Бертоллотті, дослідник ШІ, який першим звернув увагу на статтю в X, коротко описав підхід: “Ці результати були досягнуті переважно за рахунок удосконалень пост-тренування на Qwen2.5-Coder. У статті не надається багато деталей, але, схоже, вони дистилюють з RL чекпойнтів, а потім проводять фінальний RL-based instruct RL”. Його допис набрав понад 161 000 переглядів.

Тестування в реальних умовах виявляє розрив між показниками бенчмарків та практичною продуктивністю ШІ

На кожну захоплену реакцію стаття викликала таку ж рішучу заперечення. Спільнота дослідників ШІ в середині 2026 року стала глибоко підозрілою до тверджень, заснованих на бенчмарках, і VibeThinker-3B з’явилася в середовищі, підготовленому до скептицизму.

“Бенчмарки — це буквально зіставлення шаблонів в однофайловому кодуванні”, — написав @BigMoonKR в X. “Це не має жодного відношення до реальної роботи з кодом. Не знаю, як люди досі цього не розуміють”.

“Benchmaxxing”, — заявив @oflu_bedirhan, використовуючи термін, який став скороченням у спільноті ШІ для моделей, що здаються оптимізованими спеціально для продуктивності на бенчмарках за рахунок користі в реальному світі.

Найбільш різка критика надійшла від користувачів, які фактично завантажили та протестували модель. “Щойно спробував повну точність”, — написав @politilols. “Вона навіть не знає, що таке uv script (найпопулярніший інструмент розробника Python). Такого не бачив у жодному LLM принаймні рік. Benchmaxxed”. Коли Бертоллотті відповів, що модель, схоже, більше зосереджена на математичних міркуваннях, ніж на практичному кодуванні, користувач заперечив: “Вони включають показник LiveCodeBench. Жодного шансу, що це відображає модель”.

@Itsdotdev висунув структурну критику: “Подивіться на самі бенчмарки, і це, ймовірно, не буде таким шокуючим. Чому немає DeepSWE? Чому немає стандартних бенчмарків, які використовують SOTA провайдери?”. Користувач @AvenirReym поставив більш діагностичне запитання: “Якщо вона проходить бенчмарк, створений після дати завершення навчання моделі, це реальність. Якщо вона виграє лише на наборах стилю AIME, які циркулюють роками, це витік даних”.

Автори статті, схоже, передбачили ці заперечення. У технічній доповіді зазначено, що навчальні набори “пройшли сувору деконтамінацію бенчмарків”, включаючи фільтрацію на основі n-грамів для видалення “перекриттів n-грамів з наборами оцінки”.

Оцінка конкурсів LeetCode — яка охоплює змагання з 25 квітня по 31 травня 2026 року, дати, що передують будь-якій правдоподібній даті завершення навчання — є найсильнішим захистом від проблем з витоком даних. На цих змаганнях VibeThinker-3B пройшла 123 з 128 подань з першої спроби, що становить 96.1% — показник, який перевищив GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 та Claude Opus 4.6 за ідентичних умов оцінки.

Проте, звіти реальних користувачів свідчать про значний розрив між продуктивністю на бенчмарках та практичною корисністю — явище, яке стало звичним для галузі. “У LM Studio вона добре відповідає лише на перше запитання, а наступні запитання стосуються першого”, — повідомив @luismolinaab.

Чому компанія соціальних мереж могла знайти щілину в гіпотезі масштабу

Навіть найдосвідченіші критики визнали, що досягнення таких показників на бенчмарках при 3 мільярдах параметрів — незалежно від того, наскільки вони переносяться на реальні сценарії використання — є значним інженерним досягненням. “Навіть якщо це benchmaxxing, досягнення цього з 3 мільярдами параметрів є захопливим, демонструючи, як швидко розвивається ця галузь”, — написав @rohityin.

Це спостереження веде до питання, яке поглинуло індустрію ШІ з моменту появи гіпотези масштабу: чи завжди більше означає краще? Традиційна мудрість, найбільш відомо викладена в законах масштабу Чінчілли та підтверджена комерційним домінуванням все більших фундаментальних моделей, стверджує, що більша кількість параметрів та більше даних для навчання надійно забезпечують кращу продуктивність. Економічний висновок суворий: навчання та розгортання передових моделей коштує десятки або сотні мільйонів доларів, створюючи величезні бар’єри для входу.

VibeThinker-3B кидає виклик цьому консенсусу — але лише частково. У статті обережно проводиться межа її тверджень, розрізняючи завдання з “чіткими сигналами перевірки” та ті, що вимагають широких фактичних знань. Гіпотеза параметричної компресії-покриття прямо стверджує, що малі моделі не можуть замінити великі моделі в усіх аспектах.

“Справжнє значення VibeThinker-3B полягає не в доведенні того, що 3-мільярдна модель може замінити великомасштабні загальні моделі”, — йдеться в статті, — “а в наданні конкретного емпіричного сигналу: розробка компактних моделей більше не є просто пасивним компромісом для ефективності розгортання чи контролю витрат; вона виступає як перспективний напрямок досліджень, який фундаментально доповнює традиційну парадигму масштабування параметрів”.

Мабуть, найдивовижнішим елементом роботи є її походження. Sina Weibo — публічно торгується на Nasdaq і Гонконгській фондовій біржі, з ринковою капіталізацією, що коливається в межах кількох мільярдів доларів — не є компанією, яка зазвичай асоціюється з передовими дослідженнями ШІ. Однак серія VibeThinker є другим великим внеском Weibo у сферу відкритого ШІ за сім місяців.

VibeThinker-1.5B, випущена в листопаді 2025 року, продемонструвала, що модель лише з 1.5 мільярдом параметрів може перевершити оригінальний DeepSeek R1 на кількох математичних бенчмарках — результат, якого команда досягла, за їхніми словами, за витрати на пост-тренування лише 7 800 доларів, порівняно з приблизно 294 000 доларів, оцінених для DeepSeek R1.

Команда дослідників невелика — дев’ять авторів, усі вони є співробітниками Sina Weibo Inc. Модель випущена під ліцензією MIT, однією з найбільш дозвільних ліцензій на відкрите програмне забезпечення, а ваги моделі вільно доступні для завантаження як з Hugging Face, так і з ModelScope. Протягом першого дня випуску члени спільноти вже створили квантовані версії GGUF та похідні моделі.

Малі моделі, великі наслідки та питання, яке індустрія ШІ вже не може ігнорувати

Найчесніша оцінка VibeThinker-3B полягає в тому, що вона одночасно менше і більше, ніж припускають бенчмарки. Менше, оскільки модель, яка має проблеми з базовими знаннями популярних інструментів розробника, навряд чи замінить будь-якого продакшн-асистента з кодування найближчим часом. Більше, оскільки основне розуміння — що здатність до міркувань та фактичні знання частково розділені, і що перша може бути стиснута значно агресивніше, ніж передбачалося раніше — має глибокі наслідки для того, як індустрія розглядає дизайн моделей, економіку розгортання та доступність передових можливостей ШІ.

Якщо Гіпотеза параметричної компресії-покриття виявиться вірною, вона передбачає майбутнє, в якому малі, спеціалізовані механізми міркувань працюватимуть поряд з великими моделями, багатими на знання, у гібридних архітектурах — бачення, де 3-мільярдна модель обробляє логічну важку роботу, тоді як більша система надає фактичну основу. Така архітектура може значно знизити вартість розгортання можливостей міркувань ШІ, потенційно надавши математичну та кодувальну продуктивність конкурентного рівня пристроям зі скромним обладнанням.

“Цікавим є те, що ми починаємо розділяти знання та міркування”, — написав @RealLambdaFlux у X. “Мала модель з сильним пост-тренуванням може перевершувати свій розмір у задачах з чітким зворотним зв’язком”.

@cmitsakis запропонував практичний висновок: “Я думаю, що малі моделі — це майбутнє для агентів, тому що вони можуть використовувати інструменти для отримання знань, а також працювати швидко та дешево”.

Незалежно від того, чи настане це майбутнє завдяки VibeThinker-3B зокрема, чи завдяки десяткам команд, які зараз змагаються за відтворення та розширення цих результатів, стаття вже досягла того, що жоден показник бенчмарку не може повністю відобразити.

Вона змусила спільноту ШІ зіткнутися з незружливою можливістю: роками індустрія, можливо, витрачала мільярди доларів на масштабування параметрів для покращення виду інтелекту, який міг би, весь цей час, поміститися на ноутбуці. Ваги моделі є публічними. Код відкритий. І найважливіший тест — не в жодному рейтингу, а в тому, чи зможе хтось зробити настільки малу модель дійсно корисною в реальному світі.

Як захиститися (Порада CryptoDom): Завжди перевіряйте джерело будь-якої дивовижної інформації, особливо в галузі ШІ. Незважаючи на відкритість коду, переконайтеся, що ви завантажуєте моделі лише з офіційних та перевірених репозиторіїв, щоб уникнути шкідливого ПЗ.

За матеріалами: venturebeat.com

No votes yet.

Please wait...

Результати бенчмарків, що кидають виклик законам масштабу сучасного ШІ

Внутрішній погляд на чотириетапний конвеєр навчання, що забезпечує роботу крихітного механізму міркувань

Тестування в реальних умовах виявляє розрив між показниками бенчмарків та практичною продуктивністю ШІ

Чому компанія соціальних мереж могла знайти щілину в гіпотезі масштабу

Малі моделі, великі наслідки та питання, яке індустрія ШІ вже не може ігнорувати

Залишити відповідьСкасувати відповідь