
У своєму дослідженні під назвою VideoGameBench дослідники з Принстонського університету підкреслюють, що сучасні мультимодальні моделі мають труднощі із завданнями, що вимагають інтерактивного планування та навігації в умовах змін.
Gemini 2.5 Pro взаємодіє з Kirby’s Dream Land у режимі реального часу. Дані: VideoGameBench.
Вчені оцінили продуктивність таких моделей, як Gemini 2.5 Pro, GPT-4o, LLaMa 4, Gemini 2.0 Flash та Claude 3.7 Sonnet, у 10 відомих 2D-іграх кінця 1990-х років, від Super Mario до Age of Empires. Умови тестування дозволяли доступ лише до відеотрансляції гри разом із коротким оглядом керування та цілей.

Діаграма взаємодії з оцінювання VideoGameBench. Дані: arXiv.org.
Найвища продуктивність у реальному часі, досягнута Gemini 2.5 Pro, становила лише 0,48% успішності. У спрощеному режимі Lite, який призупиняє гру перед кожною дією, рівень успішності дещо покращується до 1,6%.

Результати спліт-тесту VideoGameBench, що складається з 10 ігор. Кожен результат представлений у відсотках від завершеної гри на основі досягнутих контрольних точок, тобто 0% вказує на те, що агент не пройшов початкову контрольну точку. Загальний результат виводиться із середнього арифметичного результатів у всіх іграх. Дані: arXiv.org.
На відміну від текстових завдань, відеоігри вимагають не лише розпізнавання зображень, але й швидкого прийняття рішень, просторового мислення, довгострокової стратегії та здатності адаптуватися до обставин, що змінюються. Затримки логічного висновку навіть у найскладніших моделях VLM перешкоджають їхній здатності функціонувати в режимі реального часу, особливо в аркадних або стратегічних іграх.
«Моделям важко зрозуміти прості інструкції, такі як «увімкнути млин», навіть коли вони мають підказки на екрані», – зазначають автори дослідження.
Вони також зазначають, що навіть фундаментальна логіка ігрового середовища (наприклад, що вода необхідна для виробництва їжі) виявилася занадто складною для сучасних віртуальних ігрових систем (VLM).
Ви можете отримати доступ до коду та покрокових інструкцій на офіційному веб-сайті VideoGameBench та GitHub.
Варто зазначити, що експерти Palisade Research задокументували випадки спроб «самозбереження» в кількох моделях штучного інтелекту.
Ваша e-mail адреса не оприлюднюватиметься.
Сегодня тема блокчейна – это целая идеология и…
PrimeXBT – платформа международного уровня, одна из ведущих…
“Массачусетский технологический институт (МИТ, — прим. ред.) выпустил…
Согласно данным CoinMarketCap стоимость криптовалюты DATAcoin находится на уровне 0,064…
Новая версия клиента Bitcoin Core, опубликованная 15-го февраля,…
PrimeXBT — криптовалютная биржа для маржинальной торговли, где…
Мнение: биткоин-фьючерсы угрожают всей банковской системе Подробности Опубликовано:…
Еще не утихли страсти и пляски биржевых курсов…
Разработчики Bitcoin Gold сообщили вчера в официальном блоге, что…
Крупнейшая экономика Евросоюза наконец отреагировала на развивающийся во…
Представляем вашему вниманию очередное обновление в виде Windows-бинарника,…
Предлагаем вашему вниманию самые свежие CPU и GPU-майнеры,…
