
Команда Alibaba представила Qwen-AgentWorld у вівторок – це дві моделі, навчені не для дій у середовищах агентів, а для передбачення результатів цих середовищ. Розробка охоплює сім доменів в межах єдиної архітектури: MCP, Пошук, Термінал, Розробка програмного забезпечення, Android, Веб та ОС.
Цей реліз розширює недавні зусилля Alibaba у сфері автономних агентів. Модель Qwen3.7-Max, випущена в травні, мала можливість автономного виконання протягом 35 годин.
Такий крок спрямований на подолання обмежень, з якими стикаються команди, що масштабують розробку агентів. Реальні пошукові системи видають наявні результати, не маючи механізму для введення контрольованих умов. Живі термінали не дозволяють за запитом створювати умови нестачі дискового простору. Навчання агентів обмежене тим, що можуть надати продакшн-середовища, без систематичного способу виявлення граничних випадків, які агенти муситимуть обробляти, але рідко стикаються під час тренування.
Дослідницька команда навчала агентів у результуючому симуляторі та виявила, що приріст продуктивності перевищив результати, отримані лише під час навчання на реальних середовищах. В окремому тестуванні використання моделі світу для попереднього навчання перед подальшим налаштуванням агента покращило показники за сімома бенчмарками, включаючи три, з якими модель ніколи не стикалася під час навчання.
Наукова стаття, що супроводжує реліз, виявила прогалину в попередніх дослідженнях агентів. “Ми стверджуємо, що моделювання світу є ключовим відсутнім елементом на шляху до створення універсальних агентів”.
Qwen-AgentWorld навчається на тому, що повертають середовища, а не на тому, що мають робити агенти
Більшість моделей агентів навчаються відповідати на одне запитання: враховуючи те, що мені щойно показало середовище, що мені робити далі? Qwen-AgentWorld навчається відповідати на зворотне запитання: враховуючи те, що агент щойно зробив, що покаже середовище далі?
Ця зміна є основою того, що в статті називається мовною моделлю світу: замість оптимізації вибору дій, модель навчається передбачати наступний стан середовища у всіх семи доменах за єдиною навчальною метою. Попередні роботи були вужчими: WebWorld, попередній проєкт Qwen з лютого, охоплював лише веб-середовища; Agent World Model від Snowflake, опублікований того ж місяця, генерує середовища на основі коду з підтримкою SQL, а не навчає модель передбачати стани. Qwen-AgentWorld є першою моделлю, яка охоплює сім доменів в єдиній архітектурі, а моделювання середовища інтегровано з найранішої стадії попереднього навчання.
Alibaba навчала обидві моделі у три етапи на понад 10 мільйонах траєкторій взаємодії із середовищами з реальних запусків агентів. Перший етап навчає модель тому, як поводяться середовища – файлові системи, стани терміналу, зміни DOM браузера, відповіді API. Другий етап навчає модель міркувати про те, що буде далі, перед тим, як це передбачити. Третій етап, навчання з підкріпленням, уточнює передбачення за допомогою перевірок на основі правил та оцінки якості без обмежень.
Обидві моделі мають архітектуру “суміш експертів” (Mixture-of-Experts) – лише частина параметрів активується на кожен токен. Модель 35B активує 3B параметрів, а 397B – 17B. Обидві підтримують контекстне вікно розміром 256K. Для GUI-доменів (Android, Web та OS) моделі працюють з текстовими деревами доступності та ієрархіями представлень UI, а не зі скріншотами.
Ваги моделі 35B та AgentWorldBench доступні під ліцензією Apache 2.0; ваги моделі 397B не є публічними.
Результати навчання важливіші за бенчмарки
Оцінки бенчмарків показують, наскільки точно моделі передбачають те, що повертають середовища. Результати навчання показують, яку цінність має ця здатність до передбачення для команд, що створюють агентів – і саме ці цифри є більш значущими.
За словами дослідників, агенти, навчені в контрольованій симуляції, перевершили агентів, навчених у реальних середовищах. Введення цілеспрямованих збурень – часткових відповідей, які змушують агента виконувати додаткові кроки, та граничних випадків, які рідко трапляються в реальних середовищах – підвищило показник MCPMark з 24.6 до 33.8. У домені пошуку агенти, навчені у повністю вигаданих світах, продемонстрували перенесення знань на реальні пошукові завдання, підвищивши F1 Item WideSearch з 34.02 до 50.31 для відкритої 35B моделі. Окремий тест з попереднім навчанням показав, що попереднє тренування на моделі світу покращило показники BFCL v4 з 62.29 до 71.25, а Claw-Eval – з 53.60 до 64.88 без жодного специфічного налаштування агентів.

Дослідники застерігають щодо бенчмарків та ризику перенавчання
Публікація викликала негайну реакцію від дослідників ШІ в X (Twitter). Занепокоєння, які вони висловили, стосуються того, що практикам потрібно перевірити перед тим, як діяти на основі результатів.
Щодо навчальної мети та результатів переносу знань, оцінка одного з дослідників у сфері AI/ML була прямою. “Кожна інша модель ‘агента’ навчалася діяти в середовищах”, – написав @drawais_ai, який має докторський ступінь і регулярно аналізує наукові роботи з ШІ. “Qwen перевернув питання. Вони навчили модель передбачати саме середовище… Ці прогностичні знання потім переносяться на завдання агентів навіть без будь-якого специфічного доналаштування для агентів”. Він визначив результат Controllable Sim RL як “доказ”, що синтетичне навчання може замінити навчання з підкріпленням на реальних середовищах у великих масштабах, і зазначив, що три з семи бенчмарків для переносу знань були повністю поза доменом.
Відмінність у результатах бенчмарків одразу викликала сумніви. “AgentWorldBench – це бенчмарк, створений Alibaba і опублікований в тій самій статті”, – написав @TheSignal_Desk, який зосереджується на чесних оцінках та ключових показниках у дослідженнях ШІ. “Вони розробили тест, а потім перевершили його на 0.46”.
Методологія sim-RL є результатом, який @limalemonnn, розробник продакшн-агентів ШІ, вважає таким, що потребує найбільшої уваги перед цитуванням основних висновків. “Агенти, навчені в симуляторі, традиційно перенавчаються на специфічних особливостях симулятора”, – написав він. “Якщо модель світу занадто “чиста”, агент вивчає модель, а не завдання”. Він вказав на розділ з вибіркою даних для тестування як на ту частину, яку практикам слід ретельно вивчити перед тим, як діяти на основі отриманих цифр.
Побоювання щодо перенавчання частково підтверджуються даними. Розрив між неконтрольованим Sim RL (MCPMark 24.6) та контрольованим Sim RL (MCPMark 33.8) свідчить про те, що приріст значною мірою залежить від механізму контрольованості, а не лише від точності симуляції. Результат пошуку у вигаданому світі, де агенти, навчені на вигаданих середовищах, переносять свої знання на реальні пошукові завдання, є найсильнішим доказом проти побоювань щодо перенавчання в цій статті.
Що це означає для команд, які будують конвеєри агентів
Для команд інженерів ШІ, які створюють та масштабують конвеєри агентів, ця робота сигналізує про суттєві зміни у способі формування спроможностей агентів. Команди, що масштабують розробку агентів, тепер мають третій варіант між навчанням з підкріпленням на реальних середовищах та статичними бенчмарками: контрольована симуляція, яка вводить граничні випадки, що не з’являються у продакшн-середовищах.
Синтетичні середовища є легітимним шаром навчання. Контрольована симуляція, яка вводить умови, що не генеруються реальними середовищами, є доповненням до навчання з підкріпленням на реальних середовищах, а не обходом його.
Те, що модель вивчає перед початком навчання агентів, є більш важливим, ніж враховується у більшості конвеєрів. Висновок про попереднє навчання – приріст продуктивності на невідомих бенчмарках без специфічного для агентів доналаштування – свідчить про те, що закріплення моделі у середовищі має відбуватися раніше в процесі розробки, ніж це практикується зараз.
Як захиститися (Порада CryptoDom): Завжди перевіряйте джерела інформації та наукових досліджень. Критично оцінюйте результати, особливо ті, що здаються занадто хорошими, і шукайте незалежні підтвердження та аналіз від експертів галузі, перш ніж приймати рішення на основі нових технологій або звітів.
Джерело новини: venturebeat.com
