Alibaba випустила нову ШІ-модель Qwen2 — ForkLog UA

Китайський техгігант Alibaba оголосив про випуск нової моделі штучного інтелекту Qwen2.

Вона розроблена Alibaba Cloud і є наступним поколінням Tongyi Qianwen (Qwen). До неї входять Tongyi Qianwen LLM (або Qwen), Qwen-VL і Qwen-Audio.

Сімейство Qwen2 охоплює серію з п’яти моделей розміром від 0,5 до 72 млрд параметрів, які навчені з використанням даних із різних галузей 27 мовами.

Порівняння ШІ-моделей Qwen2-серії від Alibaba. Джерело: сайт Qwen.

Queen2-72B — найпотужніша модель у серії, навчена на 3 трлн токенів. Для порівняння, показник Llama-2 від Meta становить 2 трлн токенів, Llama-3 — 15 трлн токенів.

Qwen2 може обробляти довгий діалоговий контекст — до 128 000 токенів, що можна порівняти з GPT-4o від OpenAI. Команда стверджує, що їхня модель перевершує LLama3 від Meta практично у всіх найважливіших синтетичних тестах.

Порівняння Queen2-72B з конкурентами. Джерело: сайт Qwen.

Незалежна платформа Elo Arena оцінює Qwen2-72B-Instruct трохи краще за GPT-4-0314, але гірше за Llama3 70B і GPT-4-0125-preview.

«Порівняно з сучасними мовними моделями з відкритим вихідним кодом, включно з раніше випущеною Qwen1,5, Qwen2 перевершила більшість моделей і продемонструвала конкурентоспроможність у низці тестів, націлених на розуміння мови, генерацію мови, багатомовність, програмування, математику та мислення», — заявила команда Qwen.

Моделі Qwen2 демонструють гарне розуміння довгих контекстів. Qwen2-72B-Instruct може без помилок виконувати завдання з вилучення інформації в будь-якому місці і майже ідеально пройшла тест «Голка в копиці сіна». Часто продуктивність різних моделей починає погіршуватися в міру взаємодії з нею.

Тест «Голка в стозі сіна». Джерело: сайт Qwen.

Раніше Alibaba анонсував випуск чат-бота зі штучним інтелектом Tongyi Qianwen.

Нагадаємо, у квітні Meta оголосила про запуск безкоштовного ШІ-асистента Meta AI на платформах WhatsApp, Instagram, Facebook і Messenger. Він створений на основі мовної моделі Llama 3.

Источник

No votes yet.

Please wait...