Google презентувала Flash TTS 3.1, Robotics‑ER 1.6 і вбудований Gemini для macOS

Корпорація Google представила Gemini 3.1 Flash TTS — вдосконалену модель синтезу промови, що ґрунтується на основі Gemini 3. Вона відрізняється покращеною якістю звучання, виразністю та більш точним регулюванням, а також підтримує більше 70 мов.

Ця ШІ-мережа дає можливість розробникам, компаніям та звичайним користувачам створювати програми з голосовим ШІ-інтерфейсом.

Gemini 3.1 Flash TTS вже доступна:

для розробників — у вигляді попереднього доступу через Gemini API та Google AI Studio;
для підприємств — у Vertex AI;
для користувачів Workspace — через сервіс Google Vids.

Вдосконалена якість мовлення та керованість

Модель отримала 1211 балів у рейтингу Artificial Analysis TTS. Цей показник сформовано на підставі вподобань тисяч респондентів, які взяли участь у таємному тестуванні якості аудіо.

Джерело: Google.

Компанія Artificial Analysis зарахувала модель до групи найбільш привабливих рішень завдяки поєднанню високоякісного синтезу мовлення та низької вартості.

LLM характеризується здатністю створювати природні діалоги з багатьма учасниками.

Нові аудіотеги

У версії 3.1 Flash TTS з’явилися аудіотеги — інструмент для управління стилем, темпом та манерою мовлення.

«Перші розробники та корпоративні тестувальники вже бачать результати роботи 3.1 Flash TTS, відзначаючи її вражаючу керованість та виразність. Вони розповіли нам, як аудіотеги надають новий рівень творчої точності, перетворюючи звичайний текст на високоякісне голосове відтворення», — зазначено у блозі компанії.

ШІ-модель для робототехніки

Одночасно з Gemini 3.1 Flash TTS корпорація представила Gemini Robotics-ER 1.6. Ця ШІ-модель призначена для надання роботам можливості виконувати складні завдання в реальних умовах завдяки поліпшеним когнітивним функціям і «втіленому» мисленню.

Мережа спеціалізується на просторовому сприйнятті, плануванні дій та оцінці їх успішності. Вона демонструє значні покращення порівняно з попередньою версією та Gemini 3.0 Flash під час виконання завдань, пов’язаних з просторовим і фізичним мисленням.

Gemini Robotics-ER 1.6 може інтерпретувати дані зі складних вимірювальних пристроїв і зчитувати показники крізь оглядові вікна. Цю можливість фахівці Google DeepMind розробили спільно з Boston Dynamics для потреб промислового сектору.

«Такі можливості дозволяють автономно бачити, розуміти та реагувати на реальні виклики», — прокоментував віцепрезидент проєкту Spot у Boston Dynamics Марко да Сільва.

У тестах на виявлення загроз безпеці новинка випередила Gemini 3.0 Flash на 6% у текстових сценаріях і на 10% під час аналізу відео.

Інтеграція LLM у реальні робочі процеси вже розпочалася: Boston Dynamics інтегрувала Gemini та Gemini Robotics-ER 1.6 у власну платформу Orbit AIVI-Learning.

Gemini на macOS

Окрім того, Google випустила нативний застосунок Gemini для macOS. Він доступний за допомогою натискання Option + Space. Серед функцій — можливість поділитися вікном для швидкої передачі контексту.

Застосунок підтримує генерацію зображень за допомогою Nano Banana, створення відео з Veo та інші звичайні інструменти.

Нагадаємо, у квітні Google представила Gemma 4 — нову серію відкритих моделей ШІ для просунутих міркувань та агентних робочих процесів.

No votes yet.

Please wait...

Google презентувала Flash TTS 3.1, Robotics‑ER 1.6 і вбудований Gemini для macOS — ForkLog UA

Вдосконалена якість мовлення та керованість

Нові аудіотеги

ШІ-модель для робототехніки

Gemini на macOS

Залишити відповідьСкасувати відповідь