Gemini Omni Flash для API: відеопродакшн стає діалогом

Gemini Omni Flash для API: відеопродакшн стає діалогом 2

Для більшості підприємств створення 90-секундного навчального відео або пояснювального ролика завжди було складним завданням. Це вимагає ретельного планування, залучення внутрішньої кіностудії чи зовнішнього підрядника, зйомки, монтажу та перегляду. Зміна одного рядка тексту на екрані через юридичні вимоги змушує весь процес починатися спочатку. Витрати та тривалі терміни є причиною того, чому так багато внутрішніх відео так і не створюються.

Саме це рівняння Google прагне переписати за допомогою Gemini Omni Flash – першої моделі з нового сімейства “Omni”. Вона зараз розгортається для розробників та корпоративних клієнтів через API після дебюту для споживачів на I/O 2026. Google позиціонує амбіції цього сімейства як створення будь-чого “з будь-якого вхідного сигналу”, починаючи з відео. Але ключовою інновацією є не просто вдосконалення запитів “текст-у-відео”, а можливість редагувати готовий кліп через діалог.

Коли модель була запущена в травні, аналіз для підприємств від VentureBeat виявив головний недолік: без програмного інтерфейсу Omni був інструментом для споживачів та ентузіастів, а не для професійного виробництва. Випуск цього API змінює ситуацію. Він надає інструменти для діалогового редагування командам маркетингу та навчання, які створюють найбільше відео в організації.

Презентація: п’ятиступінчастий конвеєр зводиться до однієї розмови

До цього моменту багато команд створювали AI-відео складним шляхом, поєднуючи велику мовну модель (LLM) для сценарію, модель “текст-у-зображення”, модель “зображення-у-відео”, окремий інструмент для синхронізації губ та генератор голосу, кожен зі своїм контрактом, рахунками та шляхом передачі даних.

Аргумент Omni для бізнесу – це уніфікація: одна модель, яка приймає текст, зображення та відео та видає готовий кліп із синхронізованим аудіо.

Цей фактор простоти – перше, що слід зважити особам, які приймають рішення. Об’єднання кількох окремих інструментів в одну модель означає менше постачальників та єдине місце для моніторингу результатів та дотримання правил обробки даних. Для організації, яка уникала генеративного відео через те, що об’єднання інструментів не варте накладних витрат, рівняння змінюється.

Завдяки діалоговому редагуванню кожна інструкція будується на попередній, тому маркетолог може переосвітлити знімок продукту, змінити ракурс або одяг, не перегенеруючи все з нуля і не втрачаючи вже готові елементи. Це різниця між організацією повторної зйомки та надсиланням примітки.

Мультимодальні референси та фізичний рушій для брендових активів

Omni приймає набагато більше, ніж текстовий запит. Поряд зі словами, що описують бажаний результат, ви можете надавати кілька референсних зображень та наявних відеокліпів, і модель враховує ці специфіки у вихідному матеріалі. Надайте фотографію конкретного об’єкта, попросіть модель помістити цей об’єкт у сцену, і вона відтворить реальний колір та приблизну форму, а не створить загальний замінник. Хоча відповідність може бути не піксель в піксель, вона достатньо близька, щоб бути впізнаваною. Цей контроль на основі референсів робить функцію комерційно цікавою: фотографія продукту, логотип бренду або конкретне місце можуть бути вставлені як інгредієнт, а не описуватися в запиті з надією на результат.

Дві з чотирьох ключових переваг, виділених Google, безпосередньо стосуються корпоративної роботи. Перша – це “світова модель” (world model), розуміння системою того, як поводяться фізичні сцени. Додайте легкий дощ і калюжі до наявного кадру, і модель відтворить відображення людей та об’єктів на мокрому асфальті – той рівень фізичної послідовності, який відрізняє реальні кадри від очевидного AI-відео.

Друга – вставка тексту та логотипів. Вкажіть на сцену з великою кількістю вивісок, і ви зможете переписати ці вивіски іншою мовою, або для бренду на ваш вибір, і навіть вставити логотип компанії. Результати не завжди ідеальні: під час тестування відстеження вивісок у складних сценах не завжди було точним, а деякий текст повертався до початкової мови між кадрами. Для навчальних відео, де потрібні текстові мітки на екрані, або для реклами, де потрібно розмістити логотип у сцені, ця можливість заслуговує на пильну увагу, і є нагадуванням про те, що вихідний матеріал все ще потребує людського перегляду перед випуском.

API взаємодій та обмеження, які залишаються

Під капотом це працює на новому API взаємодій Google – державному інтерфейсі, розробленому для багатоетапних завдань, а не для відкритих чатів. Кожен крок зберігає попереднє відео та його референси, що дозволяє послідовно накопичувати зміни. Розробники можуть ланцюжкувати генерації. Вони можуть створити кліп, перетворити кота на пум-кошеня, стилізувати відео в 8-бітний ретро-стиль, а потім у стиль акварелі, і зберігати кожну версію, щоб пізніше відгалужуватися від неї.

Обмеження реальні, і їх слід враховувати при плануванні бюджету. Кліпи зараз обмежені 10 секундами, згідно з опублікованою картою моделі. Щоб створити щось довше, потрібно генерувати фрагменти та з’єднувати їх. Завантажені кадри також можна редагувати, якщо їхня тривалість не перевищує 10 секунд, і користувач має на них права. Карта моделі Google чесно визнає, що збереження послідовності під час редагування та відтворення точного тексту залишаються відкритими проблемами.

Запобіжники, водяні знаки та межа, яку Google не перетинає

Для директора з інформаційної безпеки (CISO) демонстрації мають менше значення, ніж робота з походженням даних, яка супроводжує модель. Кожен кліп Omni містить водяний знак SynthID від Google, Google розширює C2PA Content Credentials на свої генеративні інструменти, і запустила API для виявлення контенту, створеного штучним інтелектом, який позначає медіа, згенеровані як Google, так і іншими постачальниками.

Google також встановила чітку межу. Модель не прийматиме статичне фото людини плюс аудіокліп і синхронізуватиме губи для створення мови – це явний крок для обмеження діпфейків. Однак вона зможе взяти запис мови людини і перекласти її на іншу мову, що є корисним шляхом для локалізації глобального навчального контенту. Для регульованих підприємств ці обмеження та вбудоване відстеження походження даних є функціями, а не перешкодами.

VB Transform · 14–15 липня · Менло-Парк · Інференс та AI-інфраструктура

GM отримав 300% стрибок у злитих запитах (PRs), реорганізувавши під агентів. Ось що вони побудували.

Інфраструктурний трек на Transform охоплює генерацію відео в реальному часі, стеки для взаємодії машини з машиною та те, що насправді потрібно для роботи агентів у масштабах підприємства.

Дивіться повну програму →

Цифри: дешево, тільки 720p, і (попередньо) перше місце

Ціна була оголошена разом із API, і вона є конкурентною. Omni Flash коштує 0,10 долара за секунду згенерованого відео 720p, що робить десятисекундний кліп приблизно за долар. Це відповідає Veo 3.1 Fast при тій же роздільній здатності, вдвічі дешевше за Veo 3.1 Lite і на три чверті дешевше за стандартний Veo 3.1.

За секунду (USD)

Gemini Omni Flash

Veo 3.1 Lite

Veo 3.1 Fast

Veo 3.1

720p

$0.10

$0.05

$0.10

$0.40

1080p

н/д

$0.08

$0.12

$0.40

4K

н/д

н/д

$0.30

$0.60

Таблиця також розкриває недолік. Omni Flash генерує лише 720p. Немає опцій 1080p або 4K, тоді як рівні Veo масштабуються до 4K. Для внутрішнього навчання та більшості соціальних відео 720p є достатнім. Для преміальної брендової роботи, призначеної для великого екрану, це є суттєвою стелею, і тому Veo 3.1 все ще має свою нішу.

Кліпи тривають від 3 до 10 секунд при нативній роздільній здатності 720p, у ландшафтному (16:9) або портретному (9:16) форматі. Як вхідні референси модель приймає до семи зображень і до трьох відеокліпів тривалістю до трьох секунд. Вона поки що не приймає аудіо як вхідний сигнал, хоча генерує аудіо разом з відео. Вихідний формат – стандартний MP4, і кожен кліп постачається з вбудованими водяними знаками SynthID та обліковими даними C2PA.

Щодо якості, ранні сигнали сильні. У Text-to-Video Arena від LMArena, рейтингу, де люди голосують за результати змагань між моделями, Omni Flash посідав перше місце з результатом 1527.

Що це означає для бюджетів, і чого все ще бракує

З реальними цінами історія ітерацій стає конкретною. Кожна редакція в діалозі – це нова генерація, за яку ви платите, тому сесія з великою кількістю редагувань все одно накопичується, приблизно долар за кожен десятисекундний прохід у 720p. Те, що змінює стейтфул модель, – це не вартість редагування, а кількість марних спроб: оскільки контекст зберігається між кроками, ці генерації йдуть на вдосконалення варіанту, який переважно вдалий, замість того, щоб починати з чистого запиту і сподіватися, що наступна спроба буде вдалою.

Omni не самотній у цій галузі. Veo 3.1 залишається виробничим рішенням Google, коли потрібна вища роздільна здатність, а конкуренти від Bytedance, Alibaba та OpenAI також претендують на ті ж бюджети. Omni додає саму можливість редагування: здатність розглядати відео як живий документ, а не одноразовий рендер.

Як захиститися (Порада CryptoDom): Будьте обережні з підозрілими електронними листами, які містять посилання або вкладення, і завжди перевіряйте адресу відправника. Активізуйте двофакторну автентифікацію (2FA) для всіх своїх облікових записів, щоб створити додатковий рівень захисту від несанкціонованого доступу.

За даними порталу: venturebeat.com

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *