Mistral відкриває нову еру документообігу з OCR 4

Компанія Mistral AI у вівторок представила OCR 4 – модель інтелектуальної обробки документів, яка виходить за рамки простого вилучення тексту, надаючи структуровані представлення цілих документів, включаючи їхні межі (bounding boxes), класифікацію типів блоків та показники достовірності для кожного слова. Цей реліз знаменує четверте покоління технології оптичного розпізнавання символів (OCR) від Mistral приблизно за 15 місяців і з’являється в той момент, коли позиціонування компанії щодо європейського суверенітету у сфері ШІ набуває все більшої комерційної актуальності.

Модель підтримує 170 мов у 10 мовних групах, приймає формати PDF, DOC, PPT та OpenDocument. Її можна розгорнути як єдиний контейнер в інфраструктурі самої організації – це функція, яку Mistral безпосередньо пропонує підприємствам у регульованих галузях, які не можуть надсилати конфіденційні документи через хмарні API, що підпадають під юрисдикцію США.

“Mistral OCR 4 витягує та структурує контент із широкого спектру документів”, – йдеться в оголошенні компанії. “Якщо попередні покоління фокусувалися на перетворенні сторінки на чистий текст і таблиці, то OCR 4 повертає структуроване представлення документа”.

Модель доступна негайно через API Mistral, Document AI у Mistral Studio, Amazon SageMaker та Microsoft Foundry, а підтримка Snowflake Parse Document з’явиться незабаром. Ціни стартують від 4 доларів за 1000 сторінок, знижуючись до 2 доларів за 1000 сторінок завдяки знижці за пакетну обробку через API.

OCR 4 розглядає кожен документ як семантичну карту, а не просто текст

Ключова інженерна зміна в OCR 4 – структурна. Замість виведення плаского потоку витягнутого тексту – парадигма, яка визначала OCR десятиліками – модель повертає багатошарове представлення, де кожен блок локалізовано з межами (bounding box), класифіковано за типом (заголовок, таблиця, рівняння, підпис тощо) та оцінено за рівнем достовірності як на рівні сторінки, так і на рівні слова.

Mistral стверджує, що межі (bounding boxes) були їхньою найбільш запитуваною функцією. Причина проста: без даних про місцезнаходження, подальші системи не можуть відстежити витягнутий факт до його джерела на конкретній сторінці. Цей розрив у відстежуваності був постійним каменем спотикання для підприємств, які створюють конвеєрири (pipelines) з розширеним пошуком (retrieval-augmented generation – RAG), робочі процеси відповідності нормам або будь-які застосунки, де питання “звідки взялося це число?” потребує перевіреної відповіді.

Класифікація блоків вирішує пов’язану проблему. Параграф, позначений як “заголовок”, може сегментувати документ на ієрархічні частини для семантичного пошуку. Блок, позначений як “таблиця”, може бути спрямований до конвеєра структурованих даних, а не до сумаризатора тексту. Блок, позначений як “підпис”, може ініціювати робочий процес вилучення (redaction) у системі відповідності нормам.

Ці ідеї не є новими самі по собі, але їх об’єднання як першочергових вихідних даних самої моделі OCR – замість окремого етапу аналізу макета – усуває шар інтеграції, який підприємствам історично доводилося створювати та підтримувати самостійно.

Показники достовірності слугують подвійній меті. У великих масштабах вони дозволяють організаціям програмно спрямовувати регіони з низькою достовірністю для перегляду людьми та автоматично затверджувати вилучення з високою достовірністю, створюючи так звану “людину в циклі” (human-in-the-loop) верифікацію без необхідності залучення людини для перегляду кожної сторінки кожного документа. У виробничих системах OCR рідко є кінцевою метою – це перший крок у більшому конвеєрі.

Розробники, які створюють системи RAG, агентські робочі процеси або автоматизацію документів, часто витрачають більше часу на відновлення макета та структури, ніж на саму логіку подальшого ШІ. OCR 4 покликаний усунути цей крок відновлення, і якщо він виправдає цю обіцянку, цінність полягатиме не лише в економії коштів на OCR, але й у скороченні інженерних годин у всьому конвеєрі обробки документів.

Незалежні рецензенти віддали перевагу результатам Mistral у 72% випадків, але бенчмарки дають неоднозначну картину

Mistral повідомляє, що OCR 4 досяг 72% середнього коефіцієнта виграшу в прямому порівнянні з провідними конкурентами, проведеному незалежними анотаторами на понад 600 реальних документах більш ніж 12 мовами. Модель також отримала найвищий загальний бал за OlmOCRBench (85,20) і 93,07 за OmniDocBench.

Однак компанія сама закликає до обережності в інтерпретації цих цифр. У своєму релізі Mistral зробила незвичайний крок, провівши аудит та публічно розкривши специфічні типи артефактів оцінювання, з якими вона стикнулася, включаючи помилки в еталонних анотаціях, еквівалентну LaTeX-нотацію, що оцінюється як невідповідності, припущення щодо порядку читання стовпців та проблеми з атрибуцією заголовків/колонтитулів. “Тому ми розглядаємо сукупний бал як орієнтовний, а не остаточний”, – зазначила компанія, демонструючи помітно прозору позицію постачальника, що анонсує продукт.

Ця прозорість є своєчасною. У загальнодоступному рейтингу OlmOCRBench деякі дослідники відзначили, що OCR 4 наразі посідає третє місце, поступаючись відкритим моделям, як-от Chandra OCR 2. Деякі моделі з відкритими вагами самостійно декларують вищі сукупні бали OmniDocBench – PaddleOCR-VL-1.6 заявляє 96,33 – хоча ці результати не були незалежно відтворені в публічному рейтингу.

Тим не менш, початкові відгуки від підприємств були схвальними. Ейдан Донохью, інженер зі ШІ у фінансовій компанії Rogo, зазначив, що компанія порівнювала OCR 4 з провідними агентськими парсерами документів на наборі даних фінансових запитань-відповідей, насиченому діаграмами, і “досягла еквівалентної точності приблизно у 8 разів нижче за вартістю та у 17 разів нижче за затримкою”. Іван Михайлов, інженер зі ШІ у компанії з управління інтелектуальною власністю Anaqua, заявив, що OCR 4 “приблизно в 4 рази швидший за сторінку, ніж наш попередній постачальник”.

Однак корпоративні покупці повинні проводити власні оцінки, а не покладатися на будь-які бенчмарки постачальника. Практичне питання полягає не в тому, яка модель набирає найвищий бал у рейтингу, а в тому, яка модель генерує найменше помилок для ваших конкретних документів, вашими мовами, за ціною та затримкою, що відповідають вашому робочому процесу.

Mistral відкриває нову еру документообігу з OCR 4 6

Заборона на експорт від Anthropic дала поштовх пітчу Mistral щодо суверенітету

Реліз Mistral з’являється в контексті, який важко назвати більш сприятливим для її стратегічного позиціонування.

12 червня Anthropic була змушена припинити весь доступ до своїх новітніх моделей ШІ, Fable 5 та Mythos 5, після того, як Міністерство торгівлі США використало контроль за експортом національної безпеки, щоб заборонити компанії розповсюджувати ці моделі будь-яким іноземцям. Корпоративні клієнти у фінансах, охороні здоров’я, SaaS та критичній інфраструктурі раптово втратили доступ до своїх основних інтелектуальних сервісів без попереднього повідомлення чи ефективного рішення. Станом на 24 червня обидві моделі залишаються офлайн, а прогнози ринку дають лише 57% шансів на їх відновлення до 1 липня.

Цей епізод підтвердив попередження, яке генеральний директор Mistral Артур Менш робить вже понад рік. Як повідомляв Business Insider, Менш попереджав на London Tech Week у червні 2025 року про американські компанії ШІ, які “мають ключі” до своїх моделей, називаючи це сценарієм, коли європейські компанії “надають важелі впливу своїм постачальникам”. Він додав: “В певний момент вам потрібно буде мати можливість увімкнути або вимкнути це, і ви не захочете залишати це іншій країні”.

Аргумент набув ще більшої актуальності, оскільки загальний пітч Менша щодо суверенітету посилився в останні місяці. Як повідомляв CNBC наприкінці травня, Менш сказав виданню: “Європа відстає у розбудові інфраструктури, і тому ми інвестуємо, щоб скоротити цей розрив”.

Водночас Менш виступив проти заклику Папи Римського до “роззброєння” ШІ, стверджуючи, що Європа не може дозволити собі відставати від американських технологічних гігантів. “Ми всі за мир, але якщо подивитися на наших суперників та супротивників у світі, вони використовують штучний інтелект… нам потрібні власні можливості”, – сказав Менш журналістам.

Одноконтейнерна модель розгортання OCR 4, що встановлюється самостійно, є продуктним вираженням цього аргументу. Постачальник зі штаб-квартирою в США, що пропонує зберігання даних в ЄС, означає, що документи зберігаються у Франкфурті, але підпадають під дію законів США. Mistral, зареєстрована у Франції та діюча під юрисдикцією ЄС, пропонуючи контейнеризоване розгортання на власних потужностях, означає, що документи взагалі не залишають інфраструктуру клієнта. Положення про штрафи Закону ЄС про ШІ набувають чинності 2 серпня, додаючи регуляторний тиск до розрахунків відповідності для європейських підприємств, які оцінюють постачальників Document AI.

Mistral відкриває нову еру документообігу з OCR 4 7

Безкоштовна відкрита модель OCR від Baidu з’явилася на день раніше — і контраст вражає

Реліз Mistral не з’явився ізольовано. Лише за день до запуску OCR 4, 22 червня, Baidu представила Unlimited-OCR – модель з 3 мільярдами параметрів під ліцензією MIT, яка вирішує одну з найактуальніших проблем Document AI: парсинг цілих PDF та багатосторінкових сканів за один прохід, без розбиття вхідних даних або подальшого зшивання результатів.

Модель Baidu використовує техніку під назвою Reference Sliding Window Attention (R-SWA), яка, як пояснив один з користувачів Hacker News, розділяє фокус ШІ на два шляхи: повна увага до вихідного зображення документа та обмежена пам’ять згенерованого тексту в тісному, рухомому вікні. Результатом є постійний розмір KV-кешу та здатність транскрибувати понад 40 сторінок за один прохід. Модель отримала 1800 зірок на GitHub за перші 24 години та понад 479 голосів “за” на Hacker News, де обговорення сягнуло 109 коментарів.

Ці два релізи окреслюють те, що деякі аналітики називають “розколом у Document AI” червня 2026 року: самостійно розміщуваний парсинг довгого горизонту з відкритими вагами проти керованого структурованого вилучення з корпоративними функціями.

Модель Baidu є безкоштовною за ліцензією MIT, працює на стандартному GPU-обладнанні та не має керованого API чи корпоративного SLA. Модель Mistral є комерційним продуктом з оплатою за сторінку, функціями bounding boxes, показниками достовірності, класифікацією блоків, мультиплатформним розповсюдженням та опціями самостійного розгортання для корпоративних клієнтів.

Unlimited-OCR може бути кращим інструментом для дослідницької групи, яка цифровізує скановані дисертації на одному GPU. OCR 4 розроблена для процесу корпоративних закупівель – світу SLA, угод про обробку даних та аудитів відповідності.

Окрім Baidu, до ширшого кола конкурентів OCR входять Google Document AI, Amazon Textract, Azure Document Intelligence, ABBYY Vantage та зростаюча кількість моделей з відкритими вагами.

У гілці обговорення Unlimited-OCR на Hacker News практики надали відверту оцінку стану технологій. Joss82, який працює над парсингом документів 10 років, написав прямо: “OCR досі жахливий у 2026 році”. Тим часом користувач під ніком SyneRyder повідомив про успіх з Claude для OCR сотень сторінок рукописних документів, зазначивши, що модель надала результати “без необхідності виправлень” і навіть вказала на помилку послідовності у вихідному тексті. Ці звіти від практиків підкреслюють ключову напругу на ринку: ефективність сильно варіюється залежно від конкретного типу документа, мови та якості вихідного матеріалу.

Справжня гра – це не OCR, а корпоративний стек ШІ з інтелектом документів як точкою входу

Якщо подивитися ширше, реліз OCR 4 від Mistral – це не зовсім історія про OCR. Це історія виходу на корпоративний ринок, побудована на ринку інтелектуальної обробки документів обсягом 4,4 мільярда доларів США, який, за прогнозами Grand View Research, зросте зі складною річною ставкою 33,1% до 2030 року.

Для Mistral OCR – це спосіб отримати доступ до корпоративних бюджетів на ШІ. Модель безпосередньо інтегрується з Mistral Search Toolkit, фреймворком пошуку з відкритим кодом, представленим на AI Now Summit. У цій архітектурі OCR 4 слугує шаром прийому для конвеєрів Retrieval-Augmented Generation та корпоративного пошуку, перетворюючи вихідні документи на цитований, структурно класифікований вхідний матеріал. Логіка зрозуміла: як тільки підприємство приймає OCR 4 для вилучення документів, ширший набір моделей Mistral – включаючи Medium 3.5 для міркувань та агентську платформу Vibe для виконання завдань – стає природним наступним кроком у стеку.

Mistral відкриває нову еру документообігу з OCR 4 8

Ці амбіції щодо конвеєра мають вирішальне значення для розуміння поточної траєкторії залучення коштів Mistral. Bloomberg нещодавно повідомив, що компанія веде попередні переговори щодо залучення близько 3 мільярдів євро (3,5 мільярда доларів) за оцінкою приблизно 20 мільярдів євро – майже вдвічі більше, ніж оцінка раунду Series C у вересні. На сьогодні Mistral залучила лише близько 4 мільярдів доларів, що є часткою порівняно з її найбільшими американськими конкурентами. OCR 4 та пов’язаний з ним конвеєр корпоративних доходів є частиною того, як компанія планує обґрунтувати вищу оцінку, цілячись на 1 мільярд євро доходу на 2026 рік, порівняно з 200 мільйонами євро у 2025 році, за даними Le Monde.

Mistral – це компанія з приблизно 1000 співробітників та амбіціями конкурувати з лабораторіями, які залучили в 40 разів більше капіталу. Вона не може виграти гонку озброєнь у загальних моделях проти OpenAI та Anthropic. Що вона може зробити, це побудувати диференційований корпоративний стек навколо суверенітету, структурованого інтелекту документів та агентських робочих процесів – і використовувати цей стек для захоплення європейських корпоративних бюджетів, які все більше насторожено ставляться до залежності від американських постачальників.

Структура ціноутворення підкріплює цю стратегію: за ціною 2 долари за 1000 сторінок у пакетному режимі вартість обробки архіву компанії обсягом 100 000 сторінок знижується до 200 доларів, роблячи великомасштабні проекти цифровізації економічно життєздатними, ніж це могло бути за ціноутворенням на основі токенів для мовно-зорових моделей.

Чи зможе Mistral реалізувати це бачення у великих масштабах – проти Google, Amazon, Microsoft та зростаючої екосистеми з відкритим кодом – залишається відкритим питанням. Але криза експортного контролю Anthropic ще не вирішена, європейські норми щодо суверенітету даних посилюються, а на горизонті маячить потенційний раунд фінансування на 20 мільярдів євро. Компанія проводить вебінар з виробничого використання OCR 4 7 липня о 18:00 за центральноєвропейським часом.

Два тижні тому аргумент про створення інфраструктури ШІ поза межами експортного контролю США був теоретичним. Потім уряд США натиснув на кнопку, і найсучасніші моделі Anthropic зникли для всіх неамериканців на планеті. Mistral не спричинила цю кризу – але вона провела останній рік, створюючи продукт, який робить її значущою.

Як захиститися (Порада CryptoDom): Для захисту ваших документів та даних від несанкціонованого доступу та потенційного витоку, завжди використовуйте двофакторну автентифікацію (2FA) для всіх ваших облікових записів. Це додає додатковий рівень безпеки, який значно ускладнює несанкціонований доступ, навіть якщо ваш пароль буде скомпрометовано.

Інформація підготовлена на основі матеріалів: venturebeat.com

No votes yet.

Please wait...

OCR 4 розглядає кожен документ як семантичну карту, а не просто текст

Незалежні рецензенти віддали перевагу результатам Mistral у 72% випадків, але бенчмарки дають неоднозначну картину

Заборона на експорт від Anthropic дала поштовх пітчу Mistral щодо суверенітету

Безкоштовна відкрита модель OCR від Baidu з’явилася на день раніше — і контраст вражає

Справжня гра – це не OCR, а корпоративний стек ШІ з інтелектом документів як точкою входу

Залишити відповідьСкасувати відповідь