DeepMind створила ШІ-модель для фактчекінга

DeepMind представила ШІ-модель SAFE, що перевіряє факти у відповідях LLM краще за людей.

У всіх великих мовних моделей є одна спільна проблема — правдивість згенерованої інформації. Чат-боти схильні до галюцинацій, які заважають їм правильно відповідати на запитання. Через це кожен результат необхідно перевіряти вручну, що значно збільшує час вирішення завдання.

Дослідники з DeepMind створили ШІ-модель, яка автоматично вказує на неточності. Система отримала назву Search-Augmented Factuality Evaluator (SAFE) — «Оцінювач фактів із розширеним пошуком».

Розробники створили LLM, яка спершу розділяє твердження або факти у відповіді чат-ботів. Потім вона використовує Google Search для пошуку сайтів, що верифікують твердження, і робить порівняння.

За словами дослідників, використання ШІ-моделі обійдеться у 20 разів дешевше, ніж перевірка фактів людьми. Оскільки обсяг генерованої чат-ботами інформації стрімко зростає, наявність дешевого способу верифікації буде затребуваною.

Для навчання команда використовувала нейромережу для перевірки 16 000 фактів, що містяться у відповідях 13 основних мовних моделей із чотирьох сімейств (Gemini, GPT, Claude і PaLM-2). Вони порівняли результати з висновками живих фактчекерів і виявили, що SAFE збігається з ними в 72% випадків.

Під час перевірки розбіжностей між ШІ-моделлю і людьми SAFE виявився правим у 76% випадків.

On a quick read I can’t figure out much about the human subjects, but it looks like superhuman means better than an underpaid crowd worker, rather a true human fact checker? That makes the characterization misleading. (Like saying that 1985 chess software was superhuman).…

— Gary Marcus (@GaryMarcus) March 28, 2024

За словами професора Гері Маркуса, не зовсім коректно стверджувати, що ШІ-модель справляється із завданням на «надлюдському рівні», оскільки невідомий рівень кваліфікації людей, які брали участь в експерименті.

Команда DeepMind розмістила код SAFE на GitHub.

Нагадаємо, у вересні 2023 року співзасновник компанії Мустафа Сулейман назвав інтерактивних ботів, які можуть виконувати завдання за людину, наступним етапом розвитку ШІ.

Источник

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Имя *

Email *

Оставьте свой комментарий *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Сегодня тема блокчейна – это целая идеология и…

PrimeXBT – платформа международного уровня, одна из ведущих…

Мнение: биткоин-фьючерсы угрожают всей банковской системе Подробности Опубликовано:…

“Массачусетский технологический институт (МИТ, — прим. ред.) выпустил…

PrimeXBT — криптовалютная биржа для маржинальной торговли, где…

Согласно данным CoinMarketCap стоимость криптовалюты DATAcoin находится на уровне 0,064…

Новая версия клиента Bitcoin Core, опубликованная 15-го февраля,…

Брэм Коэн (Bram Cohen), создатель знаменитого протокола файлообмена…

Разработчики Bitcoin Gold сообщили вчера в официальном блоге, что…

Еще не утихли страсти и пляски биржевых курсов…

Крупнейшая экономика Евросоюза наконец отреагировала на развивающийся во…

Майнинг на видеокартах не теряет своей актуальности, особенно…

No votes yet.

Please wait...

DeepMind створила ШІ-модель для фактчекінга — ForkLog UA

Залишити відповідьСкасувати відповідь