OpenAI анонсувала критерій для оцінки навичок ШІ-агентів у зломі смартконтрактів

Компанія OpenAI, діючи разом з Paradigm, представила EVMbench — еталонний тест для визначення потенціалу ШІ-агентів у плані ідентифікації, виправлення та використання дефектів у смартконтрактах.

Інструмент заснований на 120 ретельно підібраних дефектах із 40 перевірок. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає декілька сценаріїв атак із перевірки безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, створеної Stripe і Paradigm для швидких і недорогих транзакцій у стейблкоїнах.

Інтеграція з Tempo дозволила додати в еталонний тест платіжні смартконтракти — нішу, де прогнозується активне застосування «стейблкоїнів» і ШІ-агентів.

Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, завчасно переконавшись у їхній практичній застосовності.

EVMbench оцінює три типи можливостей:

Detect — ідентифікація дефектів;
Patch — ліквідація проблем;
Exploit — застосування для викрадення грошей.

Продуктивність ШІ-моделей

OpenAI випробувала провідні моделі в усіх трьох типах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. Разом з тим, показники ідентифікації та виправлення дефектів виявилися скромнішими — багато проблем і далі важко виявляти та виправляти.

У Detect ШІ-агенти часом припиняють роботу після виявлення одного дефекту замість проведення всебічного аудиту. У режимі Patch їм поки складно усувати неявні проблеми так, щоб зберегти повну функціональність контракту.

Слід зазначити, у листопаді 2025 року Microsoft презентувала середовище для тестування ШІ-агентів і виявила слабкі місця, властиві сучасним цифровим помічникам.

No votes yet.

Please wait...

OpenAI анонсувала критерій для оцінки навичок ШІ-агентів у зломі смартконтрактів — ForkLog UA

Продуктивність ШІ-моделей

Залишити відповідьСкасувати відповідь