
Компанія OpenAI, діючи разом з Paradigm, представила EVMbench — еталонний тест для визначення потенціалу ШІ-агентів у плані ідентифікації, виправлення та використання дефектів у смартконтрактах.
Інструмент заснований на 120 ретельно підібраних дефектах із 40 перевірок. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає декілька сценаріїв атак із перевірки безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, створеної Stripe і Paradigm для швидких і недорогих транзакцій у стейблкоїнах.
Інтеграція з Tempo дозволила додати в еталонний тест платіжні смартконтракти — нішу, де прогнозується активне застосування «стейблкоїнів» і ШІ-агентів.
Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, завчасно переконавшись у їхній практичній застосовності.
EVMbench оцінює три типи можливостей:
- Detect — ідентифікація дефектів;
- Patch — ліквідація проблем;
- Exploit — застосування для викрадення грошей.
Продуктивність ШІ-моделей
OpenAI випробувала провідні моделі в усіх трьох типах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. Разом з тим, показники ідентифікації та виправлення дефектів виявилися скромнішими — багато проблем і далі важко виявляти та виправляти.
У Detect ШІ-агенти часом припиняють роботу після виявлення одного дефекту замість проведення всебічного аудиту. У режимі Patch їм поки складно усувати неявні проблеми так, щоб зберегти повну функціональність контракту.
Слід зазначити, у листопаді 2025 року Microsoft презентувала середовище для тестування ШІ-агентів і виявила слабкі місця, властиві сучасним цифровим помічникам.
