OpenAI анонсувала критерій для оцінки навичок ШІ-агентів у зломі смартконтрактів — ForkLog UA

Компанія OpenAI, діючи разом з Paradigm, представила EVMbench — еталонний тест для визначення потенціалу ШІ-агентів у плані ідентифікації, виправлення та використання дефектів у смартконтрактах.

Інструмент заснований на 120 ретельно підібраних дефектах із 40 перевірок. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає декілька сценаріїв атак із перевірки безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, створеної Stripe і Paradigm для швидких і недорогих транзакцій у стейблкоїнах.

Інтеграція з Tempo дозволила додати в еталонний тест платіжні смартконтракти — нішу, де прогнозується активне застосування «стейблкоїнів» і ШІ-агентів.

Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, завчасно переконавшись у їхній практичній застосовності.

EVMbench оцінює три типи можливостей:

  • Detect — ідентифікація дефектів;
  • Patch — ліквідація проблем;
  • Exploit — застосування для викрадення грошей.

Продуктивність ШІ-моделей

OpenAI випробувала провідні моделі в усіх трьох типах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. Разом з тим, показники ідентифікації та виправлення дефектів виявилися скромнішими — багато проблем і далі важко виявляти та виправляти.

У Detect ШІ-агенти часом припиняють роботу після виявлення одного дефекту замість проведення всебічного аудиту. У режимі Patch їм поки складно усувати неявні проблеми так, щоб зберегти повну функціональність контракту.

Слід зазначити, у листопаді 2025 року Microsoft презентувала середовище для тестування ШІ-агентів і виявила слабкі місця, властиві сучасним цифровим помічникам.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *