ClawBench

Новый бенчмарк для оценки AI-агентов на живых production-сайтах, разработанный исследователями из UBC и Vector Institute.

Почему это важно

Большинство существующих бенчмарков (WebArena, VisualWebArena) используют sandbox-окружения. ClawBench тестирует агентов на реальных сайтах, что даёт реалистичную оценку надёжности. ^[raw/articles/ai-news/2026-05-07-ai-news-may-7-2026-aitoolsrecap.md]

Масштаб

ПараметрЗначение
Задачи153
Сайты144 live production
Категории15
Примерыпокупки, бронирование, подача заявок

Безопасность оценки

  • Перехватывает только финальный submission request
  • Не влияет на реальные данные пользователей
  • Агентический evaluator с step-level диагностикой

Результаты (топ)

МодельClawBench
Claude Sonnet 4.633.3%
Другие фронтирные моделиниже

Связи

  • [[claude-sonnet-4.6]] — лидер бенчмарка
  • [[ai-agent-frameworks-2026]] — тренды агентных систем
  • [[ai-models-landscape-2026]] — рынок моделей

Takeaway

ClawBench устанавливает новый стандарт для оценки агентов: тестирование на живых сайтах вместо sandbox. Это делает бенчмарк более репрезентативным для real-world задач.