Новый бенчмарк для оценки AI-агентов на живых production-сайтах, разработанный исследователями из UBC и Vector Institute. · Почему это важно · Большинство существующих бенчмарков (WebArena,…

ClawBench

Новый бенчмарк для оценки AI-агентов на живых production-сайтах, разработанный исследователями из UBC и Vector Institute.

Почему это важно

Большинство существующих бенчмарков (WebArena, VisualWebArena) используют sandbox-окружения. ClawBench тестирует агентов на реальных сайтах, что даёт реалистичную оценку надёжности. ^[raw/articles/ai-news/2026-05-07-ai-news-may-7-2026-aitoolsrecap.md]

Масштаб

Параметр	Значение
Задачи	153
Сайты	144 live production
Категории	15
Примеры	покупки, бронирование, подача заявок

Безопасность оценки

Перехватывает только финальный submission request
Не влияет на реальные данные пользователей
Агентический evaluator с step-level диагностикой

Результаты (топ)

Модель	ClawBench
Claude Sonnet 4.6	33.3%
Другие фронтирные модели	ниже

Связи

[[claude-sonnet-4.6]] — лидер бенчмарка
[[ai-agent-frameworks-2026]] — тренды агентных систем
[[ai-models-landscape-2026]] — рынок моделей

Takeaway

ClawBench устанавливает новый стандарт для оценки агентов: тестирование на живых сайтах вместо sandbox. Это делает бенчмарк более репрезентативным для real-world задач.