ClawBench
Новый бенчмарк для оценки AI-агентов на живых production-сайтах, разработанный исследователями из UBC и Vector Institute.
Почему это важно
Большинство существующих бенчмарков (WebArena, VisualWebArena) используют sandbox-окружения. ClawBench тестирует агентов на реальных сайтах, что даёт реалистичную оценку надёжности. ^[raw/articles/ai-news/2026-05-07-ai-news-may-7-2026-aitoolsrecap.md]
Масштаб
| Параметр | Значение |
|---|---|
| Задачи | 153 |
| Сайты | 144 live production |
| Категории | 15 |
| Примеры | покупки, бронирование, подача заявок |
Безопасность оценки
- Перехватывает только финальный submission request
- Не влияет на реальные данные пользователей
- Агентический evaluator с step-level диагностикой
Результаты (топ)
| Модель | ClawBench |
|---|---|
| Claude Sonnet 4.6 | 33.3% |
| Другие фронтирные модели | ниже |
Связи
- [[claude-sonnet-4.6]] — лидер бенчмарка
- [[ai-agent-frameworks-2026]] — тренды агентных систем
- [[ai-models-landscape-2026]] — рынок моделей
Takeaway
ClawBench устанавливает новый стандарт для оценки агентов: тестирование на живых сайтах вместо sandbox. Это делает бенчмарк более репрезентативным для real-world задач.