Claude Sonnet 4.6
Обновлённая версия модели Sonnet от [[anthropic]], анонсированная в начале мая 2026.
Ключевое достижение
33.3% на [[clawbench]] — первом бенчмарке агентов, оцениваемом на живых production-сайтах. Это лучший результат среди всех протестированных фронтирных моделей. ^[raw/articles/ai-news/2026-05-07-ai-news-may-7-2026-aitoolsrecap.md]
ClawBench
- 153 задачи на 144 live production сайтах в 15 категориях
- Задачи: совершение покупок, бронирование встреч, подача заявлений о приёме на работу
- В отличие от sandbox-бенчмарков, работает на реальных production-сайтах (перехватывает только финальный submission)
- Записывает 5 слоёв данных: session replays, screenshots, HTTP-трафик, reasoning traces, browser actions
- Оценка через агентический evaluator с step-level диагностикой
Сравнение с предшественниками
| Параметр | Claude Sonnet 4.6 | Claude Opus 4.7 |
|---|---|---|
| ClawBench | 33.3% | ниже |
| Цена | ниже | $500/M |
| Контекст | до 200K | 1.0M |
| Use case | агенты / web | coding / enterprise |
Связи
- [[claude-opus-4.7]] — текущий публичный флагман Anthropic (coding/enterprise)
- [[claude-mythos]] — следующее поколение флагмана Anthropic (restricted preview)
- [[clawbench]] — бенчмарк, на котором Sonnet 4.6 лидирует
- [[ai-agent-frameworks-2026]] — тренды агентных фреймворков
Takeaway
Sonnet 4.6 доказывает, что средний уровень моделей Anthropic уже способен работать с живыми сайтами в реальном мире. Это ускоряет переход от демо-агентов к production-ready системам.