Claude Sonnet 4.6

Обновлённая версия модели Sonnet от [[anthropic]], анонсированная в начале мая 2026.

Ключевое достижение

33.3% на [[clawbench]] — первом бенчмарке агентов, оцениваемом на живых production-сайтах. Это лучший результат среди всех протестированных фронтирных моделей. ^[raw/articles/ai-news/2026-05-07-ai-news-may-7-2026-aitoolsrecap.md]

ClawBench

  • 153 задачи на 144 live production сайтах в 15 категориях
  • Задачи: совершение покупок, бронирование встреч, подача заявлений о приёме на работу
  • В отличие от sandbox-бенчмарков, работает на реальных production-сайтах (перехватывает только финальный submission)
  • Записывает 5 слоёв данных: session replays, screenshots, HTTP-трафик, reasoning traces, browser actions
  • Оценка через агентический evaluator с step-level диагностикой

Сравнение с предшественниками

ПараметрClaude Sonnet 4.6Claude Opus 4.7
ClawBench33.3%ниже
Ценаниже$500/M
Контекстдо 200K1.0M
Use caseагенты / webcoding / enterprise

Связи

  • [[claude-opus-4.7]] — текущий публичный флагман Anthropic (coding/enterprise)
  • [[claude-mythos]] — следующее поколение флагмана Anthropic (restricted preview)
  • [[clawbench]] — бенчмарк, на котором Sonnet 4.6 лидирует
  • [[ai-agent-frameworks-2026]] — тренды агентных фреймворков

Takeaway

Sonnet 4.6 доказывает, что средний уровень моделей Anthropic уже способен работать с живыми сайтами в реальном мире. Это ускоряет переход от демо-агентов к production-ready системам.