Вышли топовые ИИ для кодеров. Сравниваем GPT-5.3 Codex и Claude Opus 4.6
На днях OpenAI и Anthropic обновили флагманские модели для программирования. Тесты показали, что оба инструмента стали заметно лучше. Однако их особенности и преимущества на практике различаются.
Что нового в релизах
GPT-5.3 Codex позиционируется как агент для полного цикла разработки. Его фишка заключается в скорости и удобстве интеграции. Модель трудится на 25% быстрее предшественницы и оптимизирована для работы в терминале. В бенчмарке Terminal-Bench 2.0, оценивающем способность решать задачи через командную строку (git, сборка, управление файлами), Codex набрал 77,3%, решение Anthropic — 65,4%. Контекстное окно составляет 256 тысяч токенов, что эквивалентно примерно 8000 строк кода. Ещё появилась утилита для macOS — командный центр управления несколькими агентами для разных задач.
Claude Opus 4.6 от Anthropic выигрывает в контекстном окне: 1 миллион токенов (в бета-версии) позволяют загружать в память около 30 000 строк кода. То есть начало диалога в особо длинных сессиях не будет забываться. Agent Teams — мощная функция, с которой можно создать виртуальную группу разработчиков. Разные экземпляры ИИ параллельно выполняют задания (фронтенд, бэкенд, базы данных) и координируют действия между собой. В тестах на сложное рассуждение и поиск информации (MRCR v2) Opus 4.6 показал 76% точности.
Быстрый багфикс и терминал
В сценариях, требующих мгновенной реакции, лидером стал продукт OpenAI. В тесте NxCode на исправление ошибки null pointer exception в React-компоненте GPT-5.3 Codex справился за 8 секунд, предоставив прямое решение. Claude Opus 4.6 потратил 12 секунд, добавив зачастую ненужные объяснения.
Пользователь Reddit обнаружил, что Codex при анализе библиотеки на языке C проявил инициативу: он не просто прочитал код, но и самостоятельно запустил тесты, заявив, что «оценка не должна основываться только на чтении». Это помогло выявить критические проблемы с ABI и потоками, которые конкурент упустил.
Аудит безопасности и крупные репозитории
В анализе крупных проектов Claude оказалась лучше. Поиск уязвимостей в кодовой базе из 20 000 строк GPT-5.3 Codex был вынужден проводить по частям, обнаружив 12 проблем. Claude Opus 4.6, благодаря миллионному контекстному окну, проглотил проект целиком и нашел 18 уязвимостей, включая сложные баги, распределённые по разным файлам. То есть Opus полезнее в больших проектах, где необходимо понимание связей между модулями.
Реализация многомодульных функций
В создании комплексных сценариев (например, внедрение аутентификации через фронтенд, бэкенд и БД) проявилась сила архитектуры Agent Teams. GPT-5.3 Codex решал задачу последовательно, затратив на это около 45 минут. Claude Opus 4.6 распараллелил работу между тремя агентами и завершил проект за 20 минут.
Как отметил Дэн Шиппер, тестировавший модель на iOS-приложении Monologue, Opus способен «просто взять и построить» функциональность, над которой его команда трудилась два месяца. Хотя процесс всё же требует присмотра — ошибочные отчёты и непрошеные изменения возможны.
Итоги
Прямого победителя сложно определить, поскольку модели закрывают разные потребности. Если нужен быстрый, точечный исполнитель для текущих задач и плотной работы с терминалом, стоит выбрать GPT-5.3 Codex. Он дешевле в стандартных сценариях и предсказуемее в результатах, когда нужно решить одиночную проблему.
Если же в планах масштабный проект (скажем, рефакторинг огромного легаси-кода или координация сложной миграции), Claude Opus 4.6 подходит лучше. На практике многие сейчас комбинируют оба инструмента: Codex — для ежедневной рутины, Opus — для тяжёлых инженерных вызовов.