Admin
Администратор
GPT-5.3-Spark — модель, которая пишет код быстрее, чем вы успеваете моргнуть.
Он не пишет код за вас, а буквально предугадывает желания в реальном времени.
OpenAI представила модель GPT-5.3-Codex-Spark — первый вариант линейки, который изначально заточен под работу с кодом в реальном времени. Система генерирует более 1000 токенов в секунду и рассчитана не на длинные автономные цепочки действий, а на быстрый диалог с разработчиком. Модель уже доступна в формате исследовательского превью для пользователей ChatGPT Pro.
Codex-Spark построена на базе GPT-5.3-Codex, но заметно компактнее и работает с прицелом на минимальные задержки. Она запускается на специализированной вычислительной платформе, созданной вместе с компанией Cerebras. Такой режим позволяет править фрагменты программ, перестраивать логику, дорабатывать интерфейсы и сразу видеть результат, без долгого ожидания ответа. Формат рассчитан на совместное программирование, где важна не только точность, но и мгновенная реакция.
На старте модель поддерживает контекст до 128000 токенов и работает только с текстом. В период превью для нее действуют отдельные лимиты запросов, они не расходуют стандартную квоту. При высокой нагрузке возможны очереди и задержки в доступе.
Разработчики отдельно подчеркивают, что поведение системы настроено под интерактивную работу. По умолчанию она вносит точечные правки и не запускает тесты, если об этом не попросили напрямую. Такой легкий режим позволяет останавливать ответ на середине, менять задачу и быстро идти по итерациям. В тестах на инженерных наборах задач SWE-Bench Pro и Terminal-Bench 2.0 модель показала высокую точность и при этом справлялась заметно быстрее, чем GPT-5.3-Codex.
Прирост скорости связан не только с самой архитектурой, но и с изменениями в серверной части. OpenAI переработала цепочку обработки запросов от клиента до выдачи ответа. По данным компании, задержки на полный цикл запроса и ответа снизились на 80%, накладные расходы на каждый токен уменьшились на 30%, а время до появления первого токена сократилось наполовину. Для Codex-Spark по умолчанию используется постоянное соединение по WebSocket, позже его планируют включить и для других моделей.
Вычисления идут на ускорителе Cerebras Wafer Scale Engine 3 — это специализированный чип для ИИ-вычислений, рассчитанный именно на быстрый вывод результатов. За счет этого в инфраструктуре OpenAI появляется отдельный слой обслуживания с минимальной задержкой. При этом графические процессоры остаются основной базой для обучения и масштабного инференса. По замыслу разработчиков, оба типа аппаратуры можно сочетать в одной задаче, если нужно сбалансировать скорость и стоимость.
Codex-Spark обучена с теми же механизмами безопасности, что и основные модели OpenAI, включая ограничения, связанные с киберрисками. По внутренней оценке компании, система не достигает порогов высокого риска в областях кибербезопасности и биологии.
Выпуск Codex-Spark рассматривается как первый шаг к двухрежимной системе Codex, где быстрый интерактивный режим будет сочетаться с более длинным рассуждением для сложных задач. В следующих обновлениях ожидаются более крупные версии, расширенный контекст и поддержка мультимодальных входных данных.