Мощность + доступность. Тестируем рассуждающую модель o3-mini

OpenAI открыла пользователям доступ к модели o3-mini. Она входит в класс «рассуждающих», то есть перед ответом LLM пошагово рассматривает задачу с разных сторон. Разбираемся, на что способна новинка.

o3-mini

Спасибо за нейминг

OpenAI выпускает одну прорывную модель за другой. Сейчас у компании две ветки развития больших языковых моделей: «стандартные» GPT (самая совершенная на этот момент — GPT-4o) и «рассуждающие». Названия последних начинаются с буквы «o». 

Первой моделью в семействе стала o1-mini, затем последовали o1 и o1-pro. А теперь вышла сразу o3-mini. Но и тут не всё так просто. Под этим названием скрываются три версии. Они отличаются «усилиями», затрачиваемыми на рассуждения. Есть o3-mini-low, o3-mini-medium и самая продвинутая модификация — o3-mini-high. Всё настолько запутанно, что даже глава OpenAI Сэм Альтман признался в наличии проблемы именования разработок.

 

o3-mini

С точки зрения качества o3-mini-high примерно соответствует o1-pro, но отличается высокой эффективностью — для получения ответа нужно меньше вычислительных ресурсов и, как следствие, денег. Модель o3-mini стоит на 63% меньше, чем o1-mini за входной токен. Поэтому неудивительно, что новинка доступна даже для бесплатных пользователей.

Показатели o3-mini

OpenAI делает особую ставку в «рассуждающих» моделях на навыки в области STEM (наука, технологии, инжиниринг и математика). В пресс-релизе разработчики представили результаты ряда бенчмарков в разных сферах. 

Например, в контесте AIME 2024 старшая вариация o3 показала точность 87,3%, тогда как o1 — 83,3%. Для программирования свежая модель тоже подходит лучше: в тесте Codeforces модификация o3-mini-high набрала 2130 очков, а версия о1 — 1891. Удалось сократить и задержку до генерации первого токена: время отклика уменьшилось на 24%. 

 

o3-mini

В итоге реальные тестировщики предпочитали ответы o3-mini вместо o1-mini в 56% случаев, а ещё фиксировали снижение серьёзных ошибок на 39% в сложных вопросах.

По сравнению с такой же рассуждающей DeepSeek-R1 нейросеть от OpenAI отвечает несравнимо быстрее. К тому же в последние дни китайский сервис часто недоступен. Но есть и преимущество: R1 удобно эксплуатировать параллельно с поиском по интернету. 

Как воспользоваться o3-mini

Пользователи без подписки ChatGPT Plus или ChatGPT Pro получают урезанное количество обращений к o3-mini. У клиентов Pro-модификации ($200 в месяц) ограничений нет, а для пользователей Plus ($20 в месяц) доступно до 150 запросов в сутки.

 

o3-mini

Семейство моделей o3 работает только с текстом, поэтому обращаться к ним голосом или добавлять к запросу изображения не получится. OpenAI рекомендует для таких задач использовать o1. Выходить в интернет новинка тоже не умеет, хотя для этого представлен отдельный режим Deep Research.

Для запуска o3-mini достаточно выбрать опцию «Обоснуй» в поле ввода запроса. Правда, пока она появилась не у всех бесплатных пользователей. Стоит посмотреть и в мобильном приложении, и в веб-версии ChatGPT.

  • metalfoxxx
    Наплодили кучу нейрух)
    Реальное отличие есть толкьо между 4, 4о, о1)
    3-mini и high будто клоны o1
    • a089dcfobb
      metalfoxxx,
      В домашних условиях они просто не нужны. Достаточно даже GPT-4о в бесплатной версии. Все остальные движки больше заточены под рабочие нужды.
    • vipflash
      И какой толк от этих рассуждений? Я поигрался с этой опцией у chatGPT и у deepseek, и что-то полезности не заметил от этой функции. К тому же рассуждают они на английском языке. Кто его плохо знает, надо переводить.
      • 1Vitalik61
        vipflash,
        Deepseek на русском всё пишет
        • Piloramich
          1Vitalik61,
          Вот и причина по которой он за меньшее количество франклинов смог, ру язык богаче и сложнее инглиша :D
          • vipflash
            1Vitalik61,
            Дипсик рандомом пишет - то на русском, то на английском, будто глюк какой-то.
            • LLIyT_HuK
              vipflash,
              всё зависит от языка запроса
              • crims0n
                LLIyT_HuK,
                Не зависит. Модель рассуждает на том языке, который ей удобнее в данный момент для решения задачи. Никакой логики в этом нет и не должно быть. Может рассуждать как на языке запроса так и на английском, китайском.
                • LLIyT_HuK
                  crims0n,
                  Забавно, но делал около тысячи запросов и всегда получал на нужном языке
                  • crims0n
                    LLIyT_HuK,
                    Это ошибка выжившего:) Ответ будет на русском, а размышляет оно на том языке, на котором больше информации по вопросу. Я чаще всего задаю сложные вопросы по программированию, все они рассуждают исключительно на английском, иногда могут на русском, значительно реже.
                    • LLIyT_HuK
                      crims0n,
                      Так и я в основном с java или smali работаю) и ни разу при запросах на русском не видел ответов на другом языке
              • yura12345671
                vipflash,
                Если запускали локально, то это не DeepSeek, а Llama которую им дообучали. С веб-версией по качеству ответа не сравнима вообще.
                • vipflash
                  yura12345671,
                  Локально не запускал. Запускал в веб-версии и в приложении. И просил, чтобы писал и "размышлял" только на русском языке. В приложении он умеет размышлять на русском, но сбивается на английский, т.е. время от времени "размышляет" вперемешку на разных языках, а в веб-версии на русском вообще не умеет, сколько ни просил, там "размышления" только на английском. Либо не умеет, либо какой-то глюк, либо не пойму, почему так.

                  (отредактирован)

                  • yura12345671
                    vipflash,
                    Какой-то глюк у Вас. У меня размышляет на русском и в приложении на смартфоне, и в веб-версии
            • metalfoxxx
              vipflash,
              Редко бывает интересно наблюдать, когда что то сложное и новое. Например подключение датчика , вроде он обычный а по факту имеет двуполярное питание и прочие для тебя новые вещи. И ты смотришь как нейронка рассуждает ) но в большинстве случаев нужен только результат
              • tartarelin
                vipflash,
                Попробуй у deepseek спросить, какой толк от рассуждений
                • vipflash
                  tartarelin,
                  The server is busy. Please try again later. )))
                • 2dagoth
                  vipflash,
                  Наверное, можно поменять что-нибудь в цепочке рассуждений, для уточнения запроса и получения желаемого результата. Когда цепочки рассуждений не видно, проверять ответ сложнее

                  (отредактирован)

                • usb8.8
                  я запутался в их версиях.
                  Предпочёл бы один, но качественный.
                  DeepSeek в этом плане хорош, но он часто зависает. Если бы он не зависал, пользовался бы только им

                  (отредактирован)

                  • LLIyT_HuK
                    usb8.8,
                    зависал он вроде пока DDoSили, а сейчас после добавки проверки от cloudflare ни разу не сталкивался с зависаниями
                    • a089dcfobb
                      usb8.8,
                      Качественный это ChatGPT. Всё остальное в том числе и DeepSeek даже до его уровня не дотягивает. Он выигрывает только за счёт бесплатности и доступности.
                      • vipflash
                        a089dcfobb,
                        Согласен. До ChatGPT (если еще и подписка Plus есть) этому Дипсику как до Луны.
                        • evgeny200308
                          a089dcfobb,
                          Если вы не читали официальный документ DeepSeek R1, а вы явно этого не делали то понятия не имеете на что он способен и на что нет. DeepSeek R1 действительно не уступает как минимум ChatGPT o1, пишет прекрасный код, отвечает на безумно сложные вопросы и задачи исключительно правильно, да ещё как. А его рассуждения это отдельный вид искусства)

                          (отредактирован)

                        • usb8.8,
                          Вы знаете, поставил локально на компьютер под Windows 10,
                          Ollama + Deepseek 14b (9 Гб) (инструкции есть в интернете, очень несложно)
                          с консоли всё шустро, при том, что видеокарта всего rtx4060 на 8Гб
                          Попробовал версию 32b (20Гб) вот тут сразу заметно тормоза
                          Разницы в ответах 14b и 32b не заметил кроме времени ответа
                          Установил ещё поверх Open WebUI, чтобы не в консоли, а через веб страницу, покрасивше диалог
                          но без него, просто в консоли быстрее работает,
                          по-английски лучше понимает чем по-русски, для меня не критично
                          Проверил на общие вопросы, на специфические вопросы по программированию, базам данных,
                          в принципе как начальный шаблон использовать отлично

                          Всегда хотел такую штуку, не думал, что это будет в реальности, теперь хочу локальную версию в смартфоне
                          с возможностью обновления модели как например карты 2гис.
                          По объёму данных смартфон потянет, но вот процессор - неуверен, но видимо дело времени

                          Китайцам большое уважение!
                          Главе OpenAI тоже спасибо, за закрытие открытого эйай, и за все ограничения,
                          которые привели к созданию поистине открытой модели :)
                          • ruslan_htc_hd2
                            bx.a,
                            Тоже являюсь владельцем 4060. Локально использую набор дистиллированный llm: llama3.1 8b, deepseek coder v2 16b, deep seek r1 14b, deep seek r1 1.5b qwen fp16, ну и конечно ollama. Openwebui ,в том числе поднятый через docker хорош. Но я лично пользуюсь чаще приложением chatbox: он работает с самыми разными API, включая ollama, имеет темную тему, позволяет менять системный аромат. И главное: он есть под Андроид. В локальной сети у себя открыл порт ollama для входящих (в переменных окружения нужно поменять ollama origins на 0.0.0.0), и chatbox на смартфоне прекрасно подцепил все, он же автоматически распознает установленные llm внутри ollama и даёт их переключать. Вполне удобно. А если нужно всюду иметь доступ, то можно подумать и о белом статич ip с минисервачком: мощность в таком случае не ограничена аоз-ми смартфона, а доступ к сервачку не перекроют внезапно от зуда левой пятки Альтмана. И это полноценная частная развернутая llm, пусть и дистиллят. Хотя меня качество рассуждений и ответов на более менее сложные темы, например , формальная логика, удручают. Веб версия deepseek r1 и v3 в этом плане почти безупречна. Но есть у них все же плюсы.
                        • Digital Ray
                          да-не, это не реклама OpenAI, ага да )))
                          • Bmfic2020
                            Digital Ray,
                            какая ещё реклама, когда он в России толком не доступен? Что куришь?
                            • Digital Ray
                              Bmfic2020,
                              ага, да ))) верю сразу
                          • IgorOK22rus
                            Оценивать эффективность работы нейросетей будут преподаватели 😌☝️
                            • a089dcfobb
                              После долго тестирования пришёл к выводу что ChatGPT вне конкуренции из всех ИИ. На второе место поставлю Grok (Твиттер) (Х) он хорошо ищет новую информацию в интернете. Затем наверное Gemini и DeepSeek.
                              • vipflash
                                a089dcfobb,
                                Абсолютно согласен. ChatGPT лучший из всех ИИ. На второе место я бы сейчас поставил Qwen от Алибабы, у него много функций, мощные разные модели, он бесплатен.
                                А вот Грок и Гемини по сравнению с ними - это просо дно. Гемини может быть только хорош тем, что он может взаимодействовать со смартом и скоро полностью заменит гугл-ассистента (кто пользуется этой приблудой на смарте, тем будет полезен).
                              • KayDee
                                Насколько я за этим слежу и стараюсь 'пощупать', но я уже конкретно запутался в этих всех версиях нейросетей от openai. Но в последнее время использую DeepSeek с deepsearch и мне хватает, я бы даже сказал идеально. По крайней мере, для моих запросов и вместо Гугла так вообще. Хотел бы уточнить, в этой о3 версии на сколько урезали лимит сообщений в бесплатной версии? Кто-то проверял?
                                • nokia6600
                                  Разницы нет, как в том меме: шо то х..ня шо то х..ня)))
                                  • Shadow_Andrey
                                    У них талант на название моделей: 4o, o1, o3, o3-mini-low, o3-mini-medium, o3-mini-high.

                                    (отредактирован)

                                    • enik25
                                      Что за кликбейт???
                                      Где тестирование моделей?

                                      Менее чем через две недели после подтверждения «игровых» багов в Windows 11 компания Microsoft выпустила патч, исправляющий картинку и звук на проблемных компьютерах. Теперь их пользователи могут обновить ОС, не опасаясь BSOD и других неприятных последствий.

                                       

                                      Судя по нескольким последним патентам, Apple уже некоторое время пытается уменьшить размер «островка» iPhone, разместив датчик Face ID под поверхностью экрана. И, согласно очередному документу, компания нашла возможное решение этой проблемы.

                                       
                                      <div></div><div></div><a href='/2025/02/08/6418418/' target='_blank'><img src='https://i.4pda.ws/s/as6ywue3S4wsjFGg0z2I2iyY7kHEE0EmiXkPLY783uK3Miqm98HafRECC.jpg' title='' /></a><div ><img src='https://4pda.to/s/as6yu42hlyXjD7kQLqbvVMOGid.gif' /></div><div></div><div></div>

                                      Как известно, Nintendo всеми силами борется с пиратством. Раньше это выражалось в борьбе с эмуляторами и их разработчиками-распространителями. Теперь она решила пойти дальше.

                                       

                                      Владелец Tesla Cybertruck из Сиэтла, штат Вашингтон, Ник столкнулся с неприятной неожиданностью после того, как он прикрепил к своему электропикапу магнит. Спустя некоторое время на корпусе электрокара появились первые признаки коррозии.

                                       

                                      Вслед за релизом HyperOS 2 в Китае компания Xiaomi начала распространение фирменной прошивки, основанной на Android 15, в других регионах. Обновление улучшает производительность и пользовательский опыт владельцев совместимых гаджетов, а также добавляет новые ИИ-возможности.

                                       

                                      Технологии продолжают упрощать нашу жизнь, и новый ультразвуковой беспроводной резак Hanboost C1 — яркое тому подтверждение. Уникальный инструмент представлен в форме компактной ручки и может упростить работу дизайнерам, скульпторам, мастерам 3D-печати, любителям моделирования и много кому ещё.

                                       

                                      Свою поисковую систему OpenAI представила ещё в ноябре, но воспользоваться ей могли только подписчики тарифа ChatGPT Plus. Теперь же это ограничение осталось в прошлом: компания предоставила открытый доступ к сервису всем пользователям без дополнительных условий.

                                       

                                      Американский стартап Mecha Systems Inc показал на выставке CES 2025 карманный компьютер Mecha Comet, ориентированный на энтузиастов. Новинка с модульной конструкцией позволяет лёгким движением руки превращать портативный ПК в игровую консоль или инструмент разработчика с широким набором разъёмов.

                                       

                                      AMD поделилась свежими результатами игрового тестирования мобильного процессора Ryzen AI Max+ 395. В качестве соперника для своего чипа с производительным iGPU компания выбрала дискретную видеокарту GeForce RTX 4070 для ноутбуков — и фирменная «встройка» разгромила соперницу.

                                       

                                      До сих пор владельцы смартфонов и планшетов Galaxy могли свободно пользоваться ими без создания учётной записи Samsung, но появились намёки, что компания решила это исправить. В частности, учётная запись будет необходима для обновления некоторых стандартных приложений.

                                       

                                      За две недели до ожидаемой премьеры серии смартфонов Samsung Galaxy S25 в сети появились результаты тестирования модификации Galaxy S25 Slim в Geekbench. Карточка гаджета раскрыла модель его процессора, объём оперативной памяти и уровень производительности, который по меркам такого железа оказался вовсе не рекордным.

                                       

                                      Оверклокер под ником Der8auer протестировал накопитель Corsair MP700 ELITE с новым контроллером Phison E31T, призванным решить проблему перегрева SSD с интерфейсом PCIe 5.0. Он сравнил новинку с моделью прошлого поколения — и результат апгрейда оказался заметным.

                                       

                                      Программа для создания мультизагрузочных флеш-накопителей Ventoy обновилась до стабильной версии 1.1.00. Сборка получила несколько нововведений и избавилась от различных ошибок. 

                                       
                                      Вышла стабильная iOS 18.3. Что нового в прошивке? Популярное

                                      Компания Apple выпустила финальный билд операционной системы iOS 18.3 для всех поддерживаемых моделей iPhone. В новой версии прошивки компания расширила набор интеллектуальных функций Apple Intelligence и внесла изменения в интерфейс некоторых штатных приложений, а также исправила известные ошибки.

                                       

                                      Noctua, известная как производитель компьютерных кулеров премиум-класса, опубликовала необычную статью. В ней австрийская компания предложила использовать фирменные корпусные вентиляторы для повышения эффективности домашних систем отопления.

                                       

                                      Марсоход Curiosity обнаружил на поверхности Красной планеты скопление жёлтых кристаллов. В момент, когда ровер проезжал по груде камней, оборудование зафиксировало наличие минералов, содержащих серу, что ввело учёных в недоумение. 

                                       
                                      Почему в смартфонах больше нет выдвижных селфи-камер?
                                      270
                                      8.11.24quoren

                                      Не так давно компании продвигали интересный тренд: фронталки, спрятанные внутри корпуса. Выдвигались они только по необходимости, а на экране не было никаких вырезов. Решение казалось весьма удачным: безрамочные дисплеи без отвлекающих элементов смотрелись футуристично. Но вскоре инновация исчезла из популярных флагманов. В чём же причины?

                                       

                                      Центр мониторинга и управления сетью связи общего пользования, входящий в состав Роскомнадзора, прокомментировал недавние проблемы с доступом к ряду сайтов. В ведомстве объяснили причину случившего и дали рекомендации владельцам сайтов, как избежать проблем с доступом.

                                       

                                      Издание ABC News опубликовало «народный» рейтинг популярности PIN-кодов, которые выбирают пользователи смартфонов и различных веб-сервисов. Как оказалось, большинство из них не придают особого значения сложности этого цифрового «ключа».

                                       
                                      Мессенджер WhatsApp наконец избавился от неприятного недостатка Популярное

                                      Одной из любимых функций пользователей WhatsApp стала возможность доступа к одной учётной записи сразу с нескольких устройств. При этом сохраняется вся информация и функциональность, за исключением одного недостатка, который разработчики мессенджера наконец-то исправили.

                                       
                                      Лучшие смартфоны декабря: игровые Honor GT и realme Neo7, мощный OnePlus Ace 5 Pro и музыкальный vivo Y300
                                      23
                                      27.12.24News

                                      Хотя многие важные анонсы уже отгремели или припасены на начало следующего года, под занавес 2024-го мы не остались без новинок. Их немного, но внимания они заслуживают. Honor показала субфлагманскую 300-ю серию и недорогой игровой смартфон новой линейки GT. Конкуренцию ему составил realme Neo7. Также вышел OnePlus Ace 5 Pro, который производитель называет лучшим игровым аппаратом. А компания vivo решила сделать первый за долгое время музыкальный телефон. Рассказываем о новинках подробнее.

                                       
                                      Наконец-то у них получилось. Игроки в восторге от Atomic Heart: Enchantment Under the Sea Популярное

                                      Пару дней назад состоялся релиз Atomic Heart: Enchantment Under the Sea — и теперь можно констатировать, что дополнение очень понравилось фанатам игры. В отличие от предыдущего.

                                       

                                      Саудовская Аравия активно работает над преобразованием своей страны в высокотехнологичный туристический центр. В рамках этой инициативы правительство открыло новое метро без машинистов, получившее статус самой длинной беспилотной системы метрополитена в мире.

                                       

                                      Мужчина по фамилии Ма из восточного Китая включил в своём гараже прямую трансляцию местного шоу, чем привлёк внимание местной полиции. Дело оказалось не в методике просмотра: предприимчивый энтузиаст использовал сразу 400 смартфонов, чтобы сжульничать при розыгрыше ценных призов.

                                       

                                      Через месяц состоится релиз Kingdom Come: Deliverance II — сиквела одной из ярчайших исторических RPG последнего десятилетия. Публика морально готовится к проблемам: обычно техническая сторона подобных игр, мягко говоря, оставляет желать лучшего. Ранние превью тайтла, впрочем, намекают, что Warhorse Studios очень серьёзно отнеслась к оптимизации проекта.

                                       

                                      Команда механиков «Гараж 54» реализовала необычный проект, собрав автомобильный двигатель, в основу которого легли 16 двухтактных бензопил фирмы Hüter Technik. Всю эту конструкцию они поместили под капот старого автомобиля Lada.

                                       
                                      Galaxy AI обновился и появился на ещё нескольких гаджетах Samsung
                                      24
                                      29.10.24News

                                      Набор ИИ-функций Samsung Galaxy AI дебютировал вместе с флагманской серией смартфонов S24 и недавно обновился — вместе с выходом изящных раскладушек Z Fold6 и Flip6. 9 сентября новинкой в составе One UI 6.1.1 снабдили ещё несколько моделей компании. Разбираемся, какие это устройства и что умеет Galaxy AI после апдейта.

                                       

                                      Правительство согласно выделить 2,25 млрд рублей до 2030 года на разработку технологий 5G Advanced и 6G, пишет Forbes со ссылкой на источники. Выяснили, что известно о планах по развитию перспективных телеком-стандартов в РФ.

                                       
                                      И что ты мне сделаешь. Илон Маск признался в покупке прокачки героев Diablo IV и Path of Exile 2 Популярное

                                      Активно шумящий в соцсетях и СМИ миллиардер Илон Маск давно привлёк внимание геймеров своими игровыми достижениями. Впрочем, многие сомневались, что успехов в гейминге он добился честным трудом, и теперь Маск наконец-то раскрыл правду.

                                       

                                      Компания Microsoft завершает тестирование AI Shell — утилиты для работы с командной строкой, в которую интегрированы функции генеративного ИИ. Полезный инструмент во многом схож с ИИ-ассистентом Terminal Chat, выпущенным для Windows 11 в конце октября, но использует возможности более продвинутой оболочки PowerShell.

                                       

                                      Блогеру и автору YouTube-канала Mobile Wala Bhai удалось заполучить инженерный образец Galaxy S24 Ultra с новейшей оболочкой One UI 7.0 на базе Android 15, работу и все нововведения которой он записал на видео.

                                       

                                      Пользователи Windows 11, скачавшие недавнее обновление KB5048685, начали сообщать о заметных проблемах в работе операционной системы. На форуме Microsoft уже появился список возникающих после апдейта проблем с комментариями о способах их решения.

                                       

                                      Недавно серия Redmi Note 14 поступила на международные рынки. Старшую модель Pro+ уже опробовала пресса. У гаджета ёмкая АКБ и яркий дисплей, однако с прошивкой и камерами есть нюансы. Резюмируем впечатления обозревателей.