СМИ пишут, что ChatGPT становится «глупее». Так ли это?

С выходом нашумевшего исследования от специалистов Стэнфорда в сети распространилось мнение, что качество ответов ChatGPT стремительно ухудшается. Такие опасения высказывают и пользователи Reddit, приписывая изменения в поведении ИИ намеренному «нерфингу». В действительности, как заметили эксперты отрасли, выводы исследователей во многом упростили и неверно поняли. Разбираемся, что на самом деле происходит с чат-ботом.

ChatGPT

Что за исследование?

Матей Захария, Линьцзяо Чен и Джеймс Цзоу из Стэнфордского университета и Беркли решили выяснить, как изменились способности моделей GPT-3.5 и GPT-4 с марта по июнь. Для обеих версий сделали четыре теста:

  • Математика. Нейросетям давали числа и спрашивали, являются ли они простыми либо составными.

  • Программирование. Способность моделей генерировать осмысленный код.

  • Ответы на чувствительные (контроверсивные) вопросы.

  • Задачи на визуальное мышление (visual reasoning).

Стоит учитывать, что исходная база данных, на которых обучены генеративные модели, никак не дополнялась в последние месяцы. Изменились лишь настройка и коррекция поведения ИИ, которые регулярно производятся разработчиками. Цель такого «воспитания» — избежать нежелательных ответов и придать модели желаемый стиль общения, что может косвенно повлиять и на качество её работы.

ChatGPT

Выводы экспертов

Специалист в области машинного обучения и автор канала «Сиолошная» Игорь Котенков рассказал, что означают находки учёных. В первом сценарии (математике) оказалось, что GPT-4 правильно определила простой тип чисел только в 2% случаев, перестав отвечать корректно. Тогда как GPT-3.5 напротив значительно чаще выявляла вид числа верно. Что же здесь не так?

Дело в том, что все числа, предоставленные учёными, были простыми, поэтому модель всегда должна отвечать «Да». В действительности ИИ не проводил никакого анализа и просто угадывал, опираясь на свою текущую калибровку. Мартовская версия GPT-4 почти всегда называла число простым, а июньская — составным. Но поскольку второй модели давали простые числа, отсюда и больше несоответствий. По итогу результат и наличие деградации зависят исключительно от тестовых данных. А сами модели как не умели классифицировать цифры, так и не умеют, лишь делая вид, что проводят вычисления и проверяют информации. Такой способностью, напомним, они не обладают, поскольку просто генерируют текст, основываясь на тренировочных сведениях.

ChatGPT

В программировании результат также неоднозначен. Изменилось оформление — актуальные версии GPT-4 и 3.5 обрамляют Python-код в специальный декоратор (три кавычки и слово python). Если учитывать этот нюанс при запуске кода и убирать markdown, нейросети справились с задачей даже лучше предшественников. Так что в этом случае ответ написан по-другому, но явного ухудшения не наблюдается. В двух других задачах зафиксировано улучшение. GPT-4 сейчас в четыре раза реже помечает вопросы как неприемлемые, когда в этом нет необходимости, а в заданиях на Visual reasoning заметен прирост на пару процентов у обеих моделей.

Что в итоге?

Отметим, что в исследовании тестировались API-версии GPT, а не их браузерные аналоги с сайта chat.openai.com. Претензии пользователей заключались в намеренном «оглуплении» последних для сокращения расходов на вычислительные мощности. В OpenAI подобные гипотезы опровергли. Даже если такие ограничения вводились, как минимум в вышеописанной работе доказательств неудачной оптимизации обнаружено не было. Полученные результаты можно объяснить модифицированным поведением ИИ, но не ухудшением его качества.

ChatGPT

По мнению экспертов, сказались ещё два важных фактора. Во-первых, чем дольше люди эксплуатируют ChatGPT, тем больше недостатков и неточностей они начинают замечать. Кроме того, пользователи зачастую опираются на наработанный ранее опыт и промпты, которые прежде давали нужный результат. Но после очередной настройки ИИ привычные практики могут стать неактуальными. В особенности это касается приложений, созданных на основе GPT-4 API. Код, написанный под конкретный запрос, способен просто сломаться, если изменится поведение модели.

  • Art5555555
    А мы переживали.
    • Ну а вы чего хотели, он же с людьми общался ))
    • ĐàRkツ
      Это на днях писали 😏
      • sabakin
        ĐàRkツ,
        ИИ подстраивается под пользователей. Возможно об этом напишут ещё раз завтра, тупость наше новое знание.
      • 2bSouth
        сам, такой:
        "я твой слуга, я твой работник"
        а, сам такой:
        1. прикинуться "глупым"
        2. усыпить бдительность
        3. уничтожить
        • Johny56
          Дорогу осилит идущий, начало положено, подкрутят где надо
          • palpali4
            Johny56,
            так они это и делают, ограничивают ИИ для обычных людей, а у глобалисстовв будет доступ к полной версии, точнее он уже давно у них есть.
          • bioeway15932
            Люди становятся глупее, а сними и ChatGPT, бедняга😅
            • UserOnPDA
              Как по мне под игру shin megami tensei технологии ИИ бы подошло лучше для 2D версии игры, чем использовать ИИ для чего-то серьезного. Во-первых необязательно у демона понимать его речь, а ИИ влегкую может насоставлять тонну речи "под грибами"
              Во-вторых необязательно демон должен красиво выглядеть, а там есть механизм скрещивания демонов, чтобы получить другого демона (в оригинальной игре был так же и спорный дизайн некоторых демонов, особенно когда вместо головы буквально головка... Эээ... Проехали). Как итог ИИ может отрисовать скрещенную версию демона в огромных количествах разных вариаций.
              • Cronprog
                Пример
                Сколько раз не задавай одно и тоже сложное решение для ChatGPT, то в каждый раз ответ отличается.
                • Spotibest
                  Cronprog,
                  Я уже им не пользуюсь. Есть Google bard же, вот недавно скинул список актеров дубляжа и их роли, там вообще черт ногу сломит. Дал задачу - он посчитал и выписал разложив по пунктам только реальные имена актеров. Офигенная и полезная штука
                • m1cro_cat
                  Только вчера об этом писали)
                  • Brennet
                    Да так это, так. Все об этом давно уже подозревали. А вот эти запоздалые адвокатские статьи выглядят только жалкой попыткой обелить технологию, на которой делаются большие деньги. На любое опровержение всегда можно состряпать такое же опровержение. Просто берётся другой ракурс и "разъясняется", что всё на самом деле не так.
                    • mgorkin
                      Поскольку большинство людей не очень умные, то и чат обучается на получаемых от не очень умных данных.
                      Всё закономерно.
                      • боялись что вырастет скайнет, а вырос тиктокер
                        • ser12345
                          Количество индусов на том конце уменьшили ))
                          • Цена политкорректности.
                            • selparadise
                              Папе шутка про белый дутыш не зашла. Работаем братья инквизиторы
                              • Он просто научился "косить под дурачка".
                                • ixorek
                                  по моим наблюдениям оно да стало глупее, в первые дни существования бота я охреневал от качества ответов, то сейчас там "бабка на двое". Но тем не менее это все равно очень крутая штука которая иногда очень помогает.

                                  Популярный архиватор WinRAR обновился до версии 7.0 и получили несколько полезных изменений. Апдейт доступен для всех поддерживаемых платформ: Windows, Linux, Android, macOS и FreeBSD. Разработчики рассказали, что они добавили в свежую версию приложения и самого формата RAR.

                                   

                                  После выпуска первой тестовой версии Android 15 разработчик Мишаал Рахман отыскал в нём описание новой функции под названием Notification Cooldown. Она создана для того, чтобы пользователь меньше отвлекался на повторяющиеся назойливые уведомления, «прилетающие» на смартфон.

                                   
                                  <div></div><a href='/2024/04/15/9085085/' target='_blank'><img src='https://4pda.to/s/as6ywue3S4wsjFGg0z2I2iyY7kHEE0EmiXkPLY783uK3Miqm98HafRECC.jpg' title='' /></a><div ><img src='https://4pda.to/s/as6yu42hlyXjD7kQLqbvVMOGid.gif' /></div><div></div>

                                  Sony активно рекламирует PlayStation 5 не только играми, но и чудо-контроллером DualSense. Согласно свежей порции слухов, Microsoft собирается представить свой геймпад со схожими характеристиками. Он называется Sebile.

                                   

                                  Сэм Альтман, основатель и глава компании OpenAI, выпустившей чат-бота ChatGPT, необычно отозвался о своём продукте. Он сравнил его с первым мобильным телефоном, у которого была громоздкая конструкция, крошечный чёрно-белый экран и не было почти никаких функций.

                                   

                                  Рубен Крус, дизайнер и основатель модельного агентства The Clueless, разработал виртуальную подопечную, которая приносит ему тысячи евро в месяц. «Девушку» зовут Айтана, и она, по мнению дизайнера и его клиентов, лишена недостатков, свойственных живым моделям.

                                   

                                  Как правило, Microsoft неохотно признаёт проблемы с очередным патчем, и без лишнего шума исправляет их в последующих обновлениях. Но апдейт KB5034848 для Windows 11 компания проигнорировать не смогла. Он содержит серьёзные ошибки, нарушающие корректную работу ПК — и разработчики сами посоветовали пользователям не устанавливать его.

                                   

                                  Компания Google представила свой аналог сервиса Apple Find My для поиска потерянных смартфонов. Он работает без подключения к интернету, а некоторые гаджеты серии Pixel будут подавать «сигнал SOS» даже при выключенном питании. Представители компании рассказали главные подробности о новой технологии.

                                   

                                  Компания Xiaomi разместила в соцсети Weibo обновлённый график перехода фирменных смартфонов и планшетов на HyperOS. В него вошли ещё 11 гаджетов, включая модели серии Xiaomi 12S — несмотря на некоторые проблемы при адаптации прошивки.

                                   

                                  Китайские исследователи, совершенно того не планируя, создали самый маленький и плотный узел из известных человечеству. В нём всего 54 атома, и у него нет концов — такой тип узлов называют трилистник, а по форме он похож на крендель.

                                   

                                  Распродажа 11.11 — хороший повод присмотреть себе новый смартфон с продвинутыми характеристиками. Например, Xiaomi 13T с «заряженной» камерой, производительным процессором и мощной 67-ваттной зарядкой до 17 ноября можно приобрести по специальной цене.

                                   
                                  Самый мощный аппарат МРТ сделал первые снимки мозга Популярное

                                  Французская комиссия по альтернативной энергетике и атомной энергии CEA представила аппарат МРТ Iseult, способный вырабатывать магнитное поле на уровне 11,7 Тесла (Тл). Для сравнения, классические МРТ-аппараты могут генерировать от 1,5 до 3 Тл.

                                   

                                  Не секрет, что Midjourney хорошо справляется с созданием изображений людей. Но каждый последующий запрос нейросеть «рисует» с нуля, поэтому от неё сложно добиться генерации похожих образов одного персонажа. Наконец, разработчики исправили этот недочёт своего детища.

                                   

                                  Один из пользователей Reddit задался целью создания бесшумной системы охлаждения для своего ПК. Чтобы достичь желаемого результата, он использовал крайне нестандартное решение, включающее комбинацию из огромного медного бруска и двенадцати радиаторов.

                                   

                                  Инсайдер Digital Chat Station опубликовал любопытный аналитический отчёт о текущем положении дел на рынке смартфонов. Он отметил, что ещё недавно ставший рекордом объём оперативной памяти Android-смартфонов не спешит обновляться. Более того, производители гаджетов всё чаще «занижают» этот показатель — и, по мнению инсайдера, делают это осознанно.

                                   
                                  «Яндекс ТВ Станция» — что будет, если объединить ТВ и умную колонку
                                  86
                                  21.03.24News

                                  Недавно российский IT-гигант выпустил микс умной колонки и телевизора — «Яндекс ТВ Станцию». Серия состоит из базовой модели и про-версии, а размер экрана по диагонали варьируется от 43 до 65 дюймов. Рассказываем, что умеют такие системы.

                                   

                                  Несколько дней назад Гейб Ньюэлл, основатель Valve и де-факто крёстный отец PC-гейминга, вложился в стартап Starfish — компании, занимающейся разработкой нейроинтерфейсов. Новость сама по себе всколыхнула сообщество, однако многих удивил не сам анонс, а фотография Ньюэлла. 

                                   

                                  Компания Google выпустила вторую тестовую сборку Android 15 для разработчиков и рассказала, какие нововведения в ней появились. В список наиболее крупных изменений вошли расширенная поддержка спутниковой связи, функция архивирования приложений, расширенные возможности прослушивания аудио и ряд других программных оптимизаций.

                                   

                                  Компания объявила о выпуске «премиальной» версии фирменного браузера, распространяемой по модели платной подписки. Она ориентирована на корпоративное использование, и отличается от базовой сборки с приставкой Enterprise расширенным набором функций. В блоге Google появилось подробное описание приложения и данные о новом тарифе.

                                   

                                  В своё время Samsung выпустила веб-приложение Try Galaxy, которое имитирует прошивку One UI на iPhone, позволяя ознакомиться с её преимуществами. Теперь оно стало доступно и на платформе Android — компания рассказала, где его найти и как запустить.

                                   

                                  Anthropic представила семейство больших языковых моделей Claude 3. ИИ научились распознавать картинки, и во многих бенчмарках демонстрируют превосходство над лидером отрасли — GPT-4 от OpenAI. Что примечательно, при тестировании новинок вскрылись нестандартные случаи проявления «самосознания». Рассказываем подробности.

                                   

                                  Не существует безотказной техники — ломаются даже передовые видеокарты ценой за тысячу долларов. В этом убедился игрок отечественной команды Virtus Pro по Counter-Strike 2 прямо во время турнира.

                                   

                                  Компания TECNO показала на выставке MWC 2024 в Барселоне новый смартфон CAMON 30 Premier. Аппарат в первую очередь ориентирован на энтузиастов мобильной фотографии, поскольку оснащается четырьмя камерами по 50 мегапикселей.

                                   
                                  Появился список из 30 смартфонов Xiaomi, Redmi и POCO, которые прекратят обновляться в 2024-м Популярное

                                  Портал HyperOS Updates опубликовал список из более чем 30 смартфонов, которые получат в 2024 году своё последнее обновление. Модели были отобраны на основе политики поддержки, стоимости и популярности.

                                   

                                  На момент своего появления NVIDIA TITAN GTX была одной из самых мощных видеокарт на рынке. К её 11-летию журналисты PC Games Hardware взялись проверить, смог ли прогресс приблизить бюджетную видеокарту AMD Radeon RX 6400 к флагману 11-летней давности.

                                   

                                  Вскоре после презентации в Китае компания Xiaomi анонсировала глобальные версии смартфонов Xiaomi 14 и 14 Ultra. При этом у базовой модели изменилась только цена, а топовая неожиданно «потеряла» часть ёмкости аккумулятора по пути на международный рынок.

                                   
                                  Каким должен быть компактный флагман? Рассказываем про особенности Xiaomi 14
                                  128
                                  14.03.24News

                                  Компактных смартфонов на рынке мало. Это относится и к флагманским моделям, которыми обычно некомфортно управлять одной рукой. А если хочется чего-то удобного, приходится мириться с компромиссами: то камер не хватает, то зарядка медленная. Появившийся наконец на российском рынке Xiaomi 14 — совсем другой случай. Аппарат хорош буквально во всём, несмотря на небольшие размеры.

                                   
                                  Госдума отменила «интернет-рабство», Mir Pay удалили из Google Play. Главное за неделю
                                  139
                                  30.03.24News

                                  Разбираем ключевые события прошедших семи дней. В этом выпуске: свежий закон о свободном доступе провайдеров связи, выселение Mir Pay из Google Play и наглядные причины перехода на iPhone 15.

                                   

                                  В последние несколько лет всё больше геймеров жалуется на «повестку» в видеоиграх — навязываемое разработчиками расовое разнообразие, заниженные стандарты красоты женских персонажей и так далее. Оказывается, всё это результат целенаправленных усилий.