Лучше GPT-4o? Представлена Llama 3.1 — крупнейшая в мире ИИ-модель с открытым кодом

Meta* показала семейство языковых моделей Llama 3.1. Флагманский вариант нейросети содержит 405 млрд параметров и во многих тестах обходит лидеров отрасли. Рассказываем о возможностях новинок. 

Llama

Рекордный датасет и сниженные цены

Для обучения использовались 16 тысяч видеокарт NVIDIA H100 в течение нескольких месяцев. Несмотря на крупные вложения в разработку, Llama 3.1 распространяется с открытым исходным кодом. Это позволяет не только запускать модели локально, но и упрощает их адаптацию под свои нужды. Правда, ресурсоёмкая Llama 405B рассчитана на применение в промышленных условиях. А для широкого круга пользователей до версии 3.1 обновили Llama 8B и 70B. Это компактные аналоги, поддерживаемые обычными компьютерами.

Все версии теперь взаимодействуют с 8 языками, включая английский, французский, немецкий, хинди, итальянский, португальский, испанский и тайский. Контекстное окно составляет 128 000 токенов. Что касается бенчмарков, в ключевых метриках заметно превосходство над прежними лидерами (Claude 3.5 Sonnet и GPT-4o) в пределах двух процентов. В тестах математики (GSM8K и MGSM) топовая Llama демонстрирует 96,8% и 91,6% точности; в ARC Challenge (научные рассуждения) — 96,9%, в Nexus (мультиязычное понимание) — 58,7%.

Llama

Во всех отношениях подросли и результаты младших моделей (Llama 8B и 70B), если сравнивать с их апрельскими версиями. Прирост достигает от 5 до 30 процентов, в зависимости от сценария. Нейронки распространяют через API разные поставщики облачных услуг. Например, Octo.ai предлагает следующие цены за миллион токенов (примерно 0,75 слова):

  • Llama 8B: вход — $0,15, выход — $0,15;

  • Llama 70B: вход — $0,9, выход — $0,9;

  • Llama 405B: вход — $3, выход — $9.

Дополнительные тесты

Ещё разработчик предоставил данные по человеческим оценкам ответов от разных ИИ. Заявлено, что при сравнении с GPT-4o результаты Llama 3.1 посчитали лучшими в 19,1% случаев, в 29,2% отдали предпочтение OpenAI, а в 51,7% запросов модели оказались равны. Есть и более точные продуктовые бенчмарки, тестирующие множество LLM в корпоративных задачах. Согласно им, самая базовая Llama 8B Instruct пока не продемонстрировала весомых улучшений (скорее всего, требуется более точная настройка для этих сценариев).

Llama

Средний вариант 70B показал заметный рывок в качестве, достигнув уровня Gemini Pro 1.5. Также удалось обойти GPT 3.5 и приблизиться к показателям Mistral Large 2. Последняя имеет 123 млрд параметров и требует больше ресурсов, так что здесь Llama отличилась хорошей эффективностью. Наконец, модификация 405B Instruct впервые превзошла уровень одной из версий GPT-4 Turbo (v3/1106) и почти догнала Claude 3 Opus. «Если учитывать размеры и чувствительность к сжатию, её будет использовать меньшее число людей, нежели 70B/8B. Значит, будет меньше тюнов и интересных решений», — отмечает эксперт, проводивший тестирование. Тем не менее среди открытых моделей это лидирующие цифры.

 

* Деятельность компании Meta Inc. и её продуктов Instagram и Facebook признана в России экстремистской

  • Вот когда нейросеть будет делать готовый проект и бизнес план тогда можно о чём то говорить, а тут просто сырые таблицы на миллиарды графов которые по итогу не особо связаны .. Просто очередной маркетинг, все понимают что нормальные модели ещё делать годами, но можно выпускать сырые каждый сезон/месяц и потом монетизировать...
    • shkolota12
      gufel,
      Я скармливал гпт4о документацию + примеры + посты с форумов и он начал нормально помогать. Да, не идеально, но намного лучше

      (отредактирован)

      • filin173
        shkolota12,
        И даже помог написать это комментарий?
        • shkolota12
          filin173,
          Нет, прошлый комментарий был написан человеком.
      • САШA
        gufel,
        Лучший gpt это тот, который ты пользуешься. На данный момент это Яндекс GPT. Я всегда удивляюсь, как Алиса поумнела и может поддержать разговор и даже запомнить в разговоре, что мою кошку зовут Миа. Ну не чудо ли? Но через 5 минут после разговора Алиса забывает запомненное в разговоре.
        • max_im_ka
          САШA,
          О спасибо тебе Александр, не представляю как я жил до этого. Пойду сына назву Яндексом
          • max_im_ka,
            Двуликий Яндекс ))
          • BurgerKinger
            САШA,
            Стоит задать "неправильный" и непрямой вопрос и товарищ Aлиca будет до последнего игнорировать факты. А когда задашь "неправильный" вопрос напрямую Aлиca уйдёт в игнор или скажет, что хочет сменить тему.

            НО!!! Ты можешь обхитрить товарища Aлиcy и поиграться словами и тогда получишь ответ на "неправильный" вопрос. Смех в том что сразу после "неправильного" ответа на такой "неправильный" вопрос - ответ удаляется, либо удаляется вообще вся история.
        • kir_997
          Интересно, дома реально провернуть такую? Чтобы она средний ответ на средний контекст хотя бы за минуту выдавала? Или никакого системника не хватит?
          • ninele7
            kir_997,
            На домашнем системнике (со 128гб оперативы) даже 70B будет минут отвечать, не говоря уже о 405B. 405B дома можно только с SSD позапускать, но даже на топовых SSD скорость будет по минуте на пару символов.
            • kir_997
              ninele7,
              Спасибо… Так это что ж там на серверах то стоит такое? И почему нам это доступно за копейки, если нагрузка настолько сумасшедшая?
              • ninele7
                kir_997,
                Ну железо стоит много, но за счет особенностей параллельной работы LLM большой объем запросов можно обрабатывать довольно эффективно, плюс многие поставщики демпингуют, чтобы собрать пользовательскую базу, рассчитывая, что в будущем железо будет дешевле. Ну и каждый отдельный пользователь далеко не все время пользуется моделью, так что цену получается оптимизировать.

                Один сервак для полноценного запуска 405B версии состоит из 16 карт Nvidia H100, у каждой по 80ГБ видеопамяти. Стоит такой примерно 600k$. Если обрабатывать на нем только один запрос, то он генерирует примерно 10-25 символов в секунду, но если эффективно планировать параллельные запросы, то можно генерировать где-то в 30 раз больше.
                • Qwerty@
                  ninele7,
                  А сколько интересно в аренду такой будет стоить сервер?
                  • ninele7
                    Qwerty@,
                    На 16 карт найти не могу, если использовать сжатую в fp8 версию, то можно на 8 картах запустить. Сервак на 8 H100 стоит около 30$ в час в различных облаках. Скорее всего, можно распределенную генерацию запустить на двух таких, тогда можно и bf16 версию запустить.
                • KrentOS
                  kir_997,
                  Это кто даёт за копейки 405B?
                  За копейки версия 8B, которая хуже ChatGPT3.5, по ощущениям. По крайней мере, по кодингу выдает такую фантастику, что лучше даже DeepSeek Coder2 юзать.

                  (отредактирован)

                  • kir_997
                    KrentOS,
                    Так с 8B вообще можно бесплатно взаимодействовать через Hugging Chat. У Hugging Face даже API есть бесплатные (скорее всего, только для личных нужд/экспериментов). Но вот с этим уже нюанс: по крайней мере через Shortcuts на iOS мне удалось получить только продолжение текста, а не чат. Хоть это и можно превратить в чат, если фантазию включить. И всё же я склоняюсь к тому, что вообще все предложения сильно занижены по цене. Вопрос не в том, как это для клиентов, а в том, как это для владельцев этих самых моделей. Часто слышу, что такие компании сейчас работают в убыток. На что они рассчитывают не берусь рассуждать.
                    • KrentOS
                      kir_997,
                      Короче, я осмотрелся, Llama-3.1-405B-T некоторые сервисы дают бесплатно. Примерно, восемь сообщений в день. И GPT-4o примерно так же.
                      Llama-3-8B-T, ~200 сообщений в день. Claude-3-Haiku, ~100 сообщений в день.

                      Предложения, понятно что по цене занижены. На что рассчитывают, это понятно. Всё как в рыбалке, "подкармливаешь рыбу, а потом приходишь с удочкой". Дают попробовать, а потом когда дорастёшь до чего-то серьезного (а где серьезно, то там водятся и деньги), то платишь за подписку.
                      Стандартная техника: "подкормка". =)

                      "Гайки закручивать" могут начать потом, когда соберут аудиторию. Говорят, некоторые уже начали.

                      (отредактирован)

                • Qwerty@
                  ninele7,
                  А 8B , получится с 16 gb оперы?
                  • ninele7
                    Qwerty@,
                    Стандартная будет свапаться на диск и тормозить. Если использовать сжатую в два раза версию, то можно. 8B модель очень сильно обучена для своего размера, поэтому она страдает от сжатия сильнее чем 70B и 405B, но попробовать все равно может быть интересно.
                    • Qwerty@
                      ninele7,
                      Заканчиваю себе 8b , посмотрю ее
                    • timur942
                      Qwerty@,
                      Модель 8b_q8 запускал на m1 с 16гб оперативы через LM Studio. Скорость ответа 7 ток/сек.
                      • Qwerty@
                        timur942,
                        Спасибо, я только пару дней как разбираюсь в этом, стало очень интересно запустить чат бот локально на своем ноуте. Понял что все они англоязычные и плохо понимают русский.
                        • timur942
                          Qwerty@,
                          На 3.1 понимание русского языка — отличное.
                        • Nick1906
                          timur942,
                          Кстати, модель хорошая, по корпусам для ПК мня нормально ответила. Странно, что ей больше 16 гигов оперы не надо, либо я не нашёл, где ей больше можно задать. Ryzen 5700x + 3070 = 14.68 / ток. с
                      • Qwerty@
                        ninele7,
                        Ладно, уже заканчиваю себе 8b
                        • Hardy62
                          ninele7, можно ж купить видюху с 24 рамы и поиграться с квантизацией. Будет конечно тупее несжатой, но все равно на неплохом уровне.
                        • Shurik8668
                          kir_997,
                          Какой ответ хочешь? 42?
                          • kir_997
                            Shurik8668,
                            Ну речь то шла про жирную модель из новости. А генераторы шизофазии я и на своём iPhone XR гоняю локально без проблем, если не считать проблемой их полную бесполезность. )
                        • Изучаю немецкий 1.5 года, последние полгода — с помощью Chat GPT. Сдал экзамен С1. Так вот, сетка допускает огромное количество ошибок. Между письменным и разговорным немецким — огромная разница, которую нейросетка просто не понимает. Плюс она почти бесполезна в узкой специфике (австрийский диалект). Gemini от Гугла ещё хуже. В общем, сеткам ещё довольно далеко до профессиональных учителей. Но тексты пишет хорошо, и в некоторых вещах довольно полезна.
                          • ferganin
                            apool, так попробуй Claude. В плане языков он получше
                            • водочник
                              ferganin,
                              Чем лучше,я не заметил(а вот нудный это да),говорят Грок лучше,но пока не получается проверить твиттер в блоке + недаром :((
                            • apool, сетям 2 года всего, а вы хотите получить всё и сразу. Может быть они бы понимали и работали, если бы на них не накладывали жёсткую цензуру.
                              • водочник
                                TaDa!,
                                Если бы психологи, негры и лгбт за слово rear drive gay не обидились на чатГПТ,то цензуры не было бы 😁
                                • Shurik8668
                                  TaDa!,
                                  Ошибка, сетям не 2 года. Их 50 лет разрабатывают. Это 2 года коммерческого релиза.
                                  • Shurik8668
                                    TaDa!,
                                    Вас не смущает что GPT именно 4? Их много лет разрабатывали и вот выпустили 4 версию. Какие 2 года.
                                • йцуйцукен
                                  Было интересно но нихрена не понятно.
                                  • Megaherz09
                                    Llama's ass какоц-то)

                                    Аналитики AliExpress СНГ составили рейтинг самых популярных смартфонов по итогам второго квартала 2024 года. В список лидеров попали как новые, так и старые модели. Например, это представленный в 2022 году POCO M5s или недавно анонсированный POCO X6 Pro 5G. Вдобавок в рейтинге есть и более дорогие аппараты.

                                     
                                    <div></div><div></div><a href='/2024/09/11/4630640/' target='_blank'><img src='https://i.4pda.ws/s/as6ywue3S4wsjFGg0z2I2iyY7kHEE0EmiXkPLY783uK3Miqm98HafRECC.jpg' title='' /></a><div ><img src='https://4pda.to/s/as6yu42hlyXjD7kQLqbvVMOGid.gif' /></div><div></div>
                                    Три года на рынке РФ — в чём секрет популярности смартфонов Infinix?
                                    85
                                    18.07.24News

                                    Смартфоны Infinix дебютировали в России в 2021-м и за три года прочно закрепились на нашем рынке. Гаджеты этой компании регулярно попадают в топы самых продаваемых устройств в РФ. Какие передовые решения вобрали в себя телефоны Infinix и что могут предложить пользователям различные линейки бренда?

                                     

                                    Компания HMD выпустила тизер с изображением ремейка знаменитого кнопочного телефона Nokia 3210. Это будет первое обновление некогда популярного мобильника через 25 лет после его анонса. Изображение модели образца 2024 года раскрыло дизайн и некоторые технические особенности будущей новинки.

                                     

                                    Ассортимент периферийных устройств компании Logitech пополнился новой беспроводной мышью G309. Новинка поддерживает подзарядку от ковриков PowerPlay, Lightspeed или работает от AA-батареек. Обойдётся устройство менее чем в $100.

                                     

                                    Издание Runet, ссылающееся на близкие к крупным российским видеохостингам источники, сообщает, что компания Google начала вводить технические меры, препятствующие массовому переносу или скачиванию роликов с YouTube. Эту информацию подтвердили разработчики видеохостинга «Платформа» и руководитель Ассоциации профессиональных пользователей соцсетей и мессенджеров Владимир Зыков.

                                     

                                    Премьера новинки состоялась в рамках ПМЭФ — компания показала автомобиль со всех сторон изнутри и снаружи. Заодно представитель бренда рассказал о характеристиках, позиционировании и философии дизайна фирменной новинки.

                                     

                                    Telegram-канал «Эксплойт» сообщил, что Google в последнее время не позволяет завершить регистрацию аккаунта, если для его подтверждения используется российский телефонный номер. Издание «Газета.ру» выяснило, с чем это может быть связано, и отыскало работающий способ регистрации.

                                     

                                    Недавно бренд POCO представил недорогой геймерский смартфон POCO F6, который сейчас можно приобрести по сниженной цене. Новинка оснащена производительным чипом серии Snapdragon 8, ярким AMOLED-эконом и двойной камерой с высоким разрешением.

                                     

                                    Несмотря на многочисленные достоинства, вроде настоящего чёрного цвета, энергоэффективности, низкого времени отклика и малой толщины, у OLED-панелей есть ряд важных недостатков, главный из которых — выгорание пикселей. Похоже, что компании LG удалось решить эту проблему.

                                     

                                    Аналитическая компания Counterpoint раскрыла рейтинг самых продаваемых смартфонов в мире за первый квартал 2024 года. Кроме того, аналитики сравнили статистику с аналогичными показателями 2023 года. По традиции iPhone снова оказался недосягаем для Android-флагманов, а в топ-10 обосновались модели только двух брендов.

                                     

                                    Ценители Fallout, подобно фанатам The Elder Scrolls, жуть как любят делать модификации. К сожалению, самым амбициозным из таких проектов почему-то не везёт — производству Fallout: London, например, ненароком помешала Bethesda Softworks. И, как выяснилось, это ещё не самый интересный подобный кейс.

                                     

                                    Выпущенный в 2012 году iPad третьего поколения, также именуемый The New iPad или iPad Retina, уже давно лишился поддержки и не способен запускать современные приложения и игры. И всё же китайские умельцы сумели найти ему полезное применение.

                                     

                                    Некоторые пользователи Windows 11 пожаловались на странную работу одной из системных служб, которая отбирает у процессора до 10% мощности без видимых причин. Официального решения у проблемы пока нет — но энтузиасты уже вычислили «виновника» и нашли способ исправления досадного бага.

                                     

                                    Для поколения геймеров, которые застали старые приставки вроде «Денди» или даже официальные устройства Nintendo, более чем знакомы картриджи с играми и проблемы, которые с ними возникали. Часто решить проблемы с подключением можно было простым обдуванием картриджа, но работало ли это на самом деле?

                                     

                                    Немецкий производитель Schwalbe представил новый стандарт для использования в насосах для накачки велосипедных шин. По крайней мере, такого утверждения придерживается компания. Конструкция получила название Clik Valve и способна увеличить поток воздуха на целых 50%.

                                     

                                    Неофициальный скрипт Windows God Mode, открывающий простой доступ ко всем настройкам ОС, получил первый апдейт с момента релиза. Он стал гораздо эффективнее и теперь работает почти без ошибок. В «заметках к патчу» разработчик рассказал о ключевых улучшениях полезного инструмента, получившего приставку Super в названии. 

                                     
                                    Лучшие смартфоны 2023 года: выбор 4PDA
                                    179
                                    13.01.24News

                                    В 2023-м ситуация на мобильном рынке была интереснее, чем в предыдущем. Конкуренция в сегменте складных моделей усилилась, а китайские бренды вступили в серьёзную борьбу за кошельки потребителей. Но одно остаётся неизменным: мы по-прежнему оцениваем в итогах только те смартфоны, которые протестировали сами.

                                     
                                    Вышла прошивка One UI 6.1.1 с новыми функциями. Какие смартфоны её получат? Популярное

                                    Компания Samsung на выставке IFA 2024, помимо новых устройств, анонсировала обновление оболочки One UI до версии 6.1.1. Апдейт, содержащий несколько полезных нововведений, начал «прилетать» на некоторые смартфоны Samsung — их список уже известен.

                                     
                                    Garmin выпустила флагманские смарт-часы Fenix 8 и «долгоиграющие» Enduro 3 Популярное

                                    Garmin показала флагманские умные часы Fenix 8 сразу в трёх модификациях, а также модель Enduro 3. Гаджеты умеют отслеживать все стандартные показатели здоровья и спортивную активность, а заодно получили несколько новых возможностей. Компания уже раскрыла все особенности и розничные цены новинок.

                                     
                                    Samsung рассказала, почему нужно «правильно» заряжать Galaxy Z Fold6 Популярное

                                    На сайте техподдержки Samsung появилась любопытная статья, посвящённая складному смартфону Galaxy Z Fold6. Компания объяснила, почему у некоторых пользователей могла отслоиться краска на корпусе флагманского гаджета. Как оказалось, они неправильно его заряжали и держали в руках в неподходящее время.

                                     

                                    Мобильное приложение «Сбербанк Онлайн» стало доступно в магазине приложений App Store. На этот раз оно получило название «Умный онлайн», и доступно для скачивания на iPhone — как минимум в течение какого-то времени.

                                     
                                    Запрет РКН на ускорение YouTube получил подтверждение Популярное

                                    По информации издания «Коммерсантъ», специалисты Главного радиочастотного центра (ГРЧЦ, входит в состав Роскомнадзора), потребовали от российских операторов прекратить использовать технологии, позволяющие увеличивать скорость доступа к видеохостингу.

                                     

                                    Помимо смартфона и планшета, OnePlus представила новую модель умных часов. Они получили производительный процессор от Qualcomm, поддержку мобильных сетей, улучшенные функции навигации и множество дополнительных функций.

                                     

                                    Вчера мы сообщали о том, что EMPRESS вернулась после более чем полугодовалого затишья. Хакерша снова взялась за любимое дело — одиозное громыхание странными заявлениями. И анонсировала культ имени себя, попутно призвав всех подписчиков забыть о взломе Denuvo.

                                     

                                    Британская компания Uswitch опубликовала интересные данные относительно того, как владельцы iPhone и смартфонов под управлением Android относятся друг к другу. Например, 16% всех пользователей верят в стереотипы об обладателях iPhone и Android-аппаратов.

                                     

                                    Китайские суперфлагманы — особая категория устройств. В Россию они обычно попадают благодаря маркетплейсам и перекупщикам, а на улице вызывают неподдельный интерес — слишком уж редки они для наших широт. В редакцию приехал OPPO Find X7 Ultra. Это топовый смартфон, который получил едва ли не самый продвинутый набор камер в мире.

                                     

                                    Три месяца назад компания Neuralink впервые в истории вживила чип 29-летнему пациенту по имени Ноланд Арбо. Спустя ровно сто дней стартап Илона Маска сообщил, что часть мозгового импланта вышла из строя. Из-за этого компании пришлось срочно обновлять программное обеспечение.

                                     
                                    Не Chrome единым. Обновился рейтинг популярности браузеров за 2024 год Популярное

                                    Вслед за рейтингом ОС компания Statcounter обновила и статистику распространённости браузеров на всех доступных платформах. Лидер по состоянию на конец августа не изменился, но его всё же слегка «подвинули» альтернативные решения других разработчиков.

                                     

                                    Как и было запланировано, в Китае состоялась презентация нового складного смартфона Honor Magic V3. Он отнял у своего предшественника звание самого тонкого устройства в своём классе. При этом аппарат стал мощнее, получил более качественные камеры и даже аккумулятор увеличенной ёмкости.

                                     

                                    На выставке Intersolar Munich 2024 компания Aiko Solar анонсировала солнечную панель, которую позиционирует как самое эффективное решение среди серийных моделей такого типа. Во время презентации производитель рассказал о КПД будущей новинки и других её характеристиках.

                                     

                                    Инсайдеры обнаружили в онлайн-магазине Amazon страницу, посвящённую предстоящему смартфону POCO F6 Pro. На ней оказались данные с характеристиками и стоимостью новинки в Европе.

                                     

                                    Судя по последним новостям, ожидать улучшения ситуации с работой YouTube в России в ближайшее время не стоит. «Яндекс» даже предлагает возможность убрать видео с этого сайта из поисковой выдачи. Кто-то ищет обходные пути и использует разные инструменты для обхода замедления, а другие, судя по всему, смирились с новыми реалиями и стали искать альтернативы. Какой путь выбрали вы? Проголосуйте и расскажите, где вы смотрите видео после начала замедления YouTube? Можно выбрать несколько ответов.

                                     

                                    Новинка под названием Casio WS-B1000 представляет собой гибрид традиционных электронных часов с ЖК-дисплеем и фитнес-трекера. Такое сочетание позволяет устройству выполнять функции современной носимой электроники, сохраняя огромную автономность. Компания уже раскрыла ключевые характеристики гаджета и объявила его цену.