Лучше GPT-4o? Представлена Llama 3.1 — крупнейшая в мире ИИ-модель с открытым кодом

Meta* показала семейство языковых моделей Llama 3.1. Флагманский вариант нейросети содержит 405 млрд параметров и во многих тестах обходит лидеров отрасли. Рассказываем о возможностях новинок. 

Llama

Рекордный датасет и сниженные цены

Для обучения использовались 16 тысяч видеокарт NVIDIA H100 в течение нескольких месяцев. Несмотря на крупные вложения в разработку, Llama 3.1 распространяется с открытым исходным кодом. Это позволяет не только запускать модели локально, но и упрощает их адаптацию под свои нужды. Правда, ресурсоёмкая Llama 405B рассчитана на применение в промышленных условиях. А для широкого круга пользователей до версии 3.1 обновили Llama 8B и 70B. Это компактные аналоги, поддерживаемые обычными компьютерами.

Все версии теперь взаимодействуют с 8 языками, включая английский, французский, немецкий, хинди, итальянский, португальский, испанский и тайский. Контекстное окно составляет 128 000 токенов. Что касается бенчмарков, в ключевых метриках заметно превосходство над прежними лидерами (Claude 3.5 Sonnet и GPT-4o) в пределах двух процентов. В тестах математики (GSM8K и MGSM) топовая Llama демонстрирует 96,8% и 91,6% точности; в ARC Challenge (научные рассуждения) — 96,9%, в Nexus (мультиязычное понимание) — 58,7%.

Llama

Во всех отношениях подросли и результаты младших моделей (Llama 8B и 70B), если сравнивать с их апрельскими версиями. Прирост достигает от 5 до 30 процентов, в зависимости от сценария. Нейронки распространяют через API разные поставщики облачных услуг. Например, Octo.ai предлагает следующие цены за миллион токенов (примерно 0,75 слова):

  • Llama 8B: вход — $0,15, выход — $0,15;

  • Llama 70B: вход — $0,9, выход — $0,9;

  • Llama 405B: вход — $3, выход — $9.

Дополнительные тесты

Ещё разработчик предоставил данные по человеческим оценкам ответов от разных ИИ. Заявлено, что при сравнении с GPT-4o результаты Llama 3.1 посчитали лучшими в 19,1% случаев, в 29,2% отдали предпочтение OpenAI, а в 51,7% запросов модели оказались равны. Есть и более точные продуктовые бенчмарки, тестирующие множество LLM в корпоративных задачах. Согласно им, самая базовая Llama 8B Instruct пока не продемонстрировала весомых улучшений (скорее всего, требуется более точная настройка для этих сценариев).

Llama

Средний вариант 70B показал заметный рывок в качестве, достигнув уровня Gemini Pro 1.5. Также удалось обойти GPT 3.5 и приблизиться к показателям Mistral Large 2. Последняя имеет 123 млрд параметров и требует больше ресурсов, так что здесь Llama отличилась хорошей эффективностью. Наконец, модификация 405B Instruct впервые превзошла уровень одной из версий GPT-4 Turbo (v3/1106) и почти догнала Claude 3 Opus. «Если учитывать размеры и чувствительность к сжатию, её будет использовать меньшее число людей, нежели 70B/8B. Значит, будет меньше тюнов и интересных решений», — отмечает эксперт, проводивший тестирование. Тем не менее среди открытых моделей это лидирующие цифры.

 

* Деятельность компании Meta Inc. и её продуктов Instagram и Facebook признана в России экстремистской

  • Вот когда нейросеть будет делать готовый проект и бизнес план тогда можно о чём то говорить, а тут просто сырые таблицы на миллиарды графов которые по итогу не особо связаны .. Просто очередной маркетинг, все понимают что нормальные модели ещё делать годами, но можно выпускать сырые каждый сезон/месяц и потом монетизировать...
    • shkolota12
      gufel,
      Я скармливал гпт4о документацию + примеры + посты с форумов и он начал нормально помогать. Да, не идеально, но намного лучше

      (отредактирован)

      • filin173
        shkolota12,
        И даже помог написать это комментарий?
        • shkolota12
          filin173,
          Нет, прошлый комментарий был написан человеком.
      • САШA
        gufel,
        Лучший gpt это тот, который ты пользуешься. На данный момент это Яндекс GPT. Я всегда удивляюсь, как Алиса поумнела и может поддержать разговор и даже запомнить в разговоре, что мою кошку зовут Миа. Ну не чудо ли? Но через 5 минут после разговора Алиса забывает запомненное в разговоре.
        • max_im_ka
          САШA,
          О спасибо тебе Александр, не представляю как я жил до этого. Пойду сына назву Яндексом
          • max_im_ka,
            Двуликий Яндекс ))
          • BurgerKinger
            САШA,
            Стоит задать "неправильный" и непрямой вопрос и товарищ Aлиca будет до последнего игнорировать факты. А когда задашь "неправильный" вопрос напрямую Aлиca уйдёт в игнор или скажет, что хочет сменить тему.

            НО!!! Ты можешь обхитрить товарища Aлиcy и поиграться словами и тогда получишь ответ на "неправильный" вопрос. Смех в том что сразу после "неправильного" ответа на такой "неправильный" вопрос - ответ удаляется, либо удаляется вообще вся история.
        • Интересно, дома реально провернуть такую? Чтобы она средний ответ на средний контекст хотя бы за минуту выдавала? Или никакого системника не хватит?
          • ninele7
            kir_997,
            На домашнем системнике (со 128гб оперативы) даже 70B будет минут отвечать, не говоря уже о 405B. 405B дома можно только с SSD позапускать, но даже на топовых SSD скорость будет по минуте на пару символов.
            • ninele7,
              Спасибо… Так это что ж там на серверах то стоит такое? И почему нам это доступно за копейки, если нагрузка настолько сумасшедшая?
              • ninele7
                kir_997,
                Ну железо стоит много, но за счет особенностей параллельной работы LLM большой объем запросов можно обрабатывать довольно эффективно, плюс многие поставщики демпингуют, чтобы собрать пользовательскую базу, рассчитывая, что в будущем железо будет дешевле. Ну и каждый отдельный пользователь далеко не все время пользуется моделью, так что цену получается оптимизировать.

                Один сервак для полноценного запуска 405B версии состоит из 16 карт Nvidia H100, у каждой по 80ГБ видеопамяти. Стоит такой примерно 600k$. Если обрабатывать на нем только один запрос, то он генерирует примерно 10-25 символов в секунду, но если эффективно планировать параллельные запросы, то можно генерировать где-то в 30 раз больше.
                • Qwerty@
                  ninele7,
                  А сколько интересно в аренду такой будет стоить сервер?
                  • ninele7
                    Qwerty@,
                    На 16 карт найти не могу, если использовать сжатую в fp8 версию, то можно на 8 картах запустить. Сервак на 8 H100 стоит около 30$ в час в различных облаках. Скорее всего, можно распределенную генерацию запустить на двух таких, тогда можно и bf16 версию запустить.
                • KrentOS
                  kir_997,
                  Это кто даёт за копейки 405B?
                  За копейки версия 8B, которая хуже ChatGPT3.5, по ощущениям. По крайней мере, по кодингу выдает такую фантастику, что лучше даже DeepSeek Coder2 юзать.

                  (отредактирован)

                  • KrentOS,
                    Так с 8B вообще можно бесплатно взаимодействовать через Hugging Chat. У Hugging Face даже API есть бесплатные (скорее всего, только для личных нужд/экспериментов). Но вот с этим уже нюанс: по крайней мере через Shortcuts на iOS мне удалось получить только продолжение текста, а не чат. Хоть это и можно превратить в чат, если фантазию включить. И всё же я склоняюсь к тому, что вообще все предложения сильно занижены по цене. Вопрос не в том, как это для клиентов, а в том, как это для владельцев этих самых моделей. Часто слышу, что такие компании сейчас работают в убыток. На что они рассчитывают не берусь рассуждать.
                    • KrentOS
                      kir_997,
                      Короче, я осмотрелся, Llama-3.1-405B-T некоторые сервисы дают бесплатно. Примерно, восемь сообщений в день. И GPT-4o примерно так же.
                      Llama-3-8B-T, ~200 сообщений в день. Claude-3-Haiku, ~100 сообщений в день.

                      Предложения, понятно что по цене занижены. На что рассчитывают, это понятно. Всё как в рыбалке, "подкармливаешь рыбу, а потом приходишь с удочкой". Дают попробовать, а потом когда дорастёшь до чего-то серьезного (а где серьезно, то там водятся и деньги), то платишь за подписку.
                      Стандартная техника: "подкормка". =)

                      "Гайки закручивать" могут начать потом, когда соберут аудиторию. Говорят, некоторые уже начали.

                      (отредактирован)

                • Qwerty@
                  ninele7,
                  А 8B , получится с 16 gb оперы?
                  • ninele7
                    Qwerty@,
                    Стандартная будет свапаться на диск и тормозить. Если использовать сжатую в два раза версию, то можно. 8B модель очень сильно обучена для своего размера, поэтому она страдает от сжатия сильнее чем 70B и 405B, но попробовать все равно может быть интересно.
                    • Qwerty@
                      ninele7,
                      Заканчиваю себе 8b , посмотрю ее
                    • timur942
                      Qwerty@,
                      Модель 8b_q8 запускал на m1 с 16гб оперативы через LM Studio. Скорость ответа 7 ток/сек.
                      • Qwerty@
                        timur942,
                        Спасибо, я только пару дней как разбираюсь в этом, стало очень интересно запустить чат бот локально на своем ноуте. Понял что все они англоязычные и плохо понимают русский.
                        • timur942
                          Qwerty@,
                          На 3.1 понимание русского языка — отличное.
                        • Nick1906
                          timur942,
                          Кстати, модель хорошая, по корпусам для ПК мня нормально ответила. Странно, что ей больше 16 гигов оперы не надо, либо я не нашёл, где ей больше можно задать. Ryzen 5700x + 3070 = 14.68 / ток. с
                      • Qwerty@
                        ninele7,
                        Ладно, уже заканчиваю себе 8b
                        • Hardy62
                          ninele7, можно ж купить видюху с 24 рамы и поиграться с квантизацией. Будет конечно тупее несжатой, но все равно на неплохом уровне.
                        • Shurik8668
                          kir_997,
                          Какой ответ хочешь? 42?
                          • Shurik8668,
                            Ну речь то шла про жирную модель из новости. А генераторы шизофазии я и на своём iPhone XR гоняю локально без проблем, если не считать проблемой их полную бесполезность. )
                        • Изучаю немецкий 1.5 года, последние полгода — с помощью Chat GPT. Сдал экзамен С1. Так вот, сетка допускает огромное количество ошибок. Между письменным и разговорным немецким — огромная разница, которую нейросетка просто не понимает. Плюс она почти бесполезна в узкой специфике (австрийский диалект). Gemini от Гугла ещё хуже. В общем, сеткам ещё довольно далеко до профессиональных учителей. Но тексты пишет хорошо, и в некоторых вещах довольно полезна.
                          • ferganin
                            apool, так попробуй Claude. В плане языков он получше
                            • водочник
                              ferganin,
                              Чем лучше,я не заметил(а вот нудный это да),говорят Грок лучше,но пока не получается проверить твиттер в блоке + недаром :((
                            • apool, сетям 2 года всего, а вы хотите получить всё и сразу. Может быть они бы понимали и работали, если бы на них не накладывали жёсткую цензуру.
                              • водочник
                                TaDa!,
                                Если бы психологи, негры и лгбт за слово rear drive gay не обидились на чатГПТ,то цензуры не было бы 😁
                                • Shurik8668
                                  TaDa!,
                                  Ошибка, сетям не 2 года. Их 50 лет разрабатывают. Это 2 года коммерческого релиза.
                                  • Shurik8668
                                    TaDa!,
                                    Вас не смущает что GPT именно 4? Их много лет разрабатывали и вот выпустили 4 версию. Какие 2 года.
                                • йцуйцукен
                                  Было интересно но нихрена не понятно.
                                  • Megaherz09
                                    Llama's ass какоц-то)

                                    Компания объявила о выпуске «премиальной» версии фирменного браузера, распространяемой по модели платной подписки. Она ориентирована на корпоративное использование, и отличается от базовой сборки с приставкой Enterprise расширенным набором функций. В блоге Google появилось подробное описание приложения и данные о новом тарифе.

                                     
                                    Не прошло и пяти лет: Google представила Pixel 9 Pro XL
                                    183
                                    13.08.24jnikj

                                    Помимо базового Pixel 9, Google показала продвинутые Pixel 9 Pro и 9 Pro XL, которые традиционно получили все самые лучшие наработки компании. И впервые с 2019 года в модельном ряду снова появилась XL-версия.

                                     
                                    <div></div><div></div><a href='/2024/10/06/3741751/' target='_blank'><img src='https://i.4pda.ws/s/as6ywue3S4wsjFGg0z2I2iyY7kHEE0EmiXkPLY783uK3Miqm98HafRECC.jpg' title='' /></a><div ><img src='https://4pda.to/s/as6yu42hlyXjD7kQLqbvVMOGid.gif' /></div><div></div><div></div>

                                    В социальных сетях и на форуме появилось множество сообщений, что свежее обновление прошивки для старых флагманов линеек Galaxy S10 и Galaxy Note10 привело к их поломке. После установки апдейта пользоваться устройствами становится попросту невозможно.

                                     

                                    Речь не о полноценной операционной системе, а одноимённом приложении. С 20 сентября программа Windows доступна на разных платформах. Она служит для удалённого управления компьютером со смартфона, планшета или другого ПК.

                                     

                                    Несмотря на многочисленные достоинства, вроде настоящего чёрного цвета, энергоэффективности, низкого времени отклика и малой толщины, у OLED-панелей есть ряд важных недостатков, главный из которых — выгорание пикселей. Похоже, что компании LG удалось решить эту проблему.

                                     

                                    Кастомная прошивка LineageOS 21 вышла для нескольких новых, но устаревших смартфонов. В список попали гаджеты от LG, realme, Xiaomi и Motorola, и в некоторых случаях устройства уже давно не видели новых версий ОС.

                                     

                                    Пользователь под ником ObamaCare опубликовал в сети самую большую из когда-либо существовавших базу паролей. Он собрал порядка 10 миллиардов секретных комбинаций. С учётом того, что на счету этого человека уже есть несколько подтвердившихся утечек, отнестись к новой стоит со всей серьёзностью.

                                     

                                    Компания realme объявила о начале продаж смартфонов серии realme 13 Pro. Новинки получили продвинутые возможности фотосъёмки благодаря ИИ-функциям, ёмкий АКБ и защиту от воды и пыли класса IP65.

                                     

                                    Microsoft выпустила обновление KB5040442 для Windows 11 версий 23H2 и 22H2. В его состав по традиции вошло несколько новых возможностей, также были исправлены ошибки и добавлены некоторые подсказки и рекомендации, в том числе и для Microsoft Game Pass.

                                     

                                    Согласно отчёту исследовательской фирмы Mediascope, TikTok утратил звание самого популярного сервиса вертикальных видео среди российских пользователей. В июне этого года первенство перешло к «VK Клипам», запущенным четырьмя годами ранее.

                                     

                                    Представители Сбербанка рассказали об обновлённой схеме, которой пользуются злоумышленники для оформления займов в микрофинансовых организациях. Теперь в ход идут мессенджеры и портал «Госуслуги».

                                     

                                    Электронные симки иностранных провайдеров пользуются спросом среди россиян. Об этом сообщает пресс-служба Wildberries и Russ. С января по август реализация таких решений подскочила на 770%, если сравнивать с 2023-м. Эксперты рассказали, чем вызван столь стремительный рост.

                                     

                                    Стартап Black Forest Labs, где трудятся люди, стоявшие у истоков генератора изображений Stable Diffusion, представил новую нейросеть с открытым исходным кодом FLUX. Авторы уверяют, что их сервис превосходит Midjourney и DALL-E по качеству получаемых картинок.

                                     
                                    Минцифры советует забэкапить данные Google-аккаунтов. Как это сделать? Популярное

                                    Минцифры рекомендует россиянам сделать резервную копию учётных записей Google. Рекомендация появилась на фоне проблем с получением SMS при создании аккаунта на номера РФ. Есть риск, что вскоре мы лишимся и подтверждения входа. Рассказываем, как подготовиться. 

                                     

                                    По информации издания Forbes, российские сотовые операторы продолжают отключать сети третьего поколения (3G). Связано это с низким спросом на данную технологию, поскольку большинство активных смартфонов в стране уже поддерживают 4G. В перспективе это позволит заметно повысить скорость мобильного интернета.

                                     
                                    В РФ появился новый вирус-троян, имитирующий пуш-уведомления от банков Популярное

                                    Издание «Известия» рассказало о новой комбинированной мошеннической схеме в РФ. При помощи поддельных пуш-уведомлений от банков хакеры могут похитить денежные средства пользователей.

                                     

                                    В сети разгораются споры о новом лицензионном соглашении Adobe: согласно ему, весь контент художников в Photoshop, 3D-моделлеров в Substance 3D и других профессионалов обретает второго хозяина в виде Adobe.

                                     
                                    Hamster Kombat начислил монеты «тапальщикам». Но их это не обрадовало Популярное

                                    Команда нашумевшего Telegram-кликера Hamster Kombat наконец раскрыла, сколько токенов HMSTR получили пользователи за свой «труд». Те, кто надеялся на лёгкий заработок, оказались разочарованы: многие не получат вообще ничего.

                                     

                                    Двадцать лет назад будущее игровой индустрии представлялось не таким, но в 2024 году одним из самых популярных релизов Steam за всю историю стала игра про банан. Разработчики уверяют: их проект не скам, а буквально чит-код на деньги.

                                     

                                    На днях глобальную версию складного флагмана Honor опробовали журналисты. Magic V3 — самый компактный смартфон в своём классе. Также в новинке улучшили камеры, а экран обзавёлся интересной технологией, сохраняющей здоровье глаз. Приводим отзывы СМИ и результаты тестов устройства.

                                     

                                    ПАО «МТС» и «Яндекс» запустили новую функцию для владельцев умных колонок «Яндекс Станция». Теперь абоненты МТС могут совершать обычные телефонные звонки с помощью умной колонки, а также принимать на неё вызовы, поступающие на смартфон.

                                     

                                    Ещё не анонсированный процессор Intel Core Ultra 5 245K (Arrow Lake) отметился в базе данных Geekbench. Судя по результатам тестирования, он без труда «расправился» не только со своим предшественником, но и с сопоставимыми по классу решениями конкурента на базе новой микроархитектуры AMD Zen 5.

                                     

                                    Droidian — это дистрибутив на базе Debian, «заточенный» под смартфоны. Недавно вышла 99-я номерная версия нестандартной ОС с несколькими новыми функциями. Её создатели рассказали о ключевых нововведениях и обновили список поддерживаемых мобильных устройств.

                                     
                                    Обзор Amazfit T-Rex 3: когда вы уже разрядитесь? Популярное
                                    90
                                    1.10.24News

                                    В мире носимой электроники устройства негласно разделены на две категории: большие фитнес-трекеры, работающие долго, и «настоящие часы», которые живут от батарейки буквально пару дней. Особняком стоит продукция Amazfit, одинаково далёкая от обеих крайностей. Сегодня тестируем защищённые и долгоиграющие T-Rex 3.

                                     

                                    Аналитики AliExpress СНГ составили рейтинг самых популярных смартфонов по итогам второго квартала 2024 года. В список лидеров попали как новые, так и старые модели. Например, это представленный в 2022 году POCO M5s или недавно анонсированный POCO X6 Pro 5G. Вдобавок в рейтинге есть и более дорогие аппараты.

                                     

                                    Вечером 9 сентября пользователи столкнулись с невозможностью регистрации нового аккаунта Google при использовании российского номера телефона. Похоже, это всё же был технический сбой — проблема уже решена.

                                     

                                    Специалисты портала Android Authority обнаружили, что Google внедрила в операционную систему Android механизм проверки легальности приложений и игр. С его помощью разработчики смогут узнать, была ли программа загружена на устройство в обход магазина приложений Google Play.

                                     

                                    Сегодня у нас на тесте — Samsung Galaxy Watch7. Часы прошлого поколения пользовались спросом заслуженно, если учесть их железо, софт и автономность. Казалось, лучше просто некуда. Но производитель решил иначе. Выясняем, что удалось прокачать в актуальной модели и надо ли спешить за ней в магазин.

                                     

                                    В бете предстоящего крупного обновления HyperOS было обнаружено изменение, которое может разочаровать давних фанатов смартфонов китайской компании. Оказалось, что Xiaomi удалила из системы уникальную функцию, которая была доступна на протяжение последних 10 лет.

                                     
                                    В Израиле вырастили вымерший вид дерева из 1000-летнего семени Популярное

                                    Группа учёных, включающих экспертов в области ботаники, агрономии и истории, успешно вырастила взрослое дерево из древнего семени, найденного в одной из пещер Израиля. Это единственный экземпляр, оставшийся на земле, а впервые оно упоминалось в Библии.

                                     

                                    Два года назад жизнь PC-геймеров из России и Беларуси заметно усложнилась: они больше не могут свободно покупать видеоигры через Steam. Часть издательств ушла из страны, оплата картами больше не работает — словом, жителям РФ и РБ пришлось искать обходные пути. И с каждым месяцем таких становится всё больше.

                                     

                                    Власти Саудовской Аравии рассматривают возможность проведения Чемпионата мира по футболу в 2034 году. Если страну утвердят, на её территории будет возведён новый футуристичный стадион. Постройка станет частью амбициозного проекта — зеркального города The Line, расположенного в пустыне.

                                     

                                    Как сообщает издание The Wall Street Journal, ссылаясь на источник внутри Google, компания потратила почти 3 миллиарда долларов, чтобы вернуть бывшего сотрудника Ноама Шазира, который специализируется на разработках в области искусственного интеллекта.

                                     

                                    Компания Microsoft представила новую версию знаменитого пакета Office. Как и его предшественники, набор приложений не требует оформления подписки и может полноценно работать без подключения компьютера к сети, но ценой такой «свободы» стало отсутствие современных ИИ-функций.