В России появилась собственная платформа для оценки генеративного ИИ

В России появилась собственная платформа для оценки генеративного ИИ

Российские разработчики создали первую независимую русскоязычную платформу для оценки качества больших языковых моделей (LLM) на основе пользовательских задач. Сервис получил название LLM Arena, а за его созданием стоят выходцы из компании TrainingData, работающей в сфере нейросетевых технологий.

LLM ArenaПример работы платформы

По заявлению разработчиков, платформа в режиме реального времени позволяет тестировать русскоязычные нейросети и оценивать качество их ответов на запросы. Для этого пользователю даётся доступ к двум случайным ИИ-моделям, которым он может задать любой вопрос, а затем сравнить ответы и выбрать наиболее, по его мнению, точный. Если ответы нерелевантные или очень похожи, это также можно указать в форме обратной связи.

На основе полученных оценок формируется рейтинг генеративных нейросетей на русском языке. Сейчас на платформе доступна 21 наиболее популярная нейросеть, включая как иностранные (ChatGPT, LLaMa), так и российские (YandexGPT, GigaChat). Со временем список будет расширяться.

В ближайшее время на LLM Arena появятся новые возможности, которые позволят оценивать качество ответов по разным категориям запросов: например, написание кода, решение сложных вопросов или поддержка длинного контекста беседы. В перспективе можно будет сравнивать ответы нейросетей и по мультимодальным задачам.

«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Даже несмотря на то, что в мире появляется всё больше бенчмарков, позволяющих сравнивать модели, протестировать российские LLM на родном языке на реальных пользовательских задачах очень сложно. Поэтому нам и пришла в голову идея создать собственную платформу, чтобы пользователи могли сами сравнивать российские и иностранные генеративные нейросети и делать собственные выводы», — отмечает основатель LLM Arena Роман Куцев, бывший СТО TrainingData.ru.

Источник: 4pda.to


  • tipokkk
    Если можно выпить с ии то норм
    • Dima I
      tipokkk,
      ИИ, Ты меня уважаешь? 😅
      • Qwerty@
        Dima I,
        Очень опасно 😂 я сам не заметил как провел часы в исследовании и общении с ИИ
    • ildarado50
      Помню, на каком-то российском ИИ сделали запрос: нарисуй наш символ. Там вышел американский орлан🤣
      • Q1W22
        Мммм и чем не нравится arena.lmsys?
        • headofdeadmare
          копирка arena.lmsys.org ?..
          • rrrrex
            Да ерунда это все, ИИ отовсюду кусочков понадергает и наврет с три короба, а ты сиди и занимайся фактчекингом. Беда в том, что кому-то пофиг и он ИИ тексты в интернете постит, что с распространением ИИ будет только множить недостоверную информацию.
            Вот помочь мысль сформулировать, описать что-то, это всегда за, но полностью полагаться на ИИ вредно.
            • ildarado50
              rrrrex,
              Так и есть. Помню, спросил его про одного писателя. ии мне ответил, что его убили большевики. А по факту, этот писатель жил за 100лет до этих самых большевиков

            Неофициальный скрипт Windows God Mode, открывающий простой доступ ко всем настройкам ОС, получил первый апдейт с момента релиза. Он стал гораздо эффективнее и теперь работает почти без ошибок. В «заметках к патчу» разработчик рассказал о ключевых улучшениях полезного инструмента, получившего приставку Super в названии. 

             

            Специалисты лаборатории DxOMark протестировали возможности камеры недавно анонсированного флагмана Google. Результаты Pixel 9 Pro XL оказались впечатляющими: смартфон лишь слегка не дотянул до первого места в глобальном рейтинге.

             
            <div></div><a href='/2024/10/13/9085085/' target='_blank'><img src='https://i.4pda.ws/s/as6ywue3S4wsjFGg0z2I2iyY7kHEE0EmiXkPLY783uK3Miqm98HafRECC.jpg' title='' /></a><div ><img src='https://4pda.to/s/as6yu42hlyXjD7kQLqbvVMOGid.gif' /></div><div></div><div></div><div></div>

            Сотрудники Университета Шеффила, Великобритания, успешно испытали первый в мире жидкостный ракетный двигатель, полностью спроектированный искусственным интеллектом и напечатанный на 3D-принтере. Удивительно, но он заработал с первой попытки.

             

            Согласно появившейся информации, ситуация с замедлением работы YouTube в России может разрешиться уже до конца этой недели. Об этом, ссылаясь на слова знакомых с ситуацией источников, сообщил главный редактор Mobile Research Group Эльдар Муртазин.

             

            Абитуриент из Турции попался на жульничестве в рамках вступительных экзаменов в колледже. Юноша решил проявить оригинальность, использовав самодельное ИИ-приспособление для диктовки подсказок. Но план несостоявшегося студента провалился.

             

            Как сообщает издание The Wall Street Journal, ссылаясь на источник внутри Google, компания потратила почти 3 миллиарда долларов, чтобы вернуть бывшего сотрудника Ноама Шазира, который специализируется на разработках в области искусственного интеллекта.

             

            Техноблогер Мишаал Рахман обнаружил в свежей «бете» Android новую функцию, которая должна появиться в следующей версии мобильной ОС. Она призвана сделать использование режима многозадачности более похожим на работу с окнами приложений в Windows.

             

            Компания Apple выпустила стабильную версию десктопной операционной системы macOS Sequoia. Она получила сразу несколько новых функций — правда, обещанный ИИ-пакет Apple Intelligence в текущий релиз не вошёл.

             

            Пит Батард, автор утилиты Rufus, готовит обновление, которое позволит обойти ограничения ОС Windows 11 версии 24H2 для установки на неподдерживаемые ПК. И это нововведение станет доступно со следующим выпуском Rufus.

             

            Специалисты портала Android Authority обнаружили, что Google внедрила в операционную систему Android механизм проверки легальности приложений и игр. С его помощью разработчики смогут узнать, была ли программа загружена на устройство в обход магазина приложений Google Play.

             

            Поставщик IT-сервисов Softline сообщил, что новые санкции ЕС повлияют на работу сервисов Microsoft, Amazon, Google и других компаний на территории России. Компания опубликовала все известные подробности о грядущих «отключениях», и рассказала, кого они затронут.

             
            Обзор Amazfit T-Rex 3: когда вы уже разрядитесь? Популярное
            95
            1.10.24News

            В мире носимой электроники устройства негласно разделены на две категории: большие фитнес-трекеры, работающие долго, и «настоящие часы», которые живут от батарейки буквально пару дней. Особняком стоит продукция Amazfit, одинаково далёкая от обеих крайностей. Сегодня тестируем защищённые и долгоиграющие T-Rex 3.

             
            В России перестал работать Discord [ОБНОВЛЕНО] Популярное

            Пользователи из разных регионов России сообщают о сбоях в работе Discord. Проблемы возникли спустя полторы недели после появления новостей о возможности блокировки популярного сервиса в стране.

             

            Забеги без смертей — одни из любимых способов прохождения игр среди стримеров и геймеров. Особенно много эмоций вызывают смерти, ведь часто они происходят из-за банальной глупости. Именно необдуманный поступок испортил забег одному стримеру.

             

            Европейское космическое агентство представило видео поверхности Солнца, снятое с помощью космического спутника Solar Orbiter. Аппарат приблизился на короткое расстояние к звезде, благодаря чему астрономам удалось рассмотреть поверхность Солнца практически вплотную — насколько это возможно.

             

            Аналитики исследовательской компании Canalys опубликовали свежий отчёт о состоянии мирового рынка смартфонов по итогам первой половины 2024 года. Эксперты назвали лидирующие бренды, чьи устройства оказались наиболее популярны среди пользователей.

             

            Новинка под названием Casio WS-B1000 представляет собой гибрид традиционных электронных часов с ЖК-дисплеем и фитнес-трекера. Такое сочетание позволяет устройству выполнять функции современной носимой электроники, сохраняя огромную автономность. Компания уже раскрыла ключевые характеристики гаджета и объявила его цену.

             
            Старые смартфоны Samsung «окирпичились» после обновления Популярное

            В социальных сетях и на форуме появилось множество сообщений, что свежее обновление прошивки для старых флагманов линеек Galaxy S10 и Galaxy Note10 привело к их поломке. После установки апдейта пользоваться устройствами становится попросту невозможно.

             

            Авторы YouTube-канала RetroGamingBase провели необычный эксперимент. Блогеры превратили классический ЭЛТ-монитор в «киберспортивный» с частотой обновления, превышающей возможности современных игровых флагманов. Правда, без подводных камней такой «разгон» всё же не обошёлся.

             

            Бывшая головная компания «Яндекса», нидерландская Yandex N.V., закрыла сделку по продаже российской части бизнеса консорциуму частных инвесторов. Процесс разделения технологической корпорации, который стартовал ещё в 2022 году, наконец завершился.

             
            Лучшим смартфоном Apple признана модель 2020 года Популярное

            Разработчики AnTuTu опубликовали результаты сентябрьского «народного» рейтинга устройств на iOS и iPadOS в Китае. В ходе голосования пользователи оценивали не технические характеристики, а то, насколько они в целом довольны своими гаджетами. Как оказалось, больше всего положительных отзывов собрали не самые новые устройства компании.

             

            Масштабные сокращения уже давно перестали удивлять геймерское сообщество — теперь это обыденность, с которой все мало-помалу свыклись. Однако даже самых прожжённых циников поразила история Annapurna Interactive.

             

            Компания realme объявила о начале продаж смартфонов серии realme 13 Pro. Новинки получили продвинутые возможности фотосъёмки благодаря ИИ-функциям, ёмкий АКБ и защиту от воды и пыли класса IP65.

             

            Кастомная прошивка LineageOS 21 вышла для нескольких новых, но устаревших смартфонов. В список попали гаджеты от LG, realme, Xiaomi и Motorola, и в некоторых случаях устройства уже давно не видели новых версий ОС.

             

            Борьба YouTube за монетизацию, похоже, вышла на новый уровень. Пользователи сервиса начали жаловаться, что кнопка пропуска рекламы стала пропадать с экрана. Это подтвердили и журналисты профильных СМИ — но в ответ на их запрос представитель видеохостинга заявил, что жалобы аудитории сильно преувеличены.

             

            О времена, о нравы! Издание «Ведомости» сообщает, что на маркетплейсах наблюдается взрывной рост спроса на перкуссионные массажёры. Предполагается, что их используют для фарма монет в Hamster Kombat.

             
            В РФ появился новый вирус-троян, имитирующий пуш-уведомления от банков Популярное

            Издание «Известия» рассказало о новой комбинированной мошеннической схеме в РФ. При помощи поддельных пуш-уведомлений от банков хакеры могут похитить денежные средства пользователей.

             

            На днях Samsung показала Galaxy Ring — своё первое умное кольцо. Такие аксессуары предлагают множество функций в удобном форм-факторе и в некоторых сценариях заменяют смарт-часы. Приводим мнения журналистов о новинке.

             

            Несколько лет назад блогер JinnKid взорвал интернет серией роликов «Скайрим в реальной жизни» — мы рассказывали вам об этом в 2020 году. Спустя четыре года автор этих забавных видео получил пожизненный тюремный срок. Вернее, два.

             

            Пользователь под ником ObamaCare опубликовал в сети самую большую из когда-либо существовавших базу паролей. Он собрал порядка 10 миллиардов секретных комбинаций. С учётом того, что на счету этого человека уже есть несколько подтвердившихся утечек, отнестись к новой стоит со всей серьёзностью.

             

            Несмотря на многочисленные достоинства, вроде настоящего чёрного цвета, энергоэффективности, низкого времени отклика и малой толщины, у OLED-панелей есть ряд важных недостатков, главный из которых — выгорание пикселей. Похоже, что компании LG удалось решить эту проблему.

             

            Компания Google открыла свободный доступ к своей ИИ-модели для генерации изображений под названием Imagen 3. Теперь ей можно воспользоваться без подписки: разработчики опубликовали ссылку на сервис, воспользоваться которой может любой желающий — правда, с одной оговоркой.

             

            После обновления своих смартфонов до Android 14 пользователи начали замечать нехватку одной важной функции. Как оказалось, Google приняла решение убрать быстрый доступ к уведомлениям приложений, которой, как оказалось, многие активно пользовались.