«Яндекс» научила нейросеть расшифровывать архивные записи со сложной дореволюционной орфографией — теперь сложные рукописи она мгновенно превращает печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов.
Новый алгоритм построен на основе системы оптического распознавания и при расшифровке учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов. Опробовать технологию в действии можно в сервисе «Поиск по архивам», который доступен уже сейчас и содержит более 2,5 млн страниц исторических документов с текстовой расшифровкой.
Обучение нейросети проходило на базе сотен реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. В работе также принимали участие эксперты, которые контролировали качество распознания. По словам компании, новый сервис будет полезен для историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, а затем были добавлены документы из архивов Оренбургской и Новгородской областей. Со временем объём хранилища будет расширен.
Для удобного поиска в сервисе предусмотрен поиск по каталогу или через строку поиска с возможностью применения фильтров по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». А если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.
«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах "Яндекса"», — отмечает Елена Бубнова, руководитель «Яндекс Поиска».
Источник:
Боюсь что нейросеть не поймёт их закорючки.
Вроде уже тестируют такой ИИ, но не наши
Там сидит человек в кабинке и расшифровывает.Какая такая,неврОсеть?😂
У меня от прадеда остались записи с 1900 года по.....уже не помню по какой, но почитать было-б интересно
Они так глазами не читаемые?
От руки написаны.
И вроде подчерк не корявый, но прям надо время уделять и вдумываться по долгу.
Через час чтения скорость будет почти как по обычному тексту. Мозг быстро привыкает.
Проверено на себе.
Да и конечно странно читать, что могут быть проблемы с текстом 1900 года. Написание почти современное. Вот с записями 1700-1800 реально приходится поработать.