За архивами — в Яндекс

Появление технологий искусственного интеллекта и нейросетей значительно упрощает и ускоряет работу с архивными документами, делая их более доступными для широкого круга пользователей. Сегодня современные технологии способны модернизировать работу с архивными документами.

Применение технологий искусственного интеллекта к архивным документам дает несколько преимуществ:

Ускорение обработки информации.
Расширение доступа для аудитории.
Сохранность документов.

В кластере Ломоносов МГУ им М.В.Ломоносова проходит Российская креативная неделя. В рамках секции «Архив и нейросети: как технологии помогают изучать наше прошлое» участники обсудили взаимодействие с российскими архивами и библиотеками, перспективы и ограничения цифровизации в культурной сфере, а также совместный опыт сотрудничества в рамках проекта «Поиск по архивам» от Яндекса.

Сервис Яндекса «Поиск по архивам» предлагает пользователям уникальную возможность быстро находить имена, фамилии, названия населённых пунктов и другие ключевые слова в рукописных документах XVIII — начала XX века. На данный момент база данных включает свыше 12 миллионов архивных документов из хранилищ Москвы, Астраханской, Оренбургской, Иркутской и других областей. При запуске проекта акцент был сделан на самых востребованных материалах. Это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения. Для удобства поиска предусмотрены фильтры по годам, фондам, описям и названиям документов.

Сервис основан на технологии оптического распознавания текста от Яндекса. Нейросети способны распознавать устаревшие символы, адаптироваться к особенностям почерка и за считаные секунды превращать трудночитаемые записи в удобный печатный текст.

Влияние нейросетей растет и распространяется на все сферы жизни, Так, например эти технологии значительно упрощает и ускоряют работу с архивными документами, повышая их доступность и полезность для различных целей: от сохранения культурного наследия до научных исследований. Применение этих технологий является важным направлением цифровой трансформации архивного дела.

Распознавание рукописного текста. Архивные документы часто содержат рукописные записи, которые сложно распознать с помощью традиционных методов оптического распознавания текста. Нейронные сети, наоборот, способны более точно распознавать рукописный текст, даже с учетом различных почерков и стилей написания.
Автоматическая классификация и индексация документов. Нейросети могут анализировать содержание архивных документов, определять их тематику, выделять ключевые слова и фразы, а также автоматически классифицировать и индексировать документы для облегчения поиска.
Восстановление поврежденных документов. Старые архивные документы часто повреждены или имеют нечеткие участки. Технологии искусственного интеллекта могут использоваться для восстановления поврежденных фрагментов текста и изображений на основе контекста и шаблонов.

Сегодня изучение генеалогии помогает лучше понять историю своей семьи, страны и народа. Это дает более глубокое осознание своих корней и места в мире.

Антон Москаленков, директор направления международных и региональных GR-проектов Яндекса, выступил в качестве модератора, задав тон дискуссии:
Важно отметить, что порог входа в изучение истории своей семьи становится ниже и доступнее более широким массам.

Эксклюзивно для НОП Иван Корякин, журналист, автор телеграм-канала «Генеалогика», прокомментировал:
История страны сплетается из истории каких-то людей, из истории отдельных личностей, соответственно, и наших предков тоже. И когда мы занимаемся генеалогией, раскапываем судьбы, изучаем те виражи, которые приключались в их судьбах, и в целом их жизненный ход. Постепенно мы можем идти от частного к общему и походить на контекст и масштаб целой страны. Иными словами, в генеалогии мы не ограничиваемся установлением точной даты или имени и точных родственных связей. Мы всегда расширяемся. Просто от даты рождения мы можем идти дальше и посмотреть, через что прошел предок в годы своей жизни.

Мы подверстываем исторические события, исторический культурный контекст. Мы выясняем, что, может быть, у девочки был герой на войне, или то, что он пережил голод, скажем, или то, что прошел через репрессии. Мы добавляем исторического контекста и понимаем, что, с одной стороны, мы имеем судьбу нашего предка, а, с другой стороны, история страны, которая уже не кажется такой далёкой, а нам куда ближе, это уже не страница учебника «Истории». Это именно не просто история страны, это история нашей страны, моей конкретно. Потому что я могу открыть учебнику, указать «здесь был мой прадедушка». И если мы все будем изучать генеалогию, наверное, каждый из нас сможет это сделать, и это, может быть, даже поможет нам как обществу.

Александр Ракитько, директор по науке Центра Genotek, рассказал о том, какие тенденции в изучении генеалогии существуют сегодня:
Геном человека расшифровали в начале 2000. Генетическая технология сформировала целый рынок возможностей: мы научились предсказывать заболевания, способности к спортивным достижениям, определять родственников. Это результат технологической революции, которой послужило создание новой технологии.
Сегодня появляется технология нейросети – искусственный интеллект, который формирует новый рынок и делает информацию более доступной.

Проблема в генеалогической сфере в том, что это хобби для очень терпеливых людей. Если появляется технология для упрощения, аудитория резко вырастет. По моим данным, с прошлым полугодия спрос на генеалогические сервисы вырос троекратно. Это тенденция, которая возникает за счет упрощения и ускорения доступа информации, снижение порога входа для аудитории. Основная цель архива – сохранить то, что у нас. Человек должен иметь возможность бесплатно узнавать о своих предках.

Эксклюзивно для НОП Александр Болховитянов, руководитель сервиса «Поиск по архивам» Яндекса, прокомментировал:

Любым краеведам, историкам, спортивным журналистам то, что мы сегодня обсуждали на встрече, – такой механизм поиска исторических материалов, подтвержденных, верифицированных с такой фактологией, может помочь в любом виде. Сейчас такое традиционное исследование, традиционный поиск — это работа с этими материалами, опять же в тех же самых архивах или библиотеках, постраничный просмотр, попытка найти что-то. У нас это буквально один запрос, который нужно задать и получить результаты поисковой выдачи.

Все-таки сейчас наш сервис больше похож на семейную историю. Мы так ее и рассказываем. В настоящий момент, пока у нас не накопится какая-то критическая масса документов, которые непосредственно историческую ценность представляют. В ближайшем будущем мы планируем расширить нашу базу и стать полезными и для ученых.

Александр Болховитянов, рассказал на основании, каких данных строится проект:
Тот объем информации, который есть, его невозможно прочитать. Люди привыкли воспринимать информацию так, как она есть, быстро и просто. В базе нашего сервиса более 21 млн образов архивных документов и 4 млн страниц периодических изданий. Более 6 млн уникальных пользователей за полтора года с момента запуска сервиса.

Андрей Михеев, директор по продукту «Поиск по архивам» Яндекс:
Самое опасное сейчас – это исчезновение самих документов.

Кирилл Ковалёв, директор Государственного архива Вологодской области, отметил приоритетные направления работы:
Мы ориентируемся сейчас на несколько факторов. Первое, это цифровизация наиболее востребованных фондов. Второе, это что немаловажно, это цифровизация информации, которая находится в неудовлетворительном физическом состоянии.

Павел Лушников, заместитель директора по цифровизации Российской государственной библиотеки, подчеркнул важность цифровизации научного пространства:
Библиотеки проспали появление интернета, и это большое упущение, и сейчас они трансформируются. Люди привыкли к быстрому сервису, наличие нормального сервиса и с хорошим поиском – это то, чего не хватает библиотекам.