В России появится поисковик для изучения древних рукописей

В Лаборатории цифровой лингвистики ядерного университета МИФИ разрабатывается программа, которая позволит распознавать церковно-славянские рукописи XI – XVIII веков и под конкретный запрос представлять их выборку. Называться программа будет «Рукописное наследие Древней Руси».

*Вход в портал рукописного наследия Древней Руси*

Для того чтобы написать программу, специалисты Института интеллектуальных кибернетических систем института МИФИ и Института русского языка им. В. В. Виноградова проанализировали большое количество богослужебных книг.

*Доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов*

Как рассказал руководитель проекта, доцент кафедры кибернетики университета Дмитрий Демидов, чтобы собрать максимальное количество достоверной информации для создания программы, ученые выбрали церковные книги. Причин тому несколько: во-первых, их больше всего, потому что они всегда были в ходу и имелись в каждой церкви. Во-вторых, они достаточно хорошо сохранились.

*Постраничный просмотр в черно-белом режиме со «шторкой»*

– В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, – объяснил Дмитрий Демидов. – Сейчас у нас в цифровом виде есть примерно 250 книг (по 500 страниц каждая), которые хранятся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить, как менялся текст, слово или знак на протяжении времени.

Система позволяет добавлять в программу новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания.

*Пример полнотекстового поиска по каталогу рукописей*

– Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что нейронная сеть даст высокоточный результат, – отметил Дмитрий Демидов. – Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс.

– У филологов в этом проекте есть свои цели – создать инструменты для изучения средневековых текстов, – рассказала ведущий научный сотрудник ИРЯ РАН и МИФИ Александра Плетнева. – Минеи – это огромный и практически не изученный корпус церковно-славянских текстов, содержащий службы на каждый день года, 12 томов, по одному тому на каждый месяц. Их анализ даст филологам возможность работать сразу с огромными объемами похожих, но не идентичных текстов, понять в исторической перспективе, где, когда и почему происходили изменения в языке – в его лексике, синтаксисе, пунктуации, орфографии. Когда будут решены задачи распознавания и поиска, мы сможем в наших рукописях искать любые вещи, примерно так же, как это делается сейчас в «Яндексе».

Мона Платонова.