В Лаборатории цифровой лингвистики ядерного университета МИФИ разрабатывается программа, которая позволит распознавать церковно-славянские рукописи XI – XVIII веков и под конкретный запрос представлять их выборку. Называться программа будет «Рукописное наследие Древней Руси».

Для того чтобы написать программу, специалисты Института интеллектуальных кибернетических систем института МИФИ и Института русского языка им. В. В. Виноградова проанализировали большое количество богослужебных книг.

Как рассказал руководитель проекта, доцент кафедры кибернетики университета Дмитрий Демидов, чтобы собрать максимальное количество достоверной информации для создания программы, ученые выбрали церковные книги. Причин тому несколько: во-первых, их больше всего, потому что они всегда были в ходу и имелись в каждой церкви. Во-вторых, они достаточно хорошо сохранились.


– В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, – объяснил Дмитрий Демидов. – Сейчас у нас в цифровом виде есть примерно 250 книг (по 500 страниц каждая), которые хранятся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить, как менялся текст, слово или знак на протяжении времени.


Система позволяет добавлять в программу новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания.

– Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что нейронная сеть даст высокоточный результат, – отметил Дмитрий Демидов. – Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс.

– У филологов в этом проекте есть свои цели – создать инструменты для изучения средневековых текстов, – рассказала ведущий научный сотрудник ИРЯ РАН и МИФИ Александра Плетнева. – Минеи – это огромный и практически не изученный корпус церковно-славянских текстов, содержащий службы на каждый день года, 12 томов, по одному тому на каждый месяц. Их анализ даст филологам возможность работать сразу с огромными объемами похожих, но не идентичных текстов, понять в исторической перспективе, где, когда и почему происходили изменения в языке – в его лексике, синтаксисе, пунктуации, орфографии. Когда будут решены задачи распознавания и поиска, мы сможем в наших рукописях искать любые вещи, примерно так же, как это делается сейчас в «Яндексе».
Мона Платонова.