В России появится поисковик для изучения древних рукописей

В Лаборатории цифровой лингвистики ядерного университета МИФИ разрабатывается программа, которая позволит распознавать церковно-славянские рукописи XI – XVIII веков и под конкретный запрос представлять их выборку. Называться программа будет «Рукописное наследие Древней Руси».

Вход в портал рукописного наследия Древней Руси

Для того чтобы написать программу, специалисты Института интеллектуальных кибернетических систем института МИФИ и Института русского языка им. В. В. Виноградова проанализировали большое количество богослужебных книг.

Доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов

Как рассказал руководитель проекта, доцент кафедры кибернетики университета Дмитрий Демидов, чтобы собрать максимальное количество достоверной информации для создания программы, ученые выбрали церковные книги. Причин тому несколько: во-первых, их больше всего, потому что они всегда были в ходу и имелись в каждой церкви. Во-вторых, они достаточно хорошо сохранились.

Каталог рукописей
Постраничный просмотр в черно-белом режиме со «шторкой»

– В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, – объяснил Дмитрий Демидов. – Сейчас у нас в цифровом виде есть примерно 250 книг (по 500 страниц каждая), которые хранятся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк – страницы, мы же обучаем машину распознавать границы текста, «вырезать» строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить, как менялся текст, слово или знак на протяжении времени.

Пример поиска в каталоге вязи

 

Морфологический словарь

Система позволяет добавлять в программу новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания.

Пример полнотекстового поиска по каталогу рукописей

– Для машинного обучения важно, чтобы было достаточное количество образцов – тогда можно быть уверенным, что нейронная сеть даст высокоточный результат, – отметил Дмитрий Демидов. – Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, «добавляет мозгов» программе и обучает весь программный комплекс.

Александра Плетнева

– У филологов в этом проекте есть свои цели – создать инструменты для изучения средневековых текстов, – рассказала ведущий научный сотрудник ИРЯ РАН и МИФИ Александра Плетнева. – Минеи – это огромный и практически не изученный корпус церковно-славянских текстов, содержащий службы на каждый день года, 12 томов, по одному тому на каждый месяц. Их анализ даст филологам возможность работать сразу с огромными объемами похожих, но не идентичных текстов, понять в исторической перспективе, где, когда и почему происходили изменения в языке – в его лексике, синтаксисе, пунктуации, орфографии.  Когда будут решены задачи распознавания и поиска, мы сможем в наших рукописях искать любые вещи, примерно так же, как это делается сейчас в «Яндексе».

Мона Платонова.

Добавить комментарий