Лингвисты КарНЦ РАН передали «Яндексу» 50 тысяч предложений на ливвиковском наречии карельского языка — это более половины из необходимых 100 тысяч предложений для создания онлайн-переводчика. Об этом рассказала старший научный сотрудник Института языкознания КарНЦ РАН Александра Родионова во время VII Международной конференции «Цифровизация языков народов России: опыт и перспективы» в Йошкар-Оле.
Проект «ВепКар» — это уникальная цифровая платформа, созданная лингвистами и математиками Карельского научного центра РАН. За основу его взята работа, начатая в 2009 году под руководством доктора филологических наук Нины Григорьевны Зайцевой, которая создала «Корпус вепсского языка» — предшественника современной платформы. На сегодняшний день «ВепКар» содержит более девяти тысяч текстов на 58 диалектах и около трех миллионов слов. Большая часть текстов размечена — с лингвистической или метатекстовой точностью — что помогает пользователям изучать лексику, грамматику и другие языковые особенности.
«ВепКар» служит платформой для сбора данных, необходимых для разработки онлайн-переводчиков карельского и вепсского языков. Работа осуществляется в сотрудничестве с Федеральным агентством по делам национальностей России и компанией «Яндекс».
Разработчики «ВепКара» не только продолжают пополнять существующие, но и создают новые коллекции, повышая роль платформы как электронной библиотеки. В честь 800-летия крещения карелов был расширен корпус библейских текстов, а также открыты новые разделы — «Памятники письменности» и «Этнографические тексты». За последние годы значительно расширены лингвистические возможности платформы за счет генераторов словоформ, что позволило выявить важные закономерности в структурах языков. Эти данные дополнительно использовались при разработке новых грамматик карельского и вепсского языков. Кроме того, «ВепКар» стал мощной платформой для междисциплинарных исследований, создания образовательных игр и учебных материалов.
