КигиРАН разрабатывает проект Национального корпуса калмыцкого языка
Калмыцкий институт гуманитарных исследований вот уже несколько лет разрабатывает проект Национального корпуса калмыцкого языка. Его создание стало возможным благодаря финансовой поддержке Российского гуманитарного научного фонда, а также программы фундаментальных исследований РАН. Он предназначен для всех, кому интересен калмыцкий язык — для профессиональных лингвистов, специалистов по калмыко — и монголоведению, для преподавателей, составителей словарей и грамматик. На сегодняшний день объем корпуса составляет около 10 млн словоупотреблений. Подробности у Герел Кикеевой.
Работа над созданием национального корпуса калмыцкого языка была начата ещё в 2010 году. Суть его заключается в том, чтобы создать информационно-справочную систему, в которой будет собрано письменное и устное наследие калмыцкого этноса. С появлением такого ресурса исследователи впервые получат возможность работать с большими объемами текстового материала без необходимости тратить время на поиски в архивах.
В течение трех лет сотрудники отдела теоретической и экспериментальной лингвистики занимались его разработкой и наполнением. В него вошли чуть более 7 тысяч произведений калмыцкой художественной литературы, включая стихотворения и прозаические тексты, начиная с 50-х и заканчивая 80-ми годами прошлого столетия, а также калмыцкий фольклор и архив газеты «Хальмг унн» за последние 10 лет.
На сегодняшний день работа над основным корпусом завершена. Ученые приступили ко второму этапу — к разработке подкорпусов. Так, например, ведется работа над созданием морфемного подкорпуса, с помощью которого можно провести морфемный анализ любого слова. Также на стадии разработки ещё один подкорпус — старокалмыцкий.
Этот электронный ресурс был запущен во всемирную сеть ещё в 13 году. Большая работа проведена в плане создания программного обеспечения. Для того, чтобы соблюсти авторство и конфиденциальность электронного ресурса, а также создать программы для сопоставления текстов на русском и калмыцком языках, требовалась специальная программа, — рассказывает инженер-исследователь КИГИРАН Араш Каджиев, которую он создавал с нуля.
По словам создателей этого сайта, этот электронный ресурс создан в целях сохранения и развития калмыцкого языка. И ориентирован, в первую очередь, на молодежь. Он будет полезен и станет большим подспорьем в работе лингвистов, филологов, преподавателей и учителей калмыцкого языка, школьников и студентов, словом, для всех, кто занимается исследованием калмыцкого языка. На сегодняшний день объем национального корпуса составляет около 10 миллионов словоупотреблений. Несмотря на то, что электронный ресурс находится в испытательном режиме, уже сегодня любой желающий может свободно пользоваться его данными, зайдя на сайт kalmcorpora.ru. В дальнейших планах ученых КИГИРАН — оцифровать номера журнала “Теегин герл”, начиная с 56-го года и довести объем словообразований до 20 миллионов.