В Китае создан монгольский лингвистический корпус
Академия общественных наук Внутренней Монголии заявила о запуске электронной базы корпуса монгольского языка, содержащей 80 млн. слов.
Ученые работали над проектом в течение 10 лет. За это время они записали на видео 4192 часа бытовой разговорной речи и более 4 тысяч часов официально-деловой речи. После этого полученные данные были переведены в письменный формат и оцифрованы.
Монгольский корпус является частью корпуса, состоящего из 200 млн. слов и, включающего такие языки как даурский, эвенкийский и язык орокин. Все они распространены среди этнических меньшинств северного и северо-восточного Китая. Проект по созданию информационно-справочной системы планируется завершить в течение 20 лет.
Составителями выделены 97 местностей с монгольским населением в 8 провинциальных регионах России. Также исследования проводились на территории 5 аймаках и в городах Монголии, Республики Бурятия и Республики Калмыкия в России. Собрано 4,192 часа устных данных от 6,725 носителей монгольского языка, а также свыше 4,000 часов записанных данных.
По заявлению академии, проект по созданию корпусов призван защитить этнические языки от исчезновения и станет ценным лингвистическим ресурсом.
Как отмечают в академии общественных наук, нынешний корпус – это только первая часть проекта, запущенного в 2005 году. В ближайшие 10 лет ученые пополнят имеющуюся базу другими языками алтайской семьи: даурским, эвенкийским, орочонским языком. К 2025 году объем корпуса вырастет до 200 млн слов.