"Записки научных семинаров ПОМИ"
Том 546, стр. 32-47
Трансформерные подходы к лемматизации аббревиатур в русских текстах
А. Глазкова, О. Ляшевская, Д. Морозов, И. Смаль
University of Tyumen
a.v.glazkova@utmn.ru
HSE University, Vinogradov Russian Language Institute RAS
olesar@yandex.ru
Novosibirsk State University, Russian National Corpus
morozowdm@gmail.com
Novosibirsk State University
vanasmal@mail.ru
- Аннотация:
В статье рассматривается задача лемматизации аббревиатур в русском языке.
Сложность данной задачи заключается в том, что лемматизация аббревиатур
требует не только приведения слова к его нормальной форме,
но и выбора верного варианта воостановления аббревиатуры.
В работе исследуются два подхода, основанные на использовании предварительно
обученных больших языковых моделей. Первый подход -- шенеративный,
при котором модель формирует лемму в виде текстовой строки.
Второй подход базируется на классифкаторах, выбирающих наиболее подходящую
лемму для тех аббревиатур, которые имеют несколько распространённых
вариантов расшифровки. В статье обсуждаются преимущества и ограничения обоих методов.
Эксперименты проводились на материалах Национального корпуса русского языка.
Библ. -- 28 назв.
- Ключевые слова:лемматизация, аббревиатуры, морфологический анализ,
русский язык, классификация текстов, генеративные модели
[lemmatization, abbreviations, morphological tagging,
Russian language, text classification, generative models]
Полный текст(.pdf)