"Записки научных семинаров ПОМИ"

Том 546, стр. 146-173

Сестры играют роль: Дообучение больших языковых моделей для задачи предсказания гиперонимов

Ф. Садковский, Н. Лукашевич, И. Гришин

RAS Institute of Linguistics, Lomonosov Moscow State University

sadkovsky@iling-ran.ru

Lomonosov Moscow State University

louk_nat@mail.ru

igrishin@sev.msu.ru

Аннотация: В работе рассматривается проблема предвзятости, вносимой когипонимами (узлами таксономии с одинаковым общим гиперонимом-родителем) в обучающих наборах данных для задач извлечения гиперонимов. Хотя удаление тестовых элементов из обучающей выборки необходимо для предотвращения утечки данных, мы показали, что исключение когипонимов не менее важно. При тонкой настройке модели на наборе данных, состоящем из пар <гипоним-гипероним>, извлечённых из таксономического ресурса WordNet, простого исключения тестовых узлов недостаточно для адекватной оценки качества модели на тестовых данных. Когипонимы ведут себя как неявные подсказки для определения гиперонимов, искусственно завышая показатели качества модели и искажая её эффективность в реальных сценариях разработки таксономий. Мы обучили модель LLaMA-2 с использованием процедуры TaxoLLaMA, предложенной в Moskvoretskii et al. (2024), на обширном корпусе пар гипоним-гипероним, извлеченных из WordNet, с их определениями и без. Оценка на бенчмарке SemEval-2018 показала, что включение когипонимов в тренировочные данные искусственно завышает показатели качества. Библ. -- 43 назв.
Ключевые слова: извлечение гиперонимов, пополнение таксономии, WordNet, TaxoLLaMA [Hypernym Discovery, Taxonomy Enrichment, WordNet, TaxoLLaMA]

Полный текст(.pdf)