"Записки научных семинаров ПОМИ"
Том 546, стр. 203-222
От статей к рецензентам: алгоритм выбора рецензентов на основе крупных языковых моделей
Д. Ковалевский, В. Мамедов, С. Столяров, С. Оспичев, Д. Морозов
Novosibirsk State University
d.kovalevskii@g.nsu.ru
v.mamedov@g.nsu.ru
s.stolyarov@g.nsu.ru
s.ospichev@nsu.ru
Novosibirsk State University, Russian National Corpus
morozowdm@gmail.com
- Аннотация:
Быстрый рост числа ежегодно публикуемых научных статей создает
значительную нагрузку на редакторов научных журналов и организаторов
конференций, в частности, оперативный подбор подходящих рецензентов
становится сложной задачей. Автоматизация этого процесса затруднена
из-за отсутствия общедоступной информации о рецензентах уже опубликованных
статей в условиях двойного слепого рецензирования. В данной работе мы сделали
первые шаги к разработке системы рекомендации рецензентов.
Наше исследование сосредоточено на русскоязычных научных статьях по математике.
В основе нашего подхода лежит сравнение семантики целевой статьи
с семантикой статей из внешней базы данных. Наиболее похожие статьи
из базы агрегируются по авторам, формируя список потенциальных рецензентов.
Этот список дополнительно уточняется с помощью набора фильтров.
Кроме того, был проведён эксперимент с ранжированием наиболее подходящих
кандидатов с использованием большой языковой модели (LLM).
Для оценки качества рекомендаций мы использовали несколько метрик
на основе Универсальной десятичной классификации (УДК), в том числе,
точность (Accuracy) по УДК. Наилучшие результаты были достигнуты с
использованием моделей эмбеддингов E5-multilingual и E5-mistral.
Нам удалось добиться качества выше 0,88 по метрике УДК Accuracy@1.
Введение этапа переранжирования на основе LLM дало неоднозначные
предварительные результаты. Хотя это улучшило метрики точности
и полноты при малых значениях k, эксперты в ходе ручной проверки
отдали предпочтение конфигурации системы без переранжирования.
В то же время оценки экспертов были преимущественно положительными:
большинство рекомендаций получили оценки 4 и 5 по пятибалльной шкале.
Библ. -- 23 назв.
- Ключевые слова:
научные статьи, подбор рецензентов, большие языковые модели,
векторные модели текста, рекомендательные системы
[scientific texts, reviewer selection, large language models, text embeddings, recommendation systems]
Полный текст(.pdf)