"Записки научных семинаров ПОМИ"
Том 546, стр. 246-258
Определение водянистости текстовых документов
Д. Р. Талдытова, В. А. Малых
НИТУ МИСиС
m2212023@edu.misis.ru
Университет ИТМО
valentin.malykh@phystech.edu
- Аннотация:
Избыточность текста -- это информация, представленная в предложении,
абзаце или тексте более одного раза. Проблема выявления и устранения
избыточности до сих пор недостаточно изучена.
В данной работе мы исследовали избыточность, или ``водянистость'',
текстовых документов и методы её оценки.Мы собрали датасет,
который может быть использован для обучения или дообучения моделей
для задачи устранения избыточности текста. Он был основан на подборке
статей из российских СМИ и был создан с использованием русскоязычных
LLM Saiga и Yandex GPT Lite. Мы также провели сравнительный анализ
русскоязычных LLM по сжатию текстовых документов. Был сделан вывод,
что среди моделей лучшей является Gigachat Lite, и близкие к ней
результаты показывает модель Saiga.
Библ. -- 28 назв.
- Ключевые слова:
большие языковые модели, суммаризация текста, избыточность текста
[text redundancy, large language models, text summarization]
Полный текст(.pdf)