"Записки научных семинаров ПОМИ"
Том 546, стр. 223-245
Clarispeech: распознавание речи с помощью LLM-технологии пост-коррекции
А. Юдин, М. Скрипкин, О. Ю. Рогов, Д. Корж
AIRI, Moscow Technical University of Communications and Informatics
iudin@airi.net
Matvey.Skripkin@airi.net
o.rogov@airi.net
korzh@airi.net
- Аннотация:
Последние достижения в области автоматического распознавания речи (ASR)
сделали эти системы широко применимыми, в том числе в виртуальных помощниках
и веб-интерфейсах. Однако даже самые современные модели ASR часто дают ошибки,
особенно при адаптации к новым речевым доменам. Традиционные решения включают
в себя тонкую настройку ASR-моделей на данных целевой области или интеграцию
языковых моделей (LM) для повторной оценки прогнозов. Однако совместная
тонкая настройка моделей ASR и LM может быть нестабильной, требовать большого
количества обучающих данных и страдать от проблем с согласованием.
Использование более сложных языковых моделей для неглубокого слияния,
особенно больших языковых моделей (LLM), нецелесообразно, что приводит к
значительным вычислительным затратам. В данной работе мы решаем эти проблемы,
сосредоточившись на коррекции после транскрипции, используя эффективную
по параметрам тонкую настройку внешних языковых моделей, оставляя при
этом систему ASR <замороженной>. Наши эксперименты показывают,
что этот подход значительно повышает точность и вычислительную эффективность.
По сравнению с базовой ASR-системой использование конфигурации ASR+LLM
снижает количество ошибок в словах с 12% до 10%, при этом вычислительные
затраты увеличиваются менее чем на 50%, несмотря на восьмикратное
увеличение количества параметров.
Библ. -- 63 назв.
- Ключевые слова:
Глубокое Обучение, Автоматическое распознавание речи,
Большие Языковые Модели, Обработка Естественного Языка,
Искусственный Интеллект, Распознавание Речи
[Deep Learning, Automatic Speech Recognition,
Large Language Models, Natural Language Processing,
Artificial Intelligence, Speech recognition methods]
Полный текст(.pdf)