"Записки научных семинаров ПОМИ"
Том 546, стр. 174-192
Знание как припоминание: мультимодальная генерация, дополненная поиском
Р. Дерунец, И. Бондаренко, М. Кулаков, В. Прокопенко, Ф. Тихунов
Novosibirsk State University, Siberian Neuronets LLC
r.derunets@g.nsu.ru
i.bondarenko@g.nsu.ru
Novosibirsk State University
- Аннотация:
В данной работе представлен алгоритм мультимодальной генерации высказываний
с привлечением внешней базы знаний (Retrieval-Augmented Generation, RAG),
позволяющий эффективно превратить текстовую большую языковую модель (LLM)
в мультимодальную систему без необходимости проведения ресурсоёмкого
мультимодального обучения. Предлагаемый подход использует текстовые модели,
дополняя их извлечением внешних знаний из источников в различных модальностях
(текст, изображение, аудио). Это позволяет снизить вычислительные затраты при
сохранении конкурентоспособного качества. Разработана модульная архитектура,
включающая четыре ключевых компонента: ``припоминание'' (retrieval),
``узнавание'' (recognition), сопоставление (matching) и генерацию (generation).
Предложена система, где извлечение реализуется с помощью тримодального эмбеддера
общего назначения (ONE-PEACE), а также понижения размерности с применением
метода главных компонент (PCA), что обеспечивает эффективный поиск в масштабной
базе знаний на основе Википедии с использованием приближённого поиска
ближайших соседей (Annoy). Компонент ``узнавания'' включает специализированные
унимодальные модели (BLIP -- для изображений, AST -- для классификации аудио,
Whisper -- для распознавания речи), преобразующие входные данные в краткие
текстовые описания. На этапе сопоставления описания соотносятся с извлечёнными
данными на основе эмбеддингов предложений, сгенерированных MPNet,
что позволяет сформировать релевантный контекст для генерации ответа.
Проведённая оценка на бенчмарках MMBench и Tiny LVLM демонстрирует способность
системы решать различные визуально языковые задачи, оценка ответов показала
высокий уровень здравого смысла рассуждений и низкий уровень галлюцинаций.
Несмотря на компактность архитектуры и экономное использование ресурсов,
система показывает качество, сопоставимое или превосходящее
существующие мультимодальные LLM.
Библ. -- 46 назв.
- Ключевые слова:
большие языковые модели, мультимодальное машинное обучение,
обработка естественного языка, генерация, дополненная поиском
[LLM, Multimodality, NLP, RAG]
Полный текст(.pdf)