"Записки научных семинаров ПОМИ"
Том 546, стр. 59-80
Использование крупных языковых моделей для обработки векторной графики (SVG): обзор.
Б. Малашенко, И. Жарский, В. Ефимова
ITMO University, Kronverksky Pr. 49, St. Petersburg, Russia
btmalashenko@itmo.ru
ivanjarsky@itmo.ru
vefimova@itmo.ru
- Аннотация:
Бурное развитие методов компьютерного зрения в последние годы существенно повысило эффективность обработки и генерации растровых изображений. При этом векторная графика, играющая ключевую роль в цифровом дизайне благодаря масштабируемости и удобству редактирования, остаётся сравнительно малоизученной. Существующие методы векторизации, применяемые для получения векторных изображений, отличаются высокой вычислительной сложностью и избыточной детализацией, что ограничивает их практическое применение и подчёркивает необходимость альтернативных подходов к генерации векторного контента. Появление больших языковых моделей (LLMs) открыло новые возможности для генерации, редактирования и анализа векторной графики, особенно в формате SVG, который обладает текстовой структурой и потому хорошо подходит для интеграции с языковыми моделями.
Настоящая работа представляет систематический обзор подходов, использующих LLM для решения задач обработки SVG-графики, включая генерацию, редактирование и понимание. Рассмотрены ключевые модели, ориентированные на генерацию векторных изображений - IconShop, StrokeNUWA и StarVector - с анализом их архитектурных особенностей, преимуществ и ограничений. Дополнительно рассмотрены бенчмарки SVGEditBench, VGBench и SGP-Bench, предназначенные для оценки систем обработки SVG-графики, и проведена серия экспериментов по сравнению эффективности различных LLM в этих задачах. Эксперименты показывают, что модели, использующие механизм рассуждения, обеспечивают более высокое качество результатов, особенно в задачах генерации и семантического анализа. Сделанные выводы подчёркивают необходимость создания более разнообразных и детально аннотированных наборов данных для дальнейшего повышения эффективности LLM в обработке векторной графики.
Библ. -- 45 назв.
- Ключевые слова:
векторная графика (SVG), большие языковые модели (LLM),
генерация изображений[Scalable Vector Graphics (SVGs), d Large Language Models (LLMs), Image Generation]
Полный текст(.pdf)