"Записки научных семинаров ПОМИ"
Том 546, стр. 59-80
Использование крупных языковых моделей для обработки векторной графики (SVG): обзор.
Б. Малашенко, И. Ярский, В. Ефимова
ITMO University, Kronverksky Pr. 49, St. Petersburg, Russia
btmalashenko@itmo.ru
ivanjarsky@itmo.ru
vefimova@itmo.ru
- Аннотация:
В последние годы быстрый прогресс в компьютерном зрении значительно
улучшил обработку и генерацию растровых изображений. При этом векторная графика --
ключевая область цифрового дизайна благодаря масштабируемости и удобству редактирования
-- изучена сравнительно мало. Традиционные методы векторизации и генерации
векторной графики часто требуют много времени и приводят к чрезмерно сложным результатам,
что ограничивает их практическое применение. Появление крупных языковых
моделей (LLM) открыло новые возможности для генерации, редактирования и
анализа векторной графики, особенно в формате SVG, который представляет
собой текстовую разметку и хорошо интегрируется с LLM.В статье выполнен
систематический обзор подходов на основе LLM к обработке SVG и выделены
три ключевые задачи: генерация, редактирование и понимание.
Рассмотрены заметные модели (IconShop, StrokeNUWA, StarVector) с анализом
сильных и слабых сторон. Проанализированы бенчмарки для задач с
SVG (SVGEditBench, VGBench, SGP-Bench) и приведены экспериментальные
результаты для ряда LLM. Результаты показывают, что модели,
доработанные для рассуждений о векторной графике, превосходят
стандартные LLM, особенно в задачах генерации и понимания.
В работе подчёркивается необходимость создания более разнообразных
и богато аннотированных датасетов для дальнейшего улучшения
возможностей LLM в задачах векторной графики.
Библ. -- 45 назв.
- Ключевые слова:
векторная графика, SVG, большие языковые модели, порождение
изображений
[Scalable Vector Graphics (SVGs), d Large Language Models (LLMs), Image Generation]
Полный текст(.pdf)