"Записки научных семинаров ПОМИ"
 Том  540, стр. 178-193 
   
  
Открытая библиотека для мультимодальной кластеризации методами AutoML на Apache Spark
 
    С. Муравьёв,  В. Казаковцев,  И. Усов,  П. Шпинева,  О. Муравьёва,  А. Шалыто
 
ITMO University, St. Petersburg, Russia
 
 
 
smuravyov@gmail.com
 
 
ivan.usov.2000@mail.ru
 
 
polina.shpineva@gmail.com
 
             
             
ilyasovaolya@gmail.com
 
             
shalyto@mail.ifmo.ru
 
 
Siberian Federal University, Krasnoyarsk, Russia
 
 
 
vokzvokz@gmail.com
 
 
    
-  Аннотация:  
   
Мы представляем библиотеку, которая позволяет выбирать и настраивать
алгоритмы кластеризации для мультимодальных данных, то есть данных,
где каждый объект представлен не только вектором, но также текстом
и/или изображением, и каждая модальность значима. Наша библиотека
автоматически находит баланс между исследованием и эксплуатацией
входных данных среди набора реализованных алгоритмов кластеризации в
соответствии с выбранным внутренним индексом валидации кластеризации.
В библиотеке также реализована рекомендательная система для выбора
индекса валидации, которая может предсказать наиболее подходящую меру
для входных данных. Мы использовали Apache Spark для реализации
алгоритмов кластеризации, что позволяет использовать библиотеку на
распределённых вычислительных системах для кластеризации больших
мультимодальных данных.
 			Библ. --  12 назв.
 
-  Ключевые слова: автоматическое машинное обучение, мультимодальные модели,
 кластеризация, Apache Spark
  [automatic machine learning, multimodal models, clustering, Apache Spark]
 
 Полный текст(.pdf)