"Записки научных семинаров ПОМИ"
Том 546, стр. 6-31
Эффективная токенизация: баланс между BabyMMLU, чувствительностью и скоростью
И. Бычков, Ф. Черногорский, С. Аверкиев, А. Феногенова
SberDevices
ivankrylatskoe@gmail.com
fechernogor@gmail.com
averoo@gmail.com
alenush93@gmail.com
- Аннотация:
В области обработки естественного языка (NLP) токенизация -- важный этап
предварительной обработки, существенно влияющий на производительность модели.
Выбор токенизатора играет ключевую роль, особенно в современных условиях,
когда обучение больших языковых моделей требует значительных затрат.
В нашем исследовании рассматриваются преимущества и ограничения различных токенизаторов,
работающих на уровне частей слов. На основе анализа мы предлагаем
практический подход к сравнению этих токенизаторов, учитывая такие факторы,
как эффективность токенизации, размер словаря и скорость работы.
В статье рассматриваются существующие методы оценки токенизаторов и предлагается
новый датасет для их оценки. Таким образом, данная работа призвана помочь
исследователям в выборе и обучении наиболее подходящих токенизаторов для конкретных задач,
особенно в условиях ограниченных ресурсов для обучения.
Наша цель -- содействовать принятию обоснованных решений при выборе токенизатора
и повысить качество языковых моделей.
Библ. -- 32 назв.
- Ключевые слова: NLP, обработка естественного языка, LLM,
большие языковые модели, токенизатор, токенизация, оптимизация,
бенчмаркинг, датасет
[NLP, LLM, tokenizer, tokenization, optimization, benchmark, dataset]
Полный текст(.pdf)