"Записки научных семинаров ПОМИ"
Том 546, стр. 193-202
RuMathBERT: русскоязычная модель для семантического анализа математических формул
А. Латушко, Е. Бручес
Novosibirsk State University
a.latushko@g.nsu.ru
Novosibirsk State University, Institute of Informatics Systems SB RAS
bruches@bk.ru
- Аннотация:
Часто в научных и технических текстах важная информация модержится в
математических формулах и не может быть получена непосредственно из текста.
Это затрудняет процесс обработки таких текстов классическими
языковыми моделями. Модели, способные обрабатывать текст с вкраплениями
математических формул, разрабатываются для английского языка,
в то время как для русского языка такие работы отсутствуют.
В данной статье мы представляем RuMathBERT -- модель, обученную
на русскоязычных текстах, которая может быть использована для обработки
научных текстов, содержащих формулы.При оценке качества модели
было обнаружено, что RuMathBERT показывает более глубокое понимание
семантики формул и их взаимосвязи с окружающим контекстом.
Набор данных, который был использован для обучения и тестирования модели,
доступен по ссылке
https://huggingface.co/datasets/iis-research-team/ruwiki-formulae.
Полученная модель является открытой и доступна по ссылке
https://huggingface.co/iis-research-team/RuMathBERT.
Библ. -- 16 назв.
- Ключевые слова:
BERT, математические тексты, формулы, обработка естественных языков
[BERT, mathematical texts, formulae, NLP]
Полный текст(.pdf)