"Записки научных семинаров ПОМИ"
Том 546, стр. 105-124
Когда большие языковые модели не уверены в своих ответах -- и когда их неуверенность оправдана
П. Сычев, А. Гончаров, Д. Вяжев, Э. Халафян, А. Зайцев
Skolkovo Institute
of Science and Technology (Skoltech),
Moscow, Russia;
National Research University,
Higher School of Economics Moscow, Russia
petr.sychev@skoltech.ru
daniel.vyazhev@skoltech.ru
khalafyan.ea@phystech.edu
Skolkovo Institute
of Science and Technology (Skoltech), Moscow, Russia
Andrey.Goncharov@skoltech.ru
a.zaytsev@skoltech.ru
- Аннотация:
Оценка неопределенности имеет решающее значение для оценки
больших языковых моделей (LLM), особенно в областях с высоким риском,
где неверные ответы приводят к значительным последствиям.
Многочисленные подходы рассматривают эту проблему, фокусируясь на
определенном типе неопределенности, игнорируя другие.
Мы исследуем какие оценки, в частности энтропия по токенам
и модель-как-судью (MASJ) будут использоваться для задач
с ответами на вопросы с множественным выбором для разных
доменов вопросов. В наших экспериментах рассматриваются
три LLM: Phi-4, Mistral и Qwen разных размеров от 1,5B до 72B
для $14$ разных тем. В то время как MASJ работает аналогично
случайному предиктору ошибок, энтропия ответа предсказывает
ошибку модели в областях, зависящих от знаний, и служит
эффективным индикатором сложности вопроса: для биологии
ROC-AUC составляет $0,73$. Эта корреляция исчезает для областей,
зависящих от рассуждений: например, для математических вопросов
ROC-AUC составляет $0,55$. Более принципиально, мы обнаружили,
что энтропия больше при большом количестве рассуждений. Таким образом,
энтропия, основанная на неопределенности данных, должна быть интегрирована
в рамки оценок неопределенности, в то время как MASJ требует уточнения.
Более того, существующие выборки MMLU-Pro предвзяты и должны сбалансировать
необходимое количество рассуждений для различных поддоменов, чтобы обеспечить
более справедливую оценку производительности LLM.
Библ. -- 28 назв.
- Ключевые слова:
Вопросы-Ответы, Сложность, LLM, Неопределенность, Энтропия
[Question-Answering, Complexity, LLM, Uncertainty, Entropy]
Полный текст(.pdf)