Исследователи Google представили новую методику оценки языковых моделей в сложных областях, таких как медицина. В их работе, опубликованной 26 августа 2025 года, акцентируется на использовании адаптивных и точных рубрик для оценки, что значительно экономит время и повышает надежность оценок.
Традиционно оценка языковых моделей требует участия человеческих экспертов и обходится дорого. Исследование показало, что применение методик, основанных на Precise Boolean rubrics, позволяет разбить сложные вопросы на более простые, отвечая на них «Да» или «Нет». Это повышает согласованность оценок и снижает субъективный элемент, что особенно важно в сфере здравоохранения.
С помощью нового подхода удалось выяснить, что за счет адаптивных рубрик время оценки сократилось более чем на 50%. Это открывает возможности для масштабирования оценок языковых моделей без потери качества. Исследовательская работа также подчеркивает важность качественной оценки ответов моделей для обеспечения их точности и безопасности в области здравоохранения.
Стоит отметить, что использованные данные из реальных исследований, таких как проект WEAR-ME, подтверждают эффективность предложенного подхода, выявляя недостатки в ответах моделей, что имеет большое значение для будущих исследований в области здравоохранения.
*Компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена.
