DeepSeek AI, в сотрудничестве с Университетом Цинхуа, представила исследование, посвященное улучшению моделирования вознаграждений в крупных языковых моделях. Их новая модель DeepSeek-GRM имеет 27 миллиардов параметров и основывается на методе Self-Principled Critique Tuning (SPCT), который позволяет моделям развивать собственные принципы и критические оценки в процессе обработки информации.
SPCT нацелена на создание гибких и масштабируемых моделей вознаграждений (RM), что может улучшить применение ИИ в открытых задачах. Модель использует больше вычислительных ресурсов для одновременной обработки нескольких откликов, что значительно повышает эффективность. DeepSeek-GRM показала высокие результаты на специализированных тестах, опережая многие существующие модели, такие как Nemotron-4-340B-Reward.
Тем не менее, задачи, требующие точных объяснений, остаются сложными для этой модели. Исследователи подчеркивают, что разработанные подходы могут в будущем привести к улучшению ИИ-приложений в динамичных сферах, таких как креативные задачи и быстро меняющиеся предпочтения пользователей.
