DeepSeek AI представляет новый подход к моделированию вознаграждений в языковых моделях
DeepSeek AI, в сотрудничестве с Университетом Цинхуа, представила исследование, посвященное улучшению моделирования вознаграждений в крупных языковых моделях. Их новая модель DeepSeek-GRM имеет 27 миллиардов параметров и основывается на методе Self-Principled Critique Tuning (SPCT), который позволяет моделям развивать собственные принципы и…
