DeepSeek представила новый подход к мультимодальному рассуждению

30 апреля компания DeepSeek, совместно с Пекинским университетом и университетом Цинхуа, представила технический отчет под названием «Thinking with Visual Primitives». Это новый подход к мультимодальному расшифровке, который позволяет моделям лучше видеть изображения и видео, поняв, что на них изображено. Вместо описаний типа «третий пес слева» модель указывает координаты объектов, словно тыкая в них пальцем.

В этом решении используется новая версия DeepSeek-V4-Flash, имеющая 284 миллиарда параметров. Интересным является введение термина Reference Gap, описывающего проблемы с точностью языка при идентификации объектов. Даже если модель отлично видит, однозначность человеческого языка часто не справляется с детализацией визуальных сцен.

Технически это происходит с помощью специальных токенов, которые вводятся в процессе рассуждения. Например, модель генерирует координаты объектов, что делает их минимальными единицами мысли. Архитектурные особенности включают эффективное сжатие визуальных токенов, что значительно увеличивает их вычислительную эффективность.

Сравные тесты показали, что новая модель превосходит своих конкурентов в задачах топологического рассуждения, однако она пока активируется только по триггерным словам. Это подчеркивает необходимость дальнейшей оптимизации в будущем.
*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена