Китайский стартап DeepSeek представил новый мультимодальный ИИ для обработки документов

Китайская компания DeepSeek анонсировала свой новый мультимодальный ИИ под названием DeepSeek-OCR, который способен обрабатывать большие и сложные документы с использованием значительно меньшего количества токенов. Это стало возможным благодаря инновационному подходу, использующему визуальное восприятие для сжатия информации.

Исследование «роли визуальных энкодеров» показало, что с помощью DeepSeek-OCR можно сократить количество токенов в 7–20 раз на разных стадиях контекста. Эта модель состоит из двух основных компонентов: вычислительного ядра, обеспечивающего низкую активность при обработке изображений, и декодера Mixture-of-Experts с 570 млн параметров, который восстанавливает исходный текст из визуальных токенов.

DeepSeek-OCR демонстрирует 97% точности декодирования даже при двадцатикратном сжатии текста. Кроме того, на эталонном тесте OmniDocBench, она показала лучшие результаты по сравнению с другими моделями оптического распознавания текста, используя при этом меньше токенов. Эта разработка открывает новые горизонты для применения в финансовой и научной сферах, благодаря своей способности анализировать сложные визуальные структуры.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена