Исследователи из Together AI и Agentica представили DeepCoder-14B, новую модель кодирования, которая демонстрирует впечатляющую производительность, сопоставимую с ведущими моделями, такими как o3-mini от OpenAI.
Модель основана на DeepSeek-R1 и позволяет интегрировать высокоэффективные возможности генерации кода и рассуждений в реальные приложения. Главное, что модель полностью доступна с открытым исходным кодом, включая данные для обучения и оптимизации системы, что дает возможность исследователям ускорить свои разработки.
DeepCoder-14B успешно справляется с различными задачами, показывая сильные результаты на сложных бенчмарках, таких как LiveCodeBench и HumanEval+. Особенно примечательно, что, несмотря на обучение в основном на задачах кодирования, модель продемонстрировала улучшенные математические навыки, набрав 73,8% на тесте AIME 2024.
Одной из ключевых особенностей является стабильность работы при количестве параметров всего в 14 миллиардов, что делает DeepCoder гораздо более компактным и потенциально эффективным по сравнению с более крупными моделями. Кроме того, команда разработчиков внедрила новую технику One-Off Pipelining, которая удваивает скорость выполнения задач на основе обучения с подкреплением.
Благодаря всем этим нововведениям, DeepCoder-14B задает новые стандарты открытости и доступности в сфере ИИ, позволяя организациям различного размера использовать передовые технологии генерации кода.
