OpenMythos: открытие в области архитектур нейросетей - Новости нейросетей и искусственного интеллекта (ИИ) со всего мира на русском языке

В мире искусственного интеллекта продолжаются обсуждения вокруг Claude Mythos, поскольку компания Anthropic не опубликовала техдокументацию об этой архитектуре. На фоне этих спекуляций разработчик Kye Gomez выпустил проект OpenMythos на GitHub, целью которого является теоретическое воссоздание Claude Mythos.

OpenMythos не является утечкой модели, а представляет собой код, который можно подверждать или опровергать. Главная идея заключается в том, что Claude Mythos можно отнести к рекуррентным трансформерам (RDTs), которые работают по-другому, чем стандартные модели. В отличие от них, RDTs используют фиксированный набор весов, которые повторяются в ходе вычислений, что позволяет улучшать представление данных без увеличения числа параметров.

Архитектура OpenMythos включает три компонента: Prelude, Recurrent Block и Coda. При этом основной блок выполняется до 16 раз, обновляя состояния на каждой итерации. Интересно, что модель использует Миxtures-of-Experts для оптимизации работы и механизм Multi-Latent Attention для снижения затрат памяти.

Среди преимуществ RDTs отмечается возможность продления глубины рассуждений. OpenMythos устраняет проблемы стабильности традиционных моделей, применяя линейные инварианты по времени для стабильности состояний. Кроме того, внедрение Adaptive Computation Time позволяет модели динамически определять, когда завершить обработку.

Согласно новым данным, RDT на 770 млн параметров показывает результаты, сопоставимые с 1.3 млрд параметров стандартной модели. OpenMythos может стать значительным достижением в архитектуре ИИ и предлагает возможность для дальнейшего исследования.

*компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена