Совсем недавно группа исследователей из Стэнфордского университета, Принстонского университета и Adobe Research представила новое решение для преодоления проблем долгосрочной памяти в видео мировых моделях. Эти модели, предсказывающие будущие кадры на основе действий, имеют огромный потенциал для разработки продвинутых ИИ-систем, однако ограничения традиционных механизмов внимания затрудняют долгосрочное сохранение контекста.
В своей статье под названием Long-Context State-Space Video World Models авторы предлагают инновационную архитектуру, использующую Государственные Пространственные Модели (SSMs), что позволяет эффективно обрабатывать более длинные последовательности данных. Стандартная сложность работы механизмов внимания быстро возрастает с увеличением длины последовательности, что приводит к тому, что модели забывают ранее полученные данные.
Ключевая находка команды заключается в том, что SSMs, используемые для моделирования последовательностей, можно эффективно адаптировать для анализа длинных видео. В результатах тестирования на сложных наборах данных, таких как Memory Maze и Minecraft, их модель LSSVWM значительно превзошла базовые методы в сохранении дальнозапоминаемости, демонстрируя лучшие показатели консистентности и точности.
Эти достижения открывают перспективы для создания более надежных ИИ-систем, способных пристально следить за событиями в сложных динамических средах.
