Исследователи представили Robotic Transformer 2 (RT-2) — инновационную модель, сочетающую визуальные, языковые и действующие аспекты (VLA). Эта модель обучается на данных как из интернета, так и с использованием робототехники, что позволяет ей генерировать общие инструкции для управления роботами.
Стремительно развивающиеся модели зрения и языка (VLM) стали мастерами распознавания визуальных паттернов и работы на различных языках. Однако, чтобы достигнуть такого же уровня роботы, им нужно собирала данные из реального мира. RT-2, построенный на базе своего предшественника RT-1, использует демонстрации 13 роботов, обученных в офисной кухне.
Одним из ключевых достижений RT-2 является способность интерпретировать новые команды и выполнять простое рассуждение. Например, он может распознать, какой предмет подойдет в качестве импровизированного молотка. Благодаря интеграции цепей рассуждений модель демонстрирует значительно улучшенные возможности в распознавании и управлении действиями робота, позволяя работать с ситуациями, которые ранее не были ей знакомы.
С помощью RT-2, который эффективно комбинирует предобучение на веб-данных и робототехнические данные, возможно создать более универсальных роботов, способных к долгосрочному планированию и решению разнообразных задач в реальном мире.
