Исследователи представили Robotic Transformer 2 (RT-2) — модель vision-language-action (VLA), которая обучается на веб-данных и данных о роботах для создания универсальных команд управления. Если самые современные модели, основанные на vision-language models (VLM), способны распознавать визуальные и языковые паттерны, то RT-2 позволяет роботам выполнять сложные запросы, включая принятие решений на основе объектов, о которых они не имели информации на этапе обучения.
RT-2, развивая предыдущие наработки RT-1, был обучен на более чем 6000 экспериментах, продемонстрировав выдающиеся результаты: 90% успешных действий в симуляциях и 62% в новых сценариях. Уникальная способность этой модели применять chain-of-thought reasoning позволяет ей более эффективно справляться с многоступенчатыми задачами, такими как выбор предметов и условия их использования на основе команд пользователей.
Этот прорыв в области робототехники, предложенный RT-2, открывает перспективы для создания общего физического робота, способного мыслить и решать задачи в реальном мире. *компания Meta Platforms Inc. признана экстремистской организацией, ее деятельность на территории России запрещена
