Google DeepMind объединяет языковую и физическую составляющие AI с Gemini Robotics - Новости нейросетей и искусственного интеллекта (ИИ) со всего мира на русском языке

В мире научной фантастики искусственный интеллект часто управляет удивительными и даже опасными роботами. Однако современные ИИ еще не вышли за пределы чата. Google DeepMind решил изменить это, представив новую версию своего AI-модели Gemini, которая объединяет язык, зрение и физические действия для создания более универсальных роботов.

В демонстрационных видео компания показывает, как роботы с новым модулем Gemini Robotics выполняют задачи по просьбе: складывают бумагу, передают овощи и аккуратно укладывают очки в футляр. Модель позволяет связывать видимые объекты с возможными действиями, расширяя возможности роботов.

Кроме того, была анонсирована версия Gemini Robotics-ER, специализированная на визуальном понимании. Эти разработки открывают новые горизонты в области робототехники, предоставляя исследователям инструменты для обучения своих моделей.

Тем не менее, с внедрением таких технологий возникают новые риски. Google DeepMind представил новый стандарт ASIMOV для оценки потенциально опасного поведения роботов, учитывая множество сценариев, которые могут возникнуть в реальной жизни. Ведущие исследователи заявили, что работа находится на ранней стадии, и коммерциализация технологий пока не планируется.