Исследователи из Массачусетского технологического института (MIT) и NVIDIA разработали алгоритм cuTAMP, который позволяет роботам решать сложные задачи за секунды, оценивая тысячи возможных действий одновременно.
Опубликованные результататы исследования на портале MIT News и на сервере arXiv, показывают, что новый алгоритм может ускорить действия роботов на складах, заводах и даже в быту, экономя время и деньги.
cuTAMP разбивает задачу на два уровня: план задач (что делать) и план движений (как делать). Используя CUDA — платформу NVIDIA для параллельных вычислений, — он моделирует до 10 000 решений одновременно. Сначала алгоритм отбирает перспективные варианты, затем оптимизирует их, проверяя на столкновения и соответствие ограничениям, пока не найдет лучший план действия. В реальных тестах на Kinova Gen3 робот укладывал кубики за 1,5 секунды, перемещая препятствия, а для задачи с 5698 вариантами тратил менее 30 секунд.
Традиционные алгоритмы проверяют действия по одному, тратя минуты или часы, тогда как cuTAMP использует графические процессоры для параллельной обработки тысяч решений, продумывая ходы наперед.
В тестах на симуляции задач, похожих на «Тетрис», cuTAMP находил планы без столкновений за 2–5 секунд, тогда как последовательные методы тратили десятки минут. На реальной роботизированной руке (MIT) и гуманоидном роботе (NVIDIA) алгоритм всегда решал задачу за 30 секунд.
cuTAMP сочетает два подхода: сначала отбирает наиболее перспективные варианты действий, а затем улучшает их. Вместо того чтобы перебирать все возможные решения, он сразу сосредотачивается на тех, которые, скорее всего, подходят под заданные условия — например, не сталкиваются с другими объектами и ведут к цели. Эти варианты он быстро проверяет параллельно, чтобы выбрать наилучшее решение.
Упаковка — сложная задача для роботов: нужно учитывать форму предметов, их ориентацию, хрупкость и препятствия. На складах, где обрабатываются миллионы заказов в день, задержка в планировании даже на минуту снижает прибыль, а cuTAMP сокращает время до секунд, повышая эффективность на 50–100%.
Алгоритм не требует данных для обучения, в отличие от ИИ-моделей, что делает его универсальным — от упаковки коробок до помощи по дому. Он уже протестирован на манипуляторах и гуманоидах, а в будущем может реагировать на голосовые команды, интегрируясь с языковыми моделями. Это шаг к роботам, способным адаптироваться к любым задачам в реальном времени.
Исследователи планируют интегрировать cuTAMP с языковыми и визуальными моделями, чтобы роботы понимали команды вроде «упакуй чемодан» или «подготовь продукты для этого блюда». Это может сократить время настройки роботов на 70–80%. Алгоритм также найдет применение в сельском хозяйстве, медицине (роботизированная хирургия) и быту (домашние помощники).