От автономных автомобилей до больниц: как роботы могут видеть, что вокруг них
📖 Источник статьи — 🇧🇷 ПортугальскийНео Робот
Раскрытие информации/1X Technologies
Долгое время зрение казалось исключительно биологической способностью. Люди и животные наблюдают за окружающей средой, распознают лица, избегают препятствий и принимают решения за доли секунды, почти не осознавая этого.
Однако сегодня машины учатся делать нечто подобное. Благодаря достижениям в области искусственного интеллекта и компьютерного зрения роботы теперь могут интерпретировать визуальную информацию все более сложным способом.
Компьютерное зрение — это область технологий, которая позволяет компьютерам и роботам интерпретировать изображения и видео.
Вместо того, чтобы просто записывать то, что находится впереди, как это делает обычная камера, эти системы анализируют визуальный контент, чтобы идентифицировать людей, объекты, движения, расстояния и даже поведение.
Сейчас на g1
Хотя эта технология еще далека от человеческого восприятия, она превращает роботов в машины, способные воспринимать окружающую среду, реагировать на изменения и принимать решения в режиме реального времени.
Он уже присутствует в автономных автомобилях, сельскохозяйственных дронах, системах безопасности, экологическом мониторинге, больницах и промышленных производственных линиях.
Зрение начинается с датчиков
Процесс начинается с установки на робота камер и датчиков. Эти устройства фиксируют изображения окружающей среды в режиме реального времени, работая аналогично человеческому глазу. В зависимости от применения могут использоваться различные типы датчиков.
Среди наиболее распространенных — традиционные камеры RGB, которые записывают цвета, как обычные камеры.
Помимо тепловизионных камер, используемых для визуализации разницы температур, также широко используются инфракрасные датчики, способные обнаруживать тепло или работать в темноте.
Бразильский стартап создает «мозг» с искусственным интеллектом, чтобы сделать роботов умнее
Но увидеть недостаточно. Роботу также необходимо понимать глубину и пространственное положение с помощью датчиков глубины.
Простейшие модели, оценивающие расстояние между окружающими объектами, уже получили широкое распространение. Они появляются, например, в бытовых роботах-пылесосах, которые самостоятельно обходят мебель и лестницы.
В самых продвинутых моделях используются системы LiDAR — технология, основанная на лазерных лучах, которая с большей точностью создает трехмерные карты окружающей среды.
Другой метод — стереовидение, которое объединяет две камеры одновременно для расчета глубины аналогично человеческому зрению.
Интерпретация ИИ
После захвата изображений в дело вступает искусственный интеллект. Алгоритмы обрабатывают каждый кадр камеры в поисках визуальных закономерностей.
Глубокие искусственные нейронные сети, вдохновленные человеческим мозгом, обучаются на миллионах изображений.
Таким образом, они могут распознать, что определенные комбинации форм, цветов и текстур соответствуют людям, животным, автомобилям, мебели, знакам, инструментам, деревьям или дорогам.
При этом система, помимо идентификации элементов сцены, также классифицирует то, что они представляют. Во многих видеороликах об искусственном интеллекте вокруг людей и объектов появляются цветные прямоугольники. Эти маркировки автоматически генерируются алгоритмами.
Китайский робот пробегает 100 метров за 10 секунд и приближается к рекорду Усейна Болта.
Раскрытие информации/Unitree
Стоит отличать этот тип ИИ от так называемых LLM (Large Language Models), таких как ChatGPT, которые ориентированы на обработку и генерацию человеческого языка.
Оба используют глубокие нейронные сети, но с совершенно разными данными и целями: в то время как LLM анализируют текст, компьютерное зрение специализируется на интерпретации пикселей и форм для навигации в физическом пространстве.
Многие системы выходят за рамки узнавания и выполняют 3D-реконструкцию и картографирование окружающей среды. Некоторые роботы способны создавать полные карты мест, через которые они проходят, в режиме реального времени.
Этот процесс известен как SLAM, аббревиатура от «Одновременная локализация и картографирование», одна из наиболее важных технологий в современной робототехнике. Приложения, преимущества и ограничения
Несмотря на впечатляющие достижения, роботы по-прежнему видят мир совсем не так, как люди.
У нас есть исключительная способность к контекстуальной интерпретации, чему искусственный интеллект все еще учится. Простой частично скрытый объект или неожиданное изменение освещения могут сбить с толку автоматические системы.
Существует также огромная вычислительная задача: чтобы видеть в реальном времени, робот должен обрабатывать тысячи или даже миллионы вычислений в секунду, для чего требуются сложные датчики, оптимизированные алгоритмы и мощное оборудование.
Важным достижением стали графические процессоры (GPU), микропроцессоры, специализирующиеся на обработке изображений, изначально созданные для видеоигр.
Демонстрация робота с моделью Isaac Gr00t N1 от Nvidia
Раскрытие информации/Nvidia
Еще одним узким местом является то, что маркировка большого объема данных часто является дорогостоящим и трудоемким процессом. Исследователи постоянно ищут новые подходы.
Недавняя публикация нашей команды из PUC-Рио в журнале «Информатика визуализации в медицине» предлагает методологию, вдохновленную конструктивистским учением, позволяющую выявлять неопределенные случаи и эффективно инициировать вмешательство человека во время обучения.
На практике результаты уже впечатляют. Например, в автономных транспортных средствах компьютерное зрение работает в чрезвычайно сложных ситуациях. Распознает дорожные знаки, полосы движения, пешеходов и препятствия впереди.
Кроме того, им также необходимо обнаруживать погодные условия и движение других транспортных средств. Все это за несколько миллисекунд, пока машина движется.
В промышленности роботы, оснащенные компьютерным зрением, уже проводят проверку качества, способную выявлять незаметные для человеческого глаза дефекты.
В больницах интеллектуальные системы анализируют медицинские осмотры на предмет ранних признаков заболеваний. В сельском хозяйстве дроны следят за посевами и обнаруживают неисправности, вредителей и проблемы с ирригацией.
Тенденция заключается в том, что машины с искусственным зрением все чаще присутствуют в повседневной жизни.
Возможность увидеть превратила роботов из простых автоматизированных машин в системы, способные воспринимать окружающий мир и взаимодействовать с ним. И эта визуальная революция только начинается.
Альберто Барбоза Рапозо получает финансирование от FAPERJ и CNPq.
Александр Соарес не консультирует, не работает, не владеет акциями и не получает финансирования от какой-либо компании или организации, которые могли бы получить выгоду от публикации этой статьи, и не раскрыл каких-либо соответствующих связей, помимо своей академической должности.
← Назад