Néo-Robot Divulgation/Technologies 1X Pendant longtemps, voir a semblé être une capacité exclusivement biologique. Les humains et les animaux observent l’environnement, reconnaissent les visages, évitent les obstacles et prennent des décisions en quelques fractions de seconde presque sans s’en rendre compte. Mais aujourd’hui, les machines apprennent également à faire quelque chose de similaire. Grâce aux progrès de l’intelligence artificielle et de la vision par ordinateur, les robots sont désormais capables d’interpréter les informations visuelles de manière de plus en plus sophistiquée. La vision par ordinateur est le domaine de la technologie qui permet aux ordinateurs et aux robots d'interpréter des images et des vidéos. Au lieu de simplement enregistrer ce qui se trouve devant, comme le fait une caméra ordinaire, ces systèmes analysent le contenu visuel pour identifier les personnes, les objets, les mouvements, les distances et même les comportements. Maintenant sur g1 Même si elle est encore loin de la perception humaine, cette technologie transforme les robots en machines capables de percevoir l'environnement, de réagir aux changements et de prendre des décisions en temps réel. Il est déjà présent dans les voitures autonomes, les drones agricoles, les systèmes de sécurité, la surveillance environnementale, les hôpitaux et les lignes de production industrielle. La vision commence par des capteurs Le processus commence par les caméras et les capteurs installés sur le robot. Ces appareils capturent des images de l’environnement en temps réel, fonctionnant de la même manière que les yeux humains. Selon l'application, différents types de capteurs peuvent être utilisés. Parmi les plus courantes figurent les caméras RVB traditionnelles, qui enregistrent les couleurs comme une caméra conventionnelle. Les capteurs infrarouges, capables de détecter la chaleur ou de fonctionner dans des environnements sombres, sont également largement utilisés, en plus des caméras thermiques, utilisées pour visualiser les différences de température. Une startup brésilienne crée un « cerveau » avec l'IA pour rendre les robots plus intelligents Mais voir ne suffit pas. Le robot doit également comprendre la profondeur et la position spatiale à l’aide de capteurs de profondeur. Les modèles les plus simples, qui estiment la distance entre les objets environnants, sont déjà très répandus. Ils apparaissent par exemple dans les robots aspirateurs domestiques, qui évitent tout seuls les meubles et les escaliers. Les modèles les plus avancés utilisent les systèmes LiDAR, une technologie basée sur des faisceaux laser qui crée des cartes tridimensionnelles de l'environnement avec une plus grande précision. Une autre technique est la vision stéréoscopique, qui combine deux caméras simultanément pour calculer la profondeur d'une manière similaire à la vision humaine. Interprétation de l'IA Après avoir capturé les images, l’intelligence artificielle entre en action. Les algorithmes traitent chaque image de la caméra à la recherche de modèles visuels. Les réseaux neuronaux artificiels profonds, inspirés du cerveau humain, sont entraînés avec des millions d’images. Ainsi, ils peuvent reconnaître que certaines combinaisons de formes, de couleurs et de textures correspondent à des personnes, des animaux, des voitures, des meubles, des panneaux, des outils, des arbres ou des routes. Ainsi, le système, en plus d'identifier les éléments d'une scène, classe également ce qu'ils représentent. Dans de nombreuses vidéos d’intelligence artificielle, des cases colorées apparaissent autour des personnes et des objets. Ces marquages ​​sont générés automatiquement par les algorithmes. Un robot chinois court 100 mètres en 10 secondes et se rapproche du record d'Usain Bolt. Divulgation/Unitree Il convient de distinguer ce type d’IA des soi-disant LLM (Large Language Models), comme ChatGPT, qui se concentrent sur le traitement et la génération du langage humain. Les deux utilisent des réseaux de neurones profonds, mais avec des données et des objectifs complètement différents : alors que les LLM analysent le texte, la vision par ordinateur se spécialise dans l’interprétation des pixels et des formes pour la navigation dans l’espace physique. De nombreux systèmes vont au-delà de la reconnaissance et effectuent une reconstruction et une cartographie 3D de l’environnement. Certains robots sont capables de créer des cartes complètes des lieux qu’ils traversent, en temps réel. Ce processus est connu sous le nom de SLAM, acronyme de Simultaneous Localisation and Mapping, l'une des technologies les plus importantes de la robotique moderne. Applications, avancées et limites Malgré des progrès impressionnants, les robots voient le monde encore très différemment des humains. Nous disposons d’une extraordinaire capacité d’interprétation contextuelle, quelque chose que l’intelligence artificielle est encore en train d’apprendre. Un simple objet partiellement caché ou un changement inattendu d’éclairage peuvent perturber les systèmes automatiques. Il existe également un énorme défi informatique : pour voir en temps réel, un robot doit traiter des milliers, voire des millions de calculs par seconde, ce qui nécessite des capteurs sophistiqués, des algorithmes optimisés et un matériel puissant. Une avancée importante a été celle des unités de traitement graphique (GPU), microprocesseurs spécialisés dans les images, créés à l'origine pour les jeux vidéo. Démonstration de robot avec le modèle Isaac Gr00t N1, de Nvidia Divulgation/Nvidia Un autre goulot d’étranglement est que l’étiquetage d’une grande quantité de données est souvent un processus long et coûteux. Les chercheurs sont constamment à la recherche de nouvelles approches. Une publication récente de notre équipe du PUC-Rio, dans le Journal Of Imaging Informatics In Medicine, propose une méthodologie inspirée de l'enseignement constructiviste pour identifier les cas incertains et déclencher efficacement des interventions humaines pendant l'entraînement. En pratique, les résultats sont déjà remarquables. Dans les véhicules autonomes, par exemple, la vision par ordinateur fonctionne dans des situations extrêmement complexes. Reconnaît les panneaux de signalisation, les voies, les piétons et les obstacles devant vous. En outre, ils doivent également détecter les conditions météorologiques et les mouvements d’autres véhicules. Tout cela en quelques millisecondes, pendant que la voiture roule. Dans l’industrie, les robots équipés de vision par ordinateur effectuent déjà des contrôles qualité capables d’identifier des défauts imperceptibles à l’œil humain. Dans les hôpitaux, des systèmes intelligents analysent les examens médicaux pour détecter les premiers signes de maladie. Dans l’agriculture, les drones surveillent les cultures et détectent les pannes, les ravageurs et les problèmes d’irrigation. La tendance est aux machines à vision artificielle de plus en plus présentes dans la vie quotidienne. La capacité de voir des robots transformés de simples machines automatisées en systèmes capables de percevoir et d’interagir avec le monde qui les entoure. Et cette révolution visuelle ne fait que commencer. Alberto Barbosa Raposo reçoit un financement de la FAPERJ et du CNPq. Alexandre Soares ne consulte, ne travaille, ne détient d'actions ni ne reçoit de financement d'aucune entreprise ou organisation qui pourrait bénéficier de la publication de cet article et n'a divulgué aucun lien pertinent au-delà de sa position académique.