De los coches autónomos a los hospitales: cómo los robots pueden ver lo que les rodea
⚡ Resumen rápido
neo-robot Divulgación/Tecnologías 1X Durante mucho tiempo, ver parecía una capacidad exclusivamente biológica.
neo-robot
Divulgación/Tecnologías 1X
Durante mucho tiempo, ver parecía una capacidad exclusivamente biológica. Humanos y animales observamos el entorno, reconocemos rostros, evitamos obstáculos y tomamos decisiones en fracciones de segundo casi sin darnos cuenta.
Sin embargo, hoy en día las máquinas también están aprendiendo a hacer algo similar. Gracias a los avances en inteligencia artificial y visión por computadora, los robots ahora son capaces de interpretar información visual de una manera cada vez más sofisticada.
La visión por computadora es el área de la tecnología que permite a las computadoras y robots interpretar imágenes y videos.
En lugar de limitarse a grabar lo que hay delante, como hace una cámara común, estos sistemas analizan el contenido visual para identificar personas, objetos, movimientos, distancias e incluso comportamientos.
Ahora en g1
Aunque todavía está lejos de la percepción humana, esta tecnología ha ido transformando a los robots en máquinas capaces de percibir el entorno, reaccionar ante los cambios y tomar decisiones en tiempo real.
Ya está presente en coches autónomos, drones agrícolas, sistemas de seguridad, monitorización medioambiental, hospitales y líneas de producción industrial.
La visión comienza con los sensores
El proceso comienza con cámaras y sensores instalados en el robot. Estos dispositivos capturan imágenes del entorno en tiempo real, funcionando de forma similar al ojo humano. Dependiendo de la aplicación, se pueden utilizar diferentes tipos de sensores.
Entre las más comunes se encuentran las cámaras RGB tradicionales, que graban colores como una cámara convencional.
También son muy utilizados los sensores infrarrojos, capaces de detectar calor o funcionar en ambientes oscuros, además de las cámaras térmicas, utilizadas para visualizar las diferencias de temperatura.
Startup brasileña crea 'cerebro' con IA para hacer que los robots sean más inteligentes
Pero ver no es suficiente. El robot también necesita comprender la profundidad y la posición espacial mediante sensores de profundidad.
Los modelos más simples, que estiman la distancia entre los objetos circundantes, ya están muy extendidos. Aparecen, por ejemplo, en los robots aspiradores domésticos, que evitan por sí solos muebles y escaleras.
Los modelos más avanzados utilizan sistemas LiDAR, una tecnología basada en rayos láser que crea mapas tridimensionales del entorno con mayor precisión.
Otra técnica es la visión estéreo, que combina dos cámaras simultáneamente para calcular la profundidad de forma similar a la visión humana.
Interpretación de la IA
Tras capturar las imágenes, la inteligencia artificial entra en acción. Los algoritmos procesan cada fotograma de la cámara en busca de patrones visuales.
Las redes neuronales artificiales profundas, inspiradas en el cerebro humano, se entrenan con millones de imágenes.
Así, pueden reconocer que determinadas combinaciones de formas, colores y texturas corresponden a personas, animales, coches, muebles, señales, herramientas, árboles o carreteras.
Con ello, el sistema, además de identificar los elementos de una escena, también clasifica lo que representan. En muchos vídeos de inteligencia artificial, aparecen cuadros de colores alrededor de personas y objetos. Estas marcas son generadas automáticamente por los algoritmos.
Robot chino corre 100 metros en 10 segundos y se acerca al récord de Usain Bolt.
Divulgación/Unitree
Cabe distinguir este tipo de IA de los llamados LLM (Large Language Models), como ChatGPT, que se centran en procesar y generar el lenguaje humano.
Ambos utilizan redes neuronales profundas, pero con datos y objetivos completamente diferentes: mientras los LLM analizan texto, la visión por computadora se especializa en interpretar píxeles y formas para la navegación en el espacio físico.
Muchos sistemas van más allá del reconocimiento y realizan reconstrucción y mapeo 3D del entorno. Algunos robots son capaces de crear mapas completos de los lugares por los que pasan, en tiempo real.
Este proceso se conoce como SLAM, acrónimo de Localización y Mapeo Simultáneo, una de las tecnologías más importantes de la robótica moderna. Aplicaciones, avances y limitaciones
A pesar de los impresionantes avances, los robots todavía ven el mundo de manera muy diferente a los humanos.
Tenemos una extraordinaria capacidad de interpretación contextual, algo que la inteligencia artificial aún está aprendiendo. Un simple objeto parcialmente oculto o un cambio inesperado en la iluminación pueden confundir a los sistemas automáticos.
También existe un enorme desafío computacional: para ver en tiempo real, un robot necesita procesar miles o incluso millones de cálculos por segundo, lo que requiere sensores sofisticados, algoritmos optimizados y hardware potente.
Un avance importante fue el de las Unidades de Procesamiento Gráfico (GPU), microprocesadores especializados en imágenes, creados originalmente para videojuegos.
Demostración de robot con el modelo Isaac Gr00t N1, de Nvidia
Divulgación/Nvidia
Otro obstáculo es que etiquetar una gran cantidad de datos suele ser un proceso costoso y que requiere mucho tiempo. Los investigadores buscan constantemente nuevos enfoques.
Una publicación reciente de nuestro equipo de la PUC-Rio, en el Journal Of Imaging Informatics In Medicine, propone una metodología inspirada en la enseñanza constructivista para identificar casos inciertos y desencadenar eficientemente intervenciones humanas durante el entrenamiento.
En la práctica, los resultados ya son notables. En los vehículos autónomos, por ejemplo, la visión por ordenador funciona en situaciones extremadamente complejas. Reconoce señales de tráfico, carriles, peatones y obstáculos por delante.
Además, también necesitan detectar las condiciones meteorológicas y el movimiento de otros vehículos. Todo ello en unos pocos milisegundos, mientras el coche está en movimiento.
En la industria, robots equipados con visión por ordenador ya realizan inspecciones de calidad capaces de identificar defectos imperceptibles para el ojo humano.
En los hospitales, sistemas inteligentes analizan los exámenes médicos en busca de signos tempranos de enfermedad. En agricultura, los drones monitorean los cultivos y detectan fallas, plagas y problemas de riego.
La tendencia es que las máquinas con visión artificial estén cada vez más presentes en la vida cotidiana.
La capacidad de ver robots transformados de simples máquinas automatizadas a sistemas capaces de percibir e interactuar con el mundo que los rodea. Y esta revolución visual apenas comienza.
Alberto Barbosa Raposo recibe financiamiento de FAPERJ y CNPq.
Alexandre Soares no consulta, trabaja, posee acciones ni recibe financiación de ninguna empresa u organización que pueda beneficiarse de la publicación de este artículo y no ha revelado ningún vínculo relevante más allá de su puesto académico.
← Volver