نيو روبوت الإفصاح / تقنيات 1X لفترة طويلة، بدت الرؤية وكأنها قدرة بيولوجية حصرية. يراقب البشر والحيوانات البيئة، ويتعرفون على الوجوه، ويتجنبون العقبات ويتخذون القرارات في أجزاء من الثانية تقريبًا دون أن يدركوا ذلك. لكن اليوم، تتعلم الآلات أيضًا القيام بشيء مماثل. بفضل التقدم في الذكاء الاصطناعي ورؤية الكمبيوتر، أصبحت الروبوتات الآن قادرة على تفسير المعلومات المرئية بطريقة متطورة بشكل متزايد. رؤية الكمبيوتر هي مجال التكنولوجيا الذي يسمح لأجهزة الكمبيوتر والروبوتات بتفسير الصور ومقاطع الفيديو. بدلاً من مجرد تسجيل ما هو أمامك، كما تفعل الكاميرا الشائعة، تقوم هذه الأنظمة بتحليل المحتوى المرئي لتحديد الأشخاص والأشياء والحركات والمسافات وحتى السلوكيات. الآن على g1 وعلى الرغم من أنها لا تزال بعيدة عن الإدراك البشري، إلا أن هذه التكنولوجيا تعمل على تحويل الروبوتات إلى آلات قادرة على إدراك البيئة والتفاعل مع التغييرات واتخاذ القرارات في الوقت الفعلي. وهي موجودة بالفعل في السيارات ذاتية القيادة، والطائرات الزراعية بدون طيار، وأنظمة الأمن، والمراقبة البيئية، والمستشفيات وخطوط الإنتاج الصناعي. تبدأ الرؤية بأجهزة الاستشعار تبدأ العملية بالكاميرات وأجهزة الاستشعار المثبتة على الروبوت. تلتقط هذه الأجهزة صورًا للبيئة في الوقت الفعلي، وتعمل بطريقة مشابهة للعين البشرية. اعتمادا على التطبيق، يمكن استخدام أنواع مختلفة من أجهزة الاستشعار. من بين الكاميرات الأكثر شيوعًا هي كاميرات RGB التقليدية، والتي تسجل الألوان مثل الكاميرا التقليدية. كما تُستخدم على نطاق واسع أجهزة استشعار تعمل بالأشعة تحت الحمراء، قادرة على اكتشاف الحرارة أو العمل في البيئات المظلمة، بالإضافة إلى الكاميرات الحرارية المستخدمة لتصور الاختلافات في درجات الحرارة. شركة برازيلية ناشئة تبتكر "عقلًا" باستخدام الذكاء الاصطناعي لجعل الروبوتات أكثر ذكاءً لكن الرؤية ليست كافية. يحتاج الروبوت أيضًا إلى فهم العمق والموقع المكاني باستخدام مستشعرات العمق. إن أبسط النماذج التي تقدر المسافة بين الأشياء المحيطة، منتشرة بالفعل على نطاق واسع. تظهر، على سبيل المثال، في المكانس الكهربائية المنزلية الروبوتية، والتي تتجنب الأثاث والسلالم من تلقاء نفسها. تستخدم النماذج الأكثر تقدمًا أنظمة LiDAR، وهي تقنية تعتمد على أشعة الليزر التي تنشئ خرائط ثلاثية الأبعاد للبيئة بدقة أكبر. وهناك تقنية أخرى وهي الرؤية المجسمة، والتي تجمع بين كاميرتين في وقت واحد لحساب العمق بطريقة تشبه الرؤية البشرية. تفسير الذكاء الاصطناعي بعد التقاط الصور، يأتي الذكاء الاصطناعي إلى حيز التنفيذ. تقوم الخوارزميات بمعالجة كل إطار كاميرا بحثًا عن أنماط مرئية. يتم تدريب الشبكات العصبية الاصطناعية العميقة، المستوحاة من الدماغ البشري، بملايين الصور. وبالتالي، يمكنهم إدراك أن مجموعات معينة من الأشكال والألوان والأنسجة تتوافق مع الأشخاص أو الحيوانات أو السيارات أو الأثاث أو اللافتات أو الأدوات أو الأشجار أو الطرق. وبهذا، يقوم النظام، بالإضافة إلى تحديد عناصر المشهد، بتصنيف ما تمثله أيضًا. في العديد من مقاطع فيديو الذكاء الاصطناعي، تظهر مربعات ملونة حول الأشخاص والأشياء. يتم إنشاء هذه العلامات تلقائيًا بواسطة الخوارزميات. يقطع الروبوت الصيني مسافة 100 متر في 10 ثوانٍ ويقترب من الرقم القياسي المسجل باسم يوسين بولت. الإفصاح / يونيتري يجدر تمييز هذا النوع من الذكاء الاصطناعي عما يسمى LLMs (نماذج اللغة الكبيرة)، مثل ChatGPT، والتي تركز على معالجة وتوليد اللغة البشرية. كلاهما يستخدم شبكات عصبية عميقة، ولكن ببيانات وأهداف مختلفة تمامًا: بينما يقوم حاملو ماجستير إدارة الأعمال بتحليل النص، تتخصص رؤية الكمبيوتر في تفسير وحدات البكسل والأشكال للتنقل في الفضاء المادي. تتجاوز العديد من الأنظمة التعرف عليها وتقوم بإعادة البناء ورسم خرائط ثلاثية الأبعاد للبيئة. بعض الروبوتات قادرة على إنشاء خرائط كاملة للأماكن التي تمر عبرها، في الوقت الفعلي. تُعرف هذه العملية باسم SLAM، وهو اختصار لـSimultaneous Localization and Mapping، وهي إحدى أهم التقنيات في مجال الروبوتات الحديثة. Aplicações, avanços e limitações Apesar dos avanços impressionantes, os robôs ainda enxergam o mundo de forma muito diferente dos humanos. Nós temos uma capacidade extraordinária de interpretação contextual, algo que a inteligência artificial ainda está aprendendo. Um simples objeto parcialmente escondido ou uma mudança inesperada de iluminação pode confundir sistemas automáticos. Há também um enorme desafio computacional: para enxergar em tempo real, um robô precisa processar milhares ou até milhões de cálculos por segundo, exigindo sensores sofisticados, algoritmos otimizados e hardware poderoso. Um avanço importante foi o das Unidades de Processamento Gráfico (GPUs), microprocessadores especializados em imagens, originalmente criado para videogames. Demonstração de robô com modelo Isaac Gr00t N1, da Nvidia Divulgação/Nvidia Outro gargalo é que, muitas vezes, rotular uma grande quantidade de dados é um processo dispendioso e demorado. Pesquisadores buscam constantemente novas abordagens. Uma publicação recente de nossa equipe da PUC-Rio, no Journal Of Imaging Informatics In Medicine, propõe uma metodologia inspirada no ensino construtivista para identificar casos incertos e acionar eficientemente intervenções humanas durante o treinamento. Na prática, os resultados já são notáveis. Em veículos autônomos, por exemplo, a visão computacional funciona em situações extremamente complexas. Reconhece placas de trânsito, faixas de pista, pedestres e obstáculos à frente. Além disso, também precisam detectar condições climáticas e a movimentação de outros veículos. Tudo isso em poucos milissegundos, enquanto o carro está em movimento. Na indústria, robôs equipados com visão computacional já realizam inspeções de qualidade capazes de identificar defeitos imperceptíveis ao olho humano. Em hospitais, sistemas inteligentes analisam exames médicos em busca de sinais precoces de doenças. Na agricultura, drones monitoram plantações e detectam falhas, pragas e problemas de irrigação. A tendência é que máquinas com visão artificial estejam cada vez mais presentes no cotidiano. A capacidade de enxergar transformou os robôs de simples máquinas automatizadas em sistemas capazes de perceber e interagir com o mundo ao redor. E essa revolução visual está apenas começando. Alberto Barbosa Raposo recebe financiamento da FAPERJ e CNPq. Alexandre Soares não presta consultoria, trabalha, possui ações ou recebe financiamento de qualquer empresa ou organização que poderia se beneficiar com a publicação deste artigo e não revelou nenhum vínculo relevante além de seu cargo acadêmico.