नव रोबोट प्रकटीकरण/1एक्स टेक्नोलॉजीज लंबे समय तक, देखना एक विशेष रूप से जैविक क्षमता की तरह लगता था। मनुष्य और जानवर पर्यावरण का निरीक्षण करते हैं, चेहरों को पहचानते हैं, बाधाओं से बचते हैं और लगभग बिना सोचे-समझे एक सेकंड के अंश में निर्णय ले लेते हैं। हालाँकि, आज मशीनें भी कुछ ऐसा ही करना सीख रही हैं। कृत्रिम बुद्धिमत्ता और कंप्यूटर दृष्टि में प्रगति के लिए धन्यवाद, रोबोट अब तेजी से परिष्कृत तरीके से दृश्य जानकारी की व्याख्या करने में सक्षम हैं। कंप्यूटर विज़न प्रौद्योगिकी का वह क्षेत्र है जो कंप्यूटर और रोबोट को छवियों और वीडियो की व्याख्या करने की अनुमति देता है। सामने जो है उसे रिकॉर्ड करने के बजाय, जैसा कि एक आम कैमरा करता है, ये सिस्टम लोगों, वस्तुओं, गतिविधियों, दूरियों और यहां तक ​​कि व्यवहारों की पहचान करने के लिए दृश्य सामग्री का विश्लेषण करते हैं। अब g1 पर हालाँकि यह अभी भी मानवीय धारणा से दूर है, यह तकनीक रोबोटों को पर्यावरण को समझने, परिवर्तनों पर प्रतिक्रिया करने और वास्तविक समय में निर्णय लेने में सक्षम मशीनों में बदल रही है। यह स्वायत्त कारों, कृषि ड्रोन, सुरक्षा प्रणालियों, पर्यावरण निगरानी, ​​अस्पतालों और औद्योगिक उत्पादन लाइनों में पहले से ही मौजूद है। दृष्टि सेंसर से शुरू होती है यह प्रक्रिया रोबोट पर स्थापित कैमरों और सेंसरों से शुरू होती है। ये उपकरण मानव आंखों की तरह ही काम करते हुए वास्तविक समय में पर्यावरण की तस्वीरें खींचते हैं। एप्लिकेशन के आधार पर, विभिन्न प्रकार के सेंसर का उपयोग किया जा सकता है। सबसे आम में पारंपरिक आरजीबी कैमरे हैं, जो पारंपरिक कैमरे की तरह रंग रिकॉर्ड करते हैं। तापमान के अंतर को देखने के लिए उपयोग किए जाने वाले थर्मल कैमरों के अलावा, इन्फ्रारेड सेंसर, जो गर्मी का पता लगाने या अंधेरे वातावरण में काम करने में सक्षम हैं, का भी व्यापक रूप से उपयोग किया जाता है। ब्राजीलियाई स्टार्टअप ने रोबोट को स्मार्ट बनाने के लिए AI से बनाया 'दिमाग' लेकिन देखना ही काफी नहीं है. रोबोट को गहराई सेंसर का उपयोग करके गहराई और स्थानिक स्थिति को समझने की भी आवश्यकता है। सबसे सरल मॉडल, जो आसपास की वस्तुओं के बीच की दूरी का अनुमान लगाते हैं, पहले से ही व्यापक हैं। उदाहरण के लिए, वे घरेलू रोबोट वैक्यूम क्लीनर में दिखाई देते हैं, जो अपने आप फर्नीचर और सीढ़ियों से बचते हैं। सबसे उन्नत मॉडल LiDAR सिस्टम का उपयोग करते हैं, जो लेजर बीम पर आधारित एक तकनीक है जो अधिक सटीकता के साथ पर्यावरण के त्रि-आयामी मानचित्र बनाती है। एक अन्य तकनीक स्टीरियो विज़न है, जो मानव दृष्टि के समान गहराई की गणना करने के लिए दो कैमरों को एक साथ जोड़ती है। एआई व्याख्या छवियों को कैप्चर करने के बाद, कृत्रिम बुद्धिमत्ता कार्रवाई में आती है। एल्गोरिदम दृश्य पैटर्न की तलाश में प्रत्येक कैमरा फ्रेम को संसाधित करते हैं। मानव मस्तिष्क से प्रेरित गहरे कृत्रिम तंत्रिका नेटवर्क को लाखों छवियों के साथ प्रशिक्षित किया जाता है। इस प्रकार, वे पहचान सकते हैं कि आकार, रंग और बनावट के कुछ संयोजन लोगों, जानवरों, कारों, फर्नीचर, संकेतों, उपकरणों, पेड़ों या सड़कों से मेल खाते हैं। इसके साथ, सिस्टम, किसी दृश्य के तत्वों की पहचान करने के अलावा, यह भी वर्गीकृत करता है कि वे क्या प्रतिनिधित्व करते हैं। कई कृत्रिम बुद्धिमत्ता वीडियो में, लोगों और वस्तुओं के चारों ओर रंगीन बक्से दिखाई देते हैं। ये चिह्न एल्गोरिदम द्वारा स्वचालित रूप से उत्पन्न होते हैं। चीनी रोबोट 10 सेकंड में 100 मीटर दौड़ता है और उसेन बोल्ट के रिकॉर्ड के करीब पहुंच जाता है। प्रकटीकरण/यूनिट्री इस प्रकार के एआई को चैटजीपीटी जैसे तथाकथित एलएलएम (बड़े भाषा मॉडल) से अलग करना उचित है, जो मानव भाषा को संसाधित करने और उत्पन्न करने पर केंद्रित हैं। दोनों गहरे तंत्रिका नेटवर्क का उपयोग करते हैं, लेकिन पूरी तरह से अलग डेटा और उद्देश्यों के साथ: जबकि एलएलएम पाठ का विश्लेषण करते हैं, कंप्यूटर दृष्टि भौतिक स्थान में नेविगेशन के लिए पिक्सेल और आकृतियों की व्याख्या करने में माहिर है। कई प्रणालियाँ मान्यता से परे जाकर पर्यावरण का 3डी पुनर्निर्माण और मानचित्रण करती हैं। कुछ रोबोट वास्तविक समय में उन स्थानों का पूरा नक्शा बनाने में सक्षम हैं जहां से वे गुजरते हैं। इस प्रक्रिया को SLAM के रूप में जाना जाता है, जो एक साथ स्थानीयकरण और मानचित्रण का संक्षिप्त रूप है, जो आधुनिक रोबोटिक्स में सबसे महत्वपूर्ण प्रौद्योगिकियों में से एक है। अनुप्रयोग, प्रगति और सीमाएँ प्रभावशाली प्रगति के बावजूद, रोबोट अभी भी दुनिया को मनुष्यों से बहुत अलग तरीके से देखते हैं। हमारे पास प्रासंगिक व्याख्या की असाधारण क्षमता है, जिसे कृत्रिम बुद्धिमत्ता अभी भी सीख रही है। एक साधारण आंशिक रूप से छिपी हुई वस्तु या प्रकाश व्यवस्था में अप्रत्याशित परिवर्तन स्वचालित प्रणालियों को भ्रमित कर सकता है। एक बड़ी कम्प्यूटेशनल चुनौती भी है: वास्तविक समय में देखने के लिए, एक रोबोट को प्रति सेकंड हजारों या लाखों गणनाओं को संसाधित करने की आवश्यकता होती है, जिसके लिए परिष्कृत सेंसर, अनुकूलित एल्गोरिदम और शक्तिशाली हार्डवेयर की आवश्यकता होती है। एक महत्वपूर्ण प्रगति ग्राफ़िक्स प्रोसेसिंग यूनिट्स (जीपीयू) की थी, जो छवियों में विशेष माइक्रोप्रोसेसर थे, जो मूल रूप से वीडियो गेम के लिए बनाए गए थे। एनवीडिया से मॉडल आइज़ैक Gr00t N1 के साथ रोबोट प्रदर्शन प्रकटीकरण/एनवीडिया एक और अड़चन यह है कि बड़ी मात्रा में डेटा को लेबल करना अक्सर एक महंगी और समय लेने वाली प्रक्रिया है। शोधकर्ता लगातार नए दृष्टिकोण की तलाश में रहते हैं। जर्नल ऑफ इमेजिंग इंफॉर्मेटिक्स इन मेडिसिन में पीयूसी-रियो में हमारी टीम द्वारा हाल ही में प्रकाशित एक प्रकाशन, अनिश्चित मामलों की पहचान करने और प्रशिक्षण के दौरान मानवीय हस्तक्षेप को कुशलतापूर्वक ट्रिगर करने के लिए रचनात्मक शिक्षण से प्रेरित एक पद्धति का प्रस्ताव करता है। व्यवहार में, परिणाम पहले से ही उल्लेखनीय हैं। उदाहरण के लिए, स्वायत्त वाहनों में, कंप्यूटर दृष्टि अत्यंत जटिल परिस्थितियों में काम करती है। यातायात संकेतों, गलियों, पैदल यात्रियों और आगे आने वाली बाधाओं को पहचानता है। इसके अलावा, उन्हें मौसम की स्थिति और अन्य वाहनों की आवाजाही का भी पता लगाना होगा। यह सब कुछ मिलीसेकंड में, जबकि कार चल रही है। उद्योग में, कंप्यूटर विज़न से लैस रोबोट पहले से ही गुणवत्ता निरीक्षण करते हैं जो मानव आंखों के लिए अदृश्य दोषों की पहचान करने में सक्षम हैं। अस्पतालों में, बुद्धिमान प्रणालियाँ बीमारी के शुरुआती लक्षणों के लिए चिकित्सा परीक्षाओं का विश्लेषण करती हैं। कृषि में, ड्रोन फसलों की निगरानी करते हैं और विफलताओं, कीटों और सिंचाई समस्याओं का पता लगाते हैं। रोजमर्रा की जिंदगी में कृत्रिम दृष्टि वाली मशीनों के तेजी से मौजूद होने का चलन है। सरल स्वचालित मशीनों से अपने आसपास की दुनिया को समझने और उसके साथ बातचीत करने में सक्षम प्रणालियों में परिवर्तित रोबोटों को देखने की क्षमता। और यह दृश्य क्रांति अभी शुरुआत है. अल्बर्टो बारबोसा रापोसो को FAPERJ और CNPq से फंडिंग मिलती है। अलेक्जेंड्रे सोरेस इस लेख के प्रकाशन से लाभान्वित होने वाली किसी भी कंपनी या संगठन से परामर्श नहीं करते हैं, उनके साथ काम नहीं करते हैं, उनके शेयर नहीं रखते हैं या उनसे धन प्राप्त नहीं करते हैं और उन्होंने अपनी शैक्षणिक स्थिति से परे किसी भी प्रासंगिक लिंक का खुलासा नहीं किया है।