ربات نئو افشا / فن آوری های 1X برای مدت طولانی، دیدن یک توانایی منحصراً بیولوژیکی به نظر می رسید. انسان ها و حیوانات محیط را مشاهده می کنند، چهره ها را می شناسند، از موانع دوری می کنند و تقریباً بدون اینکه متوجه شوند در کسری از ثانیه تصمیم می گیرند. با این حال، امروزه ماشین ها نیز در حال یادگیری انجام کاری مشابه هستند. به لطف پیشرفت در هوش مصنوعی و بینایی کامپیوتری، روبات‌ها اکنون می‌توانند اطلاعات بصری را به روشی پیچیده تفسیر کنند. بینایی رایانه حوزه ای از فناوری است که به رایانه ها و روبات ها اجازه می دهد تصاویر و فیلم ها را تفسیر کنند. این سیستم‌ها به‌جای ضبط آنچه در جلو هستند، مانند یک دوربین معمولی، محتوای بصری را برای شناسایی افراد، اشیاء، حرکات، فواصل و حتی رفتارها تجزیه و تحلیل می‌کنند. اکنون در g1 اگرچه هنوز با درک انسان فاصله زیادی دارد، اما این فناوری ربات ها را به ماشین هایی تبدیل می کند که قادر به درک محیط، واکنش به تغییرات و تصمیم گیری در زمان واقعی هستند. در حال حاضر در خودروهای خودران، هواپیماهای بدون سرنشین کشاورزی، سیستم های امنیتی، نظارت بر محیط زیست، بیمارستان ها و خطوط تولید صنعتی وجود دارد. بینایی با حسگرها شروع می شود این فرآیند با دوربین ها و حسگرهای نصب شده روی ربات آغاز می شود. این دستگاه ها تصاویری از محیط را در زمان واقعی می گیرند و به روشی مشابه چشم انسان عمل می کنند. بسته به کاربرد، می توان از انواع مختلفی از سنسورها استفاده کرد. از رایج ترین آنها دوربین های RGB سنتی هستند که رنگ ها را مانند دوربین های معمولی ضبط می کنند. حسگرهای مادون قرمز که قادر به تشخیص گرما یا عملکرد در محیط‌های تاریک هستند، علاوه بر دوربین‌های حرارتی، برای تجسم تفاوت‌های دما نیز به طور گسترده استفاده می‌شوند. استارت‌آپ برزیلی با هوش مصنوعی «مغز» ایجاد می‌کند تا ربات‌ها را باهوش‌تر کند اما دیدن کافی نیست. ربات همچنین نیاز به درک عمق و موقعیت مکانی با استفاده از حسگرهای عمق دارد. ساده ترین مدل ها، که فاصله بین اشیاء اطراف را تخمین می زنند، در حال حاضر گسترده شده اند. آنها به عنوان مثال در جاروبرقی های ربات خانگی ظاهر می شوند که به تنهایی از مبلمان و پله ها اجتناب می کنند. پیشرفته ترین مدل ها از سیستم های LiDAR استفاده می کنند، فناوری مبتنی بر پرتوهای لیزری که نقشه های سه بعدی از محیط را با دقت بیشتری ایجاد می کند. تکنیک دیگر، دید استریو است که دو دوربین را به طور همزمان برای محاسبه عمق به روشی شبیه به دید انسان ترکیب می کند. تفسیر هوش مصنوعی پس از ثبت تصاویر، هوش مصنوعی وارد عمل می شود. الگوریتم ها هر فریم دوربین را به دنبال الگوهای بصری پردازش می کنند. شبکه‌های عصبی مصنوعی عمیق، با الهام از مغز انسان، با میلیون‌ها تصویر آموزش داده می‌شوند. بنابراین، آنها می توانند تشخیص دهند که ترکیب خاصی از اشکال، رنگ ها و بافت ها با افراد، حیوانات، ماشین ها، مبلمان، علائم، ابزار، درختان یا جاده ها مطابقت دارد. با این کار، سیستم علاوه بر شناسایی عناصر یک صحنه، آنچه را که نمایش می دهند نیز طبقه بندی می کند. در بسیاری از ویدئوهای هوش مصنوعی، جعبه های رنگی در اطراف افراد و اشیاء ظاهر می شوند. این علامت‌گذاری‌ها به‌طور خودکار توسط الگوریتم‌ها ایجاد می‌شوند. ربات چینی 100 متر را در 10 ثانیه می دود و به رکورد یوسین بولت نزدیک می شود. افشای / Unitree شایان ذکر است که این نوع هوش مصنوعی را از مدل های به اصطلاح LLM (مدل های زبان بزرگ) مانند ChatGPT که بر روی پردازش و تولید زبان انسانی متمرکز هستند، متمایز می کند. هر دو از شبکه های عصبی عمیق استفاده می کنند، اما با داده ها و اهداف کاملاً متفاوت: در حالی که LLM ها متن را تجزیه و تحلیل می کنند، بینایی کامپیوتر در تفسیر پیکسل ها و اشکال برای جهت یابی در فضای فیزیکی تخصص دارد. بسیاری از سیستم ها فراتر از تشخیص هستند و بازسازی سه بعدی و نقشه برداری از محیط را انجام می دهند. برخی از ربات‌ها می‌توانند نقشه‌های کاملی از مکان‌هایی که از آن‌ها عبور می‌کنند، در زمان واقعی ایجاد کنند. این فرآیند به نام SLAM شناخته می شود که مخفف کلمه محلی سازی و نقشه برداری همزمان، یکی از مهم ترین فناوری ها در رباتیک مدرن است. برنامه ها، پیشرفت ها و محدودیت ها با وجود پیشرفت های چشمگیر، ربات ها هنوز دنیا را بسیار متفاوت از انسان می بینند. ما ظرفیت فوق‌العاده‌ای برای تفسیر متنی داریم، چیزی که هوش مصنوعی هنوز در حال یادگیری آن است. یک شیء نیمه پنهان ساده یا یک تغییر غیرمنتظره در نور می تواند سیستم های خودکار را گیج کند. همچنین یک چالش محاسباتی بزرگ وجود دارد: برای دیدن در زمان واقعی، یک ربات نیاز به پردازش هزاران یا حتی میلیون ها محاسبه در ثانیه دارد که به حسگرهای پیچیده، الگوریتم های بهینه و سخت افزار قدرتمند نیاز دارد. پیشرفت مهم واحدهای پردازش گرافیکی (GPU) بود، ریزپردازنده‌های متخصص در تصاویر، که در اصل برای بازی‌های ویدیویی ساخته شده بودند. نمایش ربات با مدل Isaac Gr00t N1، از Nvidia افشای / Nvidia گلوگاه دیگر این است که برچسب زدن حجم زیادی از داده ها اغلب فرآیندی پرهزینه و وقت گیر است. محققان دائماً به دنبال رویکردهای جدید هستند. انتشار اخیر توسط تیم ما در PUC-Rio، در مجله Imaging Informatics In Medicine، روشی را پیشنهاد می‌کند که از آموزش سازنده‌گرایانه الهام گرفته شده است تا موارد نامطمئن را شناسایی کند و به طور مؤثر مداخلات انسانی را در طول آموزش تحریک کند. در عمل، نتایج در حال حاضر قابل توجه است. به عنوان مثال، در وسایل نقلیه خودران، بینایی کامپیوتر در شرایط بسیار پیچیده کار می کند. علائم راهنمایی و رانندگی، خطوط، عابران پیاده و موانع پیش رو را تشخیص می دهد. علاوه بر این، آنها همچنین نیاز به تشخیص شرایط آب و هوایی و حرکت سایر وسایل نقلیه دارند. همه اینها در چند میلی ثانیه، در حالی که ماشین در حال حرکت است. در صنعت، روبات‌های مجهز به بینایی کامپیوتری، بازرسی‌های کیفی را انجام می‌دهند که قادر به شناسایی عیوب غیرقابل تشخیص برای چشم انسان هستند. در بیمارستان ها، سیستم های هوشمند معاینات پزشکی را برای علائم اولیه بیماری تجزیه و تحلیل می کنند. در کشاورزی، پهپادها محصولات را زیر نظر می گیرند و خرابی ها، آفات و مشکلات آبیاری را تشخیص می دهند. روند این است که ماشین هایی با دید مصنوعی به طور فزاینده ای در زندگی روزمره حضور دارند. توانایی دیدن روبات‌های تبدیل شده از ماشین‌های خودکار ساده به سیستم‌هایی که قادر به درک و تعامل با دنیای اطراف خود هستند. و این انقلاب بصری تازه شروع شده است. آلبرتو باربوسا راپوسو از FAPERJ و CNPq بودجه دریافت می کند. الکساندر سوآرس با هیچ شرکت یا سازمانی که می‌تواند از انتشار این مقاله بهره‌مند شود، مشورت، همکاری، سهام یا سرمایه‌گذاری دریافت نمی‌کند و هیچ پیوند مرتبطی فراتر از موقعیت علمی خود را فاش نکرده است.