از ماشینهای خودران تا بیمارستانها: چگونه روباتها میتوانند آنچه را که در اطرافشان است ببینند
⚡ خلاصه سریع
ربات نئو افشا / فن آوری های 1X برای مدت طولانی، دیدن یک توانایی منحصراً بیولوژیکی به نظر می رسید.
ربات نئو
افشا / فن آوری های 1X
برای مدت طولانی، دیدن یک توانایی منحصراً بیولوژیکی به نظر می رسید. انسان ها و حیوانات محیط را مشاهده می کنند، چهره ها را می شناسند، از موانع دوری می کنند و تقریباً بدون اینکه متوجه شوند در کسری از ثانیه تصمیم می گیرند.
با این حال، امروزه ماشین ها نیز در حال یادگیری انجام کاری مشابه هستند. به لطف پیشرفت در هوش مصنوعی و بینایی کامپیوتری، روباتها اکنون میتوانند اطلاعات بصری را به روشی پیچیده تفسیر کنند.
بینایی رایانه حوزه ای از فناوری است که به رایانه ها و روبات ها اجازه می دهد تصاویر و فیلم ها را تفسیر کنند.
این سیستمها بهجای ضبط آنچه در جلو هستند، مانند یک دوربین معمولی، محتوای بصری را برای شناسایی افراد، اشیاء، حرکات، فواصل و حتی رفتارها تجزیه و تحلیل میکنند.
اکنون در g1
اگرچه هنوز با درک انسان فاصله زیادی دارد، اما این فناوری ربات ها را به ماشین هایی تبدیل می کند که قادر به درک محیط، واکنش به تغییرات و تصمیم گیری در زمان واقعی هستند.
در حال حاضر در خودروهای خودران، هواپیماهای بدون سرنشین کشاورزی، سیستم های امنیتی، نظارت بر محیط زیست، بیمارستان ها و خطوط تولید صنعتی وجود دارد.
بینایی با حسگرها شروع می شود
این فرآیند با دوربین ها و حسگرهای نصب شده روی ربات آغاز می شود. این دستگاه ها تصاویری از محیط را در زمان واقعی می گیرند و به روشی مشابه چشم انسان عمل می کنند. بسته به کاربرد، می توان از انواع مختلفی از سنسورها استفاده کرد.
از رایج ترین آنها دوربین های RGB سنتی هستند که رنگ ها را مانند دوربین های معمولی ضبط می کنند.
حسگرهای مادون قرمز که قادر به تشخیص گرما یا عملکرد در محیطهای تاریک هستند، علاوه بر دوربینهای حرارتی، برای تجسم تفاوتهای دما نیز به طور گسترده استفاده میشوند.
استارتآپ برزیلی با هوش مصنوعی «مغز» ایجاد میکند تا رباتها را باهوشتر کند
اما دیدن کافی نیست. ربات همچنین نیاز به درک عمق و موقعیت مکانی با استفاده از حسگرهای عمق دارد.
ساده ترین مدل ها، که فاصله بین اشیاء اطراف را تخمین می زنند، در حال حاضر گسترده شده اند. آنها به عنوان مثال در جاروبرقی های ربات خانگی ظاهر می شوند که به تنهایی از مبلمان و پله ها اجتناب می کنند.
پیشرفته ترین مدل ها از سیستم های LiDAR استفاده می کنند، فناوری مبتنی بر پرتوهای لیزری که نقشه های سه بعدی از محیط را با دقت بیشتری ایجاد می کند.
تکنیک دیگر، دید استریو است که دو دوربین را به طور همزمان برای محاسبه عمق به روشی شبیه به دید انسان ترکیب می کند.
تفسیر هوش مصنوعی
پس از ثبت تصاویر، هوش مصنوعی وارد عمل می شود. الگوریتم ها هر فریم دوربین را به دنبال الگوهای بصری پردازش می کنند.
شبکههای عصبی مصنوعی عمیق، با الهام از مغز انسان، با میلیونها تصویر آموزش داده میشوند.
بنابراین، آنها می توانند تشخیص دهند که ترکیب خاصی از اشکال، رنگ ها و بافت ها با افراد، حیوانات، ماشین ها، مبلمان، علائم، ابزار، درختان یا جاده ها مطابقت دارد.
با این کار، سیستم علاوه بر شناسایی عناصر یک صحنه، آنچه را که نمایش می دهند نیز طبقه بندی می کند. در بسیاری از ویدئوهای هوش مصنوعی، جعبه های رنگی در اطراف افراد و اشیاء ظاهر می شوند. این علامتگذاریها بهطور خودکار توسط الگوریتمها ایجاد میشوند.
ربات چینی 100 متر را در 10 ثانیه می دود و به رکورد یوسین بولت نزدیک می شود.
افشای / Unitree
شایان ذکر است که این نوع هوش مصنوعی را از مدل های به اصطلاح LLM (مدل های زبان بزرگ) مانند ChatGPT که بر روی پردازش و تولید زبان انسانی متمرکز هستند، متمایز می کند.
هر دو از شبکه های عصبی عمیق استفاده می کنند، اما با داده ها و اهداف کاملاً متفاوت: در حالی که LLM ها متن را تجزیه و تحلیل می کنند، بینایی کامپیوتر در تفسیر پیکسل ها و اشکال برای جهت یابی در فضای فیزیکی تخصص دارد.
بسیاری از سیستم ها فراتر از تشخیص هستند و بازسازی سه بعدی و نقشه برداری از محیط را انجام می دهند. برخی از رباتها میتوانند نقشههای کاملی از مکانهایی که از آنها عبور میکنند، در زمان واقعی ایجاد کنند.
این فرآیند به نام SLAM شناخته می شود که مخفف کلمه محلی سازی و نقشه برداری همزمان، یکی از مهم ترین فناوری ها در رباتیک مدرن است. برنامه ها، پیشرفت ها و محدودیت ها
با وجود پیشرفت های چشمگیر، ربات ها هنوز دنیا را بسیار متفاوت از انسان می بینند.
ما ظرفیت فوقالعادهای برای تفسیر متنی داریم، چیزی که هوش مصنوعی هنوز در حال یادگیری آن است. یک شیء نیمه پنهان ساده یا یک تغییر غیرمنتظره در نور می تواند سیستم های خودکار را گیج کند.
همچنین یک چالش محاسباتی بزرگ وجود دارد: برای دیدن در زمان واقعی، یک ربات نیاز به پردازش هزاران یا حتی میلیون ها محاسبه در ثانیه دارد که به حسگرهای پیچیده، الگوریتم های بهینه و سخت افزار قدرتمند نیاز دارد.
پیشرفت مهم واحدهای پردازش گرافیکی (GPU) بود، ریزپردازندههای متخصص در تصاویر، که در اصل برای بازیهای ویدیویی ساخته شده بودند.
نمایش ربات با مدل Isaac Gr00t N1، از Nvidia
افشای / Nvidia
گلوگاه دیگر این است که برچسب زدن حجم زیادی از داده ها اغلب فرآیندی پرهزینه و وقت گیر است. محققان دائماً به دنبال رویکردهای جدید هستند.
انتشار اخیر توسط تیم ما در PUC-Rio، در مجله Imaging Informatics In Medicine، روشی را پیشنهاد میکند که از آموزش سازندهگرایانه الهام گرفته شده است تا موارد نامطمئن را شناسایی کند و به طور مؤثر مداخلات انسانی را در طول آموزش تحریک کند.
در عمل، نتایج در حال حاضر قابل توجه است. به عنوان مثال، در وسایل نقلیه خودران، بینایی کامپیوتر در شرایط بسیار پیچیده کار می کند. علائم راهنمایی و رانندگی، خطوط، عابران پیاده و موانع پیش رو را تشخیص می دهد.
علاوه بر این، آنها همچنین نیاز به تشخیص شرایط آب و هوایی و حرکت سایر وسایل نقلیه دارند. همه اینها در چند میلی ثانیه، در حالی که ماشین در حال حرکت است.
در صنعت، روباتهای مجهز به بینایی کامپیوتری، بازرسیهای کیفی را انجام میدهند که قادر به شناسایی عیوب غیرقابل تشخیص برای چشم انسان هستند.
در بیمارستان ها، سیستم های هوشمند معاینات پزشکی را برای علائم اولیه بیماری تجزیه و تحلیل می کنند. در کشاورزی، پهپادها محصولات را زیر نظر می گیرند و خرابی ها، آفات و مشکلات آبیاری را تشخیص می دهند.
روند این است که ماشین هایی با دید مصنوعی به طور فزاینده ای در زندگی روزمره حضور دارند.
توانایی دیدن روباتهای تبدیل شده از ماشینهای خودکار ساده به سیستمهایی که قادر به درک و تعامل با دنیای اطراف خود هستند. و این انقلاب بصری تازه شروع شده است.
آلبرتو باربوسا راپوسو از FAPERJ و CNPq بودجه دریافت می کند.
الکساندر سوآرس با هیچ شرکت یا سازمانی که میتواند از انتشار این مقاله بهرهمند شود، مشورت، همکاری، سهام یا سرمایهگذاری دریافت نمیکند و هیچ پیوند مرتبطی فراتر از موقعیت علمی خود را فاش نکرده است.
← بازگشت