Robot Baru Pengungkapan/1X Teknologi Untuk waktu yang lama, melihat tampak seperti kemampuan biologis saja. Manusia dan hewan mengamati lingkungan, mengenali wajah, menghindari rintangan dan mengambil keputusan dalam sepersekian detik hampir tanpa disadari. Namun saat ini, mesin juga belajar melakukan hal serupa. Berkat kemajuan kecerdasan buatan dan visi komputer, robot kini mampu menafsirkan informasi visual dengan cara yang semakin canggih. Visi komputer adalah bidang teknologi yang memungkinkan komputer dan robot menafsirkan gambar dan video. Daripada hanya merekam apa yang ada di depan, seperti yang dilakukan kamera pada umumnya, sistem ini menganalisis konten visual untuk mengidentifikasi orang, objek, gerakan, jarak, dan bahkan perilaku. Sekarang di g1 Meski masih jauh dari persepsi manusia, teknologi ini telah mengubah robot menjadi mesin yang mampu memahami lingkungan, bereaksi terhadap perubahan, dan mengambil keputusan secara real time. Teknologi ini sudah ada di mobil otonom, drone pertanian, sistem keamanan, pemantauan lingkungan, rumah sakit, dan jalur produksi industri. Penglihatan dimulai dengan sensor Prosesnya diawali dengan kamera dan sensor yang dipasang pada robot. Perangkat ini menangkap gambar lingkungan secara real time, bekerja dengan cara yang mirip dengan mata manusia. Tergantung pada aplikasinya, berbagai jenis sensor dapat digunakan. Di antara yang paling umum adalah kamera RGB tradisional, yang merekam warna seperti kamera konvensional. Sensor inframerah, yang mampu mendeteksi panas atau beroperasi di lingkungan gelap, juga banyak digunakan, selain kamera termal, yang digunakan untuk memvisualisasikan perbedaan suhu. Startup asal Brasil menciptakan 'otak' dengan AI untuk membuat robot lebih pintar Namun melihat saja tidak cukup. Robot juga perlu memahami kedalaman dan posisi spasial menggunakan sensor kedalaman. Model paling sederhana yang memperkirakan jarak antara benda-benda di sekitarnya sudah tersebar luas. Mereka muncul, misalnya, pada robot penyedot debu domestik, yang menghindari furnitur dan tangga sendirian. Model paling canggih menggunakan sistem LiDAR, sebuah teknologi berbasis sinar laser yang menghasilkan peta lingkungan tiga dimensi dengan presisi lebih tinggi. Teknik lainnya adalah penglihatan stereo, yang menggabungkan dua kamera secara bersamaan untuk menghitung kedalaman dengan cara yang mirip dengan penglihatan manusia. Interpretasi AI Setelah menangkap gambar, kecerdasan buatan mulai beraksi. Algoritma memproses setiap bingkai kamera untuk mencari pola visual. Jaringan saraf tiruan dalam, yang terinspirasi oleh otak manusia, dilatih dengan jutaan gambar. Dengan demikian, mereka dapat mengenali bahwa kombinasi bentuk, warna, dan tekstur tertentu berhubungan dengan manusia, hewan, mobil, furnitur, tanda, peralatan, pohon, atau jalan. Dengan ini, sistem, selain mengidentifikasi elemen suatu adegan, juga mengklasifikasikan apa yang diwakilinya. Dalam banyak video kecerdasan buatan, kotak berwarna muncul di sekitar orang dan benda. Penandaan ini secara otomatis dihasilkan oleh algoritma. Robot Tiongkok berlari 100 meter dalam 10 detik dan mendekati rekor Usain Bolt. Pengungkapan/Unitree Jenis AI ini perlu dibedakan dari apa yang disebut LLM (Model Bahasa Besar), seperti ChatGPT, yang berfokus pada pemrosesan dan menghasilkan bahasa manusia. Keduanya menggunakan jaringan saraf dalam, tetapi dengan data dan tujuan yang sangat berbeda: sementara LLM menganalisis teks, visi komputer mengkhususkan diri dalam menafsirkan piksel dan bentuk untuk navigasi di ruang fisik. Banyak sistem yang melampaui pengenalan dan melakukan rekonstruksi 3D dan pemetaan lingkungan. Beberapa robot mampu membuat peta lengkap dari tempat yang mereka lewati, secara real time. Proses ini dikenal sebagai SLAM, singkatan dari Simultaneous Localization and Mapping, salah satu teknologi terpenting dalam robotika modern. Aplikasi, kemajuan dan keterbatasan Meskipun ada kemajuan yang mengesankan, robot masih melihat dunia dengan cara yang sangat berbeda dari manusia. Kita mempunyai kapasitas yang luar biasa dalam penafsiran kontekstual, sesuatu yang masih dipelajari oleh kecerdasan buatan. Objek sederhana yang sebagian tersembunyi atau perubahan pencahayaan yang tidak terduga dapat membingungkan sistem otomatis. Ada juga tantangan komputasi yang sangat besar: untuk melihat secara real time, robot perlu memproses ribuan atau bahkan jutaan kalkulasi per detik, yang memerlukan sensor canggih, algoritme yang dioptimalkan, dan perangkat keras yang kuat. Kemajuan penting adalah Graphics Processing Unit (GPU), mikroprosesor yang khusus menangani gambar, yang awalnya dibuat untuk video game. Demonstrasi robot dengan model Isaac Gr00t N1, dari Nvidia Pengungkapan/Nvidia Hambatan lainnya adalah pelabelan data dalam jumlah besar sering kali merupakan proses yang mahal dan memakan waktu. Para peneliti terus mencari pendekatan baru. Publikasi terbaru oleh tim kami di PUC-Rio, dalam Journal Of Imaging Informatics In Medicine, mengusulkan metodologi yang terinspirasi oleh pengajaran konstruktivis untuk mengidentifikasi kasus-kasus yang tidak pasti dan secara efisien memicu intervensi manusia selama pelatihan. Dalam praktiknya, hasilnya sudah luar biasa. Pada kendaraan otonom, misalnya, visi komputer bekerja dalam situasi yang sangat kompleks. Mengenali rambu lalu lintas, jalur, pejalan kaki, dan rintangan di depan. Selain itu, mereka juga perlu mendeteksi kondisi cuaca dan pergerakan kendaraan lain. Semua ini dalam beberapa milidetik, saat mobil bergerak. Di industri, robot yang dilengkapi dengan computer vision sudah melakukan pemeriksaan kualitas yang mampu mengidentifikasi cacat yang tidak terlihat oleh mata manusia. Di rumah sakit, sistem cerdas menganalisis pemeriksaan medis untuk mengetahui tanda-tanda awal penyakit. Di bidang pertanian, drone memantau tanaman dan mendeteksi kegagalan, hama, dan masalah irigasi. Trennya adalah mesin dengan penglihatan buatan semakin banyak hadir dalam kehidupan sehari-hari. Kemampuan untuk melihat transformasi robot dari mesin otomatis sederhana menjadi sistem yang mampu memahami dan berinteraksi dengan dunia di sekitar mereka. Dan revolusi visual ini baru saja dimulai. Alberto Barbosa Raposo menerima dana dari FAPERJ dan CNPq. Alexandre Soares tidak berkonsultasi, bekerja dengan, memiliki saham atau menerima dana dari perusahaan atau organisasi mana pun yang dapat memperoleh manfaat dari publikasi artikel ini dan belum mengungkapkan tautan apa pun yang relevan di luar posisi akademisnya.