Otonom arabalardan hastanelere: robotlar etraflarında olanı nasıl görebilir?
⚡ Hızlı Özet
Yeni Robot Açıklama/1X Teknolojileri Uzun bir süre boyunca görmek yalnızca biyolojik bir yetenek gibi göründü.
Yeni Robot
Açıklama/1X Teknolojileri
Uzun bir süre boyunca görmek yalnızca biyolojik bir yetenek gibi göründü. İnsanlar ve hayvanlar çevreyi gözlemler, yüzleri tanır, engellerden kaçınır ve neredeyse farkına bile varmadan saniyeler içinde karar verirler.
Ancak bugün makineler de benzer bir şey yapmayı öğreniyor. Yapay zeka ve bilgisayar görüşündeki gelişmeler sayesinde robotlar artık görsel bilgileri giderek daha karmaşık bir şekilde yorumlayabiliyor.
Bilgisayarlı görme, bilgisayarların ve robotların görüntüleri ve videoları yorumlamasını sağlayan teknoloji alanıdır.
Bu sistemler, sıradan bir kameranın yaptığı gibi sadece öndekini kaydetmek yerine, insanları, nesneleri, hareketleri, mesafeleri ve hatta davranışları tanımlamak için görsel içeriği analiz eder.
Şimdi g1'de
Henüz insan algısından uzak olsa da bu teknoloji, robotları çevreyi algılayabilen, değişikliklere tepki verebilen ve gerçek zamanlı olarak karar verebilen makinelere dönüştürüyor.
Otonom araçlarda, tarımsal drone'larda, güvenlik sistemlerinde, çevresel izlemede, hastanelerde ve endüstriyel üretim hatlarında halihazırda mevcut.
Görme sensörlerle başlar
Süreç robota takılan kamera ve sensörlerle başlıyor. Bu cihazlar, insan gözüne benzer şekilde çalışarak ortamın görüntülerini gerçek zamanlı olarak yakalar. Uygulamaya bağlı olarak farklı tipte sensörler kullanılabilir.
En yaygın olanları arasında renkleri geleneksel bir kamera gibi kaydeden geleneksel RGB kameralar vardır.
Sıcaklık farklarını görselleştirmek için kullanılan termal kameraların yanı sıra ısıyı tespit edebilen veya karanlık ortamlarda çalışabilen kızılötesi sensörler de yaygın olarak kullanılmaktadır.
Brezilyalı girişim, robotları daha akıllı hale getirmek için yapay zekayla 'beyin' yaratıyor
Ancak görmek yeterli değildir. Robotun ayrıca derinlik sensörlerini kullanarak derinliği ve mekansal konumu anlaması gerekiyor.
Çevredeki nesneler arasındaki mesafeyi tahmin eden en basit modeller zaten yaygındır. Örneğin, mobilya ve merdivenlerden tek başına kaçınan ev tipi robot elektrikli süpürgelerde görülürler.
En gelişmiş modeller, çevrenin üç boyutlu haritalarını daha yüksek hassasiyetle oluşturan, lazer ışınlarına dayalı bir teknoloji olan LiDAR sistemlerini kullanır.
Diğer bir teknik ise, derinliği insan görüşüne benzer şekilde hesaplamak için iki kamerayı aynı anda birleştiren stereo görüştür.
Yapay zeka yorumu
Görüntülerin yakalanmasının ardından yapay zeka devreye giriyor. Algoritmalar her kamera karesini görsel desenler arayarak işler.
İnsan beyninden ilham alan derin yapay sinir ağları milyonlarca görüntüyle eğitiliyor.
Böylece belirli şekil, renk ve doku kombinasyonlarının insanlara, hayvanlara, arabalara, mobilyalara, işaretlere, aletlere, ağaçlara veya yollara karşılık geldiğini fark edebilirler.
Böylece sistem, bir sahnenin unsurlarını tanımlamanın yanı sıra bunların neyi temsil ettiğini de sınıflandırıyor. Pek çok yapay zeka videosunda insanların ve nesnelerin etrafında renkli kutular görünüyor. Bu işaretler algoritmalar tarafından otomatik olarak oluşturulur.
Çinli robot 100 metreyi 10 saniyede koşarak Usain Bolt'un rekoruna yaklaştı.
Açıklama/Birim Ağacı
Bu tür yapay zekayı, insan dilini işlemeye ve üretmeye odaklanan ChatGPT gibi LLM'lerden (Büyük Dil Modelleri) ayırmakta fayda var.
Her ikisi de derin sinir ağlarını kullanıyor, ancak tamamen farklı veri ve hedeflere sahip: Yüksek Lisans'lar metni analiz ederken, bilgisayarlı görme, fiziksel uzayda gezinme için pikselleri ve şekilleri yorumlamada uzmanlaşmıştır.
Birçok sistem tanınmanın ötesine geçerek ortamın 3 boyutlu yeniden inşasını ve haritalanmasını gerçekleştirir. Bazı robotlar geçtikleri yerlerin tam haritalarını gerçek zamanlı olarak oluşturabiliyor.
Bu süreç, modern robotikteki en önemli teknolojilerden biri olan Eşzamanlı Yerelleştirme ve Haritalama'nın kısaltması olan SLAM olarak bilinir. Başvurular, ilerlemeler ve sınırlamalar
Etkileyici ilerlemelere rağmen robotlar dünyayı hâlâ insanlardan çok farklı görüyor.
Bağlamsal yorumlama konusunda olağanüstü bir kapasitemiz var ve bu, yapay zekanın hâlâ öğrenme aşamasında olduğu bir şey. Kısmen gizlenmiş basit bir nesne veya aydınlatmadaki beklenmeyen bir değişiklik, otomatik sistemlerin kafasını karıştırabilir.
Aynı zamanda büyük bir hesaplama zorluğu da var: Bir robotun gerçek zamanlı olarak görebilmesi için saniyede binlerce hatta milyonlarca hesaplamayı işlemesi gerekiyor; bu da gelişmiş sensörler, optimize edilmiş algoritmalar ve güçlü donanım gerektiriyor.
Önemli bir ilerleme, orijinal olarak video oyunları için yaratılmış, görüntülerde uzmanlaşmış mikroişlemciler olan Grafik İşleme Birimlerinin (GPU'lar) gelişmesiydi.
Nvidia'dan Isaac Gr00t N1 modeliyle robot gösterimi
Açıklama/Nvidia
Diğer bir darboğaz ise büyük miktarda veriyi etiketlemenin genellikle maliyetli ve zaman alıcı bir süreç olmasıdır. Araştırmacılar sürekli olarak yeni yaklaşımlar arıyorlar.
PUC-Rio'daki ekibimiz tarafından Tıpta Görüntüleme Bilişimi Dergisi'nde yakın zamanda yayınlanan bir yayın, belirsiz vakaları belirlemek ve eğitim sırasında insan müdahalelerini verimli bir şekilde tetiklemek için yapılandırmacı öğretimden ilham alan bir metodoloji önermektedir.
Uygulamada sonuçlar zaten dikkat çekicidir. Örneğin otonom araçlarda bilgisayarlı görme son derece karmaşık durumlarda çalışır. Trafik işaretlerini, şeritleri, yayaları ve ilerideki engelleri tanır.
Ayrıca hava koşullarını ve diğer araçların hareketlerini de tespit etmeleri gerekiyor. Bütün bunlar araba hareket halindeyken birkaç milisaniye içinde gerçekleşir.
Endüstride, bilgisayar görüşüyle donatılmış robotlar halihazırda insan gözünün göremediği kusurları tespit edebilen kalite kontrolleri gerçekleştirmektedir.
Hastanelerde akıllı sistemler, hastalığın erken belirtilerini tespit etmek için tıbbi muayeneleri analiz eder. Tarımda dronlar mahsulleri izliyor ve arızaları, zararlıları ve sulama sorunlarını tespit ediyor.
Trend, yapay görüşe sahip makinelerin günlük yaşamda giderek daha fazla yer alması yönünde.
Robotların basit otomatik makinelerden, etraflarındaki dünyayı algılayabilen ve onunla etkileşim kurabilen sistemlere dönüştüğünü görme yeteneği. Ve bu görsel devrim daha yeni başlıyor.
Alberto Barbosa Raposo, FAPERJ ve CNPq'den fon alıyor.
Alexandre Soares, bu makalenin yayınlanmasından fayda sağlayabilecek herhangi bir şirket veya kuruluşa danışmaz, onlarla çalışmaz, hisse sahibi değildir veya onlardan fon almaz ve akademik pozisyonunun ötesinde herhangi bir ilgili bağlantıyı açıklamamıştır.
← Geri