Von autonomen Autos bis hin zu Krankenhäusern: Wie Roboter sehen können, was um sie herum ist
⚡ Kurzzusammenfassung
Neo-Roboter Offenlegung/1X-Technologien Lange Zeit schien das Sehen eine ausschließlich biologische Fähigkeit zu sein.
Neo-Roboter
Offenlegung/1X-Technologien
Lange Zeit schien das Sehen eine ausschließlich biologische Fähigkeit zu sein. Menschen und Tiere beobachten die Umwelt, erkennen Gesichter, weichen Hindernissen aus und treffen Entscheidungen in Sekundenbruchteilen, fast ohne es zu merken.
Heutzutage lernen jedoch auch Maschinen, etwas Ähnliches zu tun. Dank der Fortschritte in der künstlichen Intelligenz und dem Computer Vision sind Roboter heute in der Lage, visuelle Informationen immer ausgefeilter zu interpretieren.
Computer Vision ist der Bereich der Technologie, der es Computern und Robotern ermöglicht, Bilder und Videos zu interpretieren.
Anstatt nur das aufzuzeichnen, was sich vor Ihnen befindet, wie es bei herkömmlichen Kameras der Fall ist, analysieren diese Systeme visuelle Inhalte, um Personen, Objekte, Bewegungen, Entfernungen und sogar Verhaltensweisen zu identifizieren.
Jetzt auf g1
Obwohl sie noch weit von der menschlichen Wahrnehmung entfernt ist, hat diese Technologie Roboter in Maschinen verwandelt, die in der Lage sind, die Umgebung wahrzunehmen, auf Veränderungen zu reagieren und Entscheidungen in Echtzeit zu treffen.
Es ist bereits in autonomen Autos, landwirtschaftlichen Drohnen, Sicherheitssystemen, Umweltüberwachung, Krankenhäusern und industriellen Produktionslinien präsent.
Vision beginnt mit Sensoren
Der Prozess beginnt mit der Installation von Kameras und Sensoren am Roboter. Diese Geräte erfassen in Echtzeit Bilder der Umgebung und funktionieren dabei ähnlich wie das menschliche Auge. Je nach Anwendung können unterschiedliche Arten von Sensoren eingesetzt werden.
Zu den gebräuchlichsten zählen herkömmliche RGB-Kameras, die Farben wie eine herkömmliche Kamera aufzeichnen.
Neben Wärmebildkameras zur Visualisierung von Temperaturunterschieden werden auch häufig Infrarotsensoren eingesetzt, die Hitze erkennen oder in dunklen Umgebungen arbeiten können.
Brasilianisches Startup erschafft mit KI ein „Gehirn“, um Roboter intelligenter zu machen
Aber Sehen reicht nicht aus. Mithilfe von Tiefensensoren muss der Roboter auch die Tiefe und die räumliche Position verstehen.
Die einfachsten Modelle, die den Abstand zwischen umgebenden Objekten schätzen, sind bereits weit verbreitet. Sie tauchen beispielsweise bei Haushaltsstaubsaugern auf, die selbstständig Möbel und Treppen meiden.
Die fortschrittlichsten Modelle nutzen LiDAR-Systeme, eine auf Laserstrahlen basierende Technologie, die dreidimensionale Karten der Umgebung mit größerer Präzision erstellt.
Eine weitere Technik ist Stereo Vision, bei der zwei Kameras gleichzeitig kombiniert werden, um die Tiefe auf ähnliche Weise wie das menschliche Sehen zu berechnen.
KI-Interpretation
Nach der Aufnahme der Bilder kommt die künstliche Intelligenz zum Einsatz. Algorithmen verarbeiten jedes Kamerabild und suchen nach visuellen Mustern.
Tiefe künstliche neuronale Netze, inspiriert vom menschlichen Gehirn, werden mit Millionen von Bildern trainiert.
So können sie erkennen, dass bestimmte Kombinationen von Formen, Farben und Texturen Menschen, Tieren, Autos, Möbeln, Schildern, Werkzeugen, Bäumen oder Straßen entsprechen.
Damit identifiziert das System nicht nur die Elemente einer Szene, sondern klassifiziert auch deren Darstellung. In vielen Videos über künstliche Intelligenz erscheinen farbige Kästchen um Personen und Objekte. Diese Markierungen werden von den Algorithmen automatisch generiert.
Chinesischer Roboter läuft 100 Meter in 10 Sekunden und nähert sich dem Rekord von Usain Bolt.
Offenlegung/Unitree
Es lohnt sich, diese Art von KI von sogenannten LLMs (Large Language Models) wie ChatGPT zu unterscheiden, die sich auf die Verarbeitung und Generierung menschlicher Sprache konzentrieren.
Beide nutzen tiefe neuronale Netze, allerdings mit völlig unterschiedlichen Daten und Zielen: Während LLMs Texte analysieren, ist Computer Vision auf die Interpretation von Pixeln und Formen für die Navigation im physischen Raum spezialisiert.
Viele Systeme gehen über die Erkennung hinaus und führen eine 3D-Rekonstruktion und Kartierung der Umgebung durch. Einige Roboter sind in der Lage, in Echtzeit vollständige Karten der Orte zu erstellen, die sie passieren.
Dieser Prozess ist als SLAM bekannt, ein Akronym für Simultaneous Localization and Mapping, eine der wichtigsten Technologien in der modernen Robotik. Anwendungen, Vorteile und Einschränkungen
Trotz beeindruckender Fortschritte sehen Roboter die Welt immer noch ganz anders als Menschen.
Wir verfügen über eine außergewöhnliche Fähigkeit zur kontextuellen Interpretation, etwas, das die künstliche Intelligenz noch lernt. Ein einfacher, teilweise verdeckter Gegenstand oder eine unerwartete Änderung der Beleuchtung können automatische Systeme verwirren.
Es gibt auch eine große rechnerische Herausforderung: Um in Echtzeit sehen zu können, muss ein Roboter Tausende oder sogar Millionen Berechnungen pro Sekunde durchführen, was hochentwickelte Sensoren, optimierte Algorithmen und leistungsstarke Hardware erfordert.
Ein wichtiger Fortschritt waren die Graphics Processing Units (GPUs), auf Bilder spezialisierte Mikroprozessoren, die ursprünglich für Videospiele entwickelt wurden.
Roboterdemonstration mit dem Modell Isaac Gr00t N1 von Nvidia
Offenlegung/Nvidia
Ein weiterer Engpass besteht darin, dass die Kennzeichnung großer Datenmengen oft ein kostspieliger und zeitaufwändiger Prozess ist. Forscher sind ständig auf der Suche nach neuen Ansätzen.
Eine aktuelle Veröffentlichung unseres Teams am PUC-Rio im Journal Of Imaging Informatics In Medicine schlägt eine von der konstruktivistischen Lehre inspirierte Methodik vor, um unsichere Fälle zu identifizieren und menschliche Eingriffe während des Trainings effizient auszulösen.
In der Praxis sind die Ergebnisse bereits bemerkenswert. In autonomen Fahrzeugen beispielsweise funktioniert Computer Vision in äußerst komplexen Situationen. Erkennt Verkehrszeichen, Fahrspuren, Fußgänger und Hindernisse vor Ihnen.
Darüber hinaus müssen sie auch die Wetterbedingungen und die Bewegung anderer Fahrzeuge erkennen. Und das alles in wenigen Millisekunden, während das Auto fährt.
In der Industrie führen Roboter, die mit Computer Vision ausgestattet sind, bereits Qualitätsprüfungen durch und können dabei Fehler erkennen, die für das menschliche Auge nicht wahrnehmbar sind.
In Krankenhäusern analysieren intelligente Systeme medizinische Untersuchungen auf frühe Krankheitszeichen. In der Landwirtschaft überwachen Drohnen Ernten und erkennen Ausfälle, Schädlinge und Bewässerungsprobleme.
Der Trend geht dahin, dass Maschinen mit künstlichem Sehen zunehmend im Alltag präsent sind.
Die Fähigkeit zu sehen, wie sich Roboter von einfachen automatisierten Maschinen in Systeme verwandeln, die in der Lage sind, die Welt um sie herum wahrzunehmen und mit ihr zu interagieren. Und diese visuelle Revolution fängt gerade erst an.
Alberto Barbosa Raposo erhält Fördermittel von FAPERJ und CNPq.
Alexandre Soares konsultiert keine Unternehmen oder Organisationen, die von der Veröffentlichung dieses Artikels profitieren könnten, arbeitet nicht mit ihnen zusammen, besitzt keine Anteile an ihnen und erhält keine Finanzierung von diesen und hat keine relevanten Links über seine akademische Position hinaus offengelegt.
← Zurück