Inspiration menschliches Auge

Roboter sehen wie Menschen

Wissenschaftler am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) haben eine Lösung entwickelt, mit der Roboter lernen können, besser in der Alltagsumgebung von Menschen zu agieren. Der Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding (kurz: MiKASA) hilft den Maschinen, sich in der menschlichen Lebenswelt visuell zu orientieren.

Der Mensch lernt von Geburt an Dinge in einen Zusammenhang zu bringen und bewertet Gesehenes in einem Kontext. Zum Beispiel, dass Wasser in einem Glas überschwappen kann. Roboter haben diese Fähigkeiten nicht. Bisherige Forschungsansätze reichten nie an diese menschlichen Talente heran. Mit MiKASA ist nun jedoch ein echter Fortschritt gelungen. Durch einen „szenenbewussten Objekterkenner“ können auch Roboter Dinge kontextabhängig bewerten, zielsicher erkennen sowie korrekt definieren. Damit erhalten die Maschinen ein detailiertes Verständnis ihrer Umgebung.

Informationen über sein Umfeld erhält der Roboter durch zahlreiche Sensoren, deren Daten zu einem Gesamteindruck zusammengeführt werden. Dabei kommt es wie beim menschlichen Auge zu Überlappungen von Sehbereichen. Aus diesen Daten generiert das neu entwickelte „SG-PGM“ (Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and Its Downstream Tasks) ein Bild. Damit das auch in dynamischen Umgebungen mit Störquellen gelingt, verknüpft SG-PGM die Visualisierungen mit einem neuronalen Netzwerk.

Diese KI-gestützte Technologie verbessert die Genauigkeit und Effizienz der Robotik und hebt sie auf ein neues Niveau. Durch die Verknüpfung von Sprachmodellen, gelernter Semantik und der Wiedererkennung der Objekte im realen dreidimensionalen Raum erreicht MiKASA eine Genauigkeit von bis zu 78,6 %. Damit ist die Trefferquote um 10 % höher als die bisheriger Technologien.

Quelle

Weitere Themen