Projektstatus
geschlossen
Projektbeginn
April 2024
Förderlaufzeit
15 Monate
Beteiligte Hochschulen
ZHAW
Das Projektteam entwickelte eine Hardware- und Software-Plattform für intelligentes 3D-Sehen in Echtzeit für assistive Roboter.
Es wurde ein neuartiges Hardware-System entwickelt, das ein Paar ereignisbasierter Bildsensoren (DVS) und ein Paar konventioneller RGB-Kameras an einem FPGA integriert. Einfache Sensorfusion wird auf dem FPGA durchgeführt, wobei sowohl Ereignis- als auch Bilddaten zur weiteren Verarbeitung gestreamt werden. Dieses System ermöglicht die Validierung von Algorithmen, die schnelle ereignisbasierte Verarbeitung (z.B. Echtzeit-Objektverfolgung) mit konventioneller Bildverarbeitung (z.B. Bilderkennung und 3D-Vision) kombinieren. Konventionelle Bilder profitieren von grösseren Datensätzen und vortrainierten künstlichen neuronalen Netzen, was die Qualität von Detektion, Erkennung und Segmentierung verbessert. Die Detektionsgeschwindigkeit bleibt jedoch eine Einschränkung für den Einsatz in Bewegungsregelkreisen von Robotern.
Mehrere Algorithmen wurden validiert, um intelligentes Sehen in Echtzeit mit 3D-Bewertung für sicheren und effizienten Roboterbetrieb in der Nähe von Menschen zu ermöglichen:
a) Über die FPGA-Pipeline akkumulierte Ereignis-Frames wurden Graustufenbildern ähnlich gemacht, was die direkte Anwendung von Standard-ANNs (YOLO, MediaPipe) ermöglichte, die auf konventionellen Bildern trainiert wurden. Gute Ergebnisse wurden mit hohen Detektionsraten erzielt, die über die Akkumulationszeit der Ereignis-Frames gesteuert wurden.
b) Datensätze wurden mit kalibrierten und synchronisierten DVS-Bildsensor-Paaren gesammelt, wobei Detektionen in konventionellen Bildern als Labels für DVS-Daten verwendet wurden. Diese Datensätze ermöglichten das Training verschiedener neuronaler Netze (einschließlich Spiking Neural Networks) mit unterschiedlichen ereignisbasierten Darstellungen (z.B. Time Surfaces).
c) Verschiedene Tiefenwahrnehmungs-Algorithmen wurden getestet, darunter DVS-basiertes Stereo, RGB-basiertes Stereo und Time-of-Flight-Sensoren. Jede Methode hat spezifische Einschränkungen (Genauigkeit, Reichweite, Oberflächeneigenschaften, Texturabhängigkeit). Sicherer Roboterbetrieb erfordert komplementäre Tiefenwahrnehmungs-Datenströme.
Demonstration und Tests Die YuRo-Vision-Systeme wurden bei mehreren Veranstaltungen demonstriert, einschliesslich Tests mit älteren Bewohner:innen in einer Pflegeeinrichtung (Haus Tabea). Mehrere Demonstrationen zeigten die Systemleistung in geschlossenen Bewegungsregelkreisen von Roboterarmen, einschließlich Hindernisvermeidung und Zielerfassung.
Nächste Schritte Anträge für Folgeprojekte wurden eingereicht. Ein Spin-off-Entwurf wurde mit der ZHAW unterzeichnet, um die entwickelte Technologie zu kommerzialisieren. Das Spin-off hat Räumlichkeiten im Büro Zürich Innovation Park in Dübendorf für ein Jahr gesichert.
Prof. Dr. Yulia Sandamirskaya, ZHAW School of Life Sciences and Facility Management
Calltyp: 1. Founder-Call