# RD 733002
POINT CLOUD-BASED 3D SEAT PARAMETER ESTIMATION
Publication date
24/03/2025
Language
English
Paper publication
May 2025 Research Disclosure journal
Digital time stamp
e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
DOWNLOAD THIS PUBLICATION
93 pages(s) - 15M
USD $
EUR €
Abstract

Punktwolken-gestützte Schätzung der Sitzkonfiguration in Fahrzeugen Point cloud-based 3D seat parameter estimation Anonymous Submission 5. März 2025 Abstract Studies indicate that highly reclined seatbacks significantly impact collision dynamics and can lead to severe injuries. Considering the current seat position as an additional control parameter for passive safety systems, like airbags, allows for a more accurate risk assessment and improved system control, reducing injury risk and enhancing system effectiveness. This work presents an image-based approach for estimating the seat configuration in vehicles using point clouds, eliminating the need for additional sensors on the seats. Segmented point clouds of the front seats are initially extracted from vehicle camera images, serving as input data for point cloud registration and optimization algorithms. Point cloud regis- tration, which is considered the gold standard for precise determination of position and orientation, is achieved by aligning the extracted point clouds with a defined synthetic reference configuration. The seat position is then derived from the resulting transformation matrices. This process is further investigated in this work through specific enhancements such as correspondence filtering, sequential registration, and an occlusion- handling stra- tegy. Furthermore, a simplified model-based optimization approach is developed, which is specifically tailored to the requirements of seat position determination by reducing the degrees of freedom compared to point cloud registration. A seat model that constrains the movement of seat parts to their actual “range of motion” enables the simulation of various seating adjustments. This model forms the basis for the formulation of the optimization problem, where the seat position is determined by minimizing the distances between the corresponding point clouds. The developed methods are then systematically evaluated using appropriate evaluation metrics. Initially, the point cloud registration and optimization approaches are analyzed separately under different parameter configurations. Subsequently, both approaches are examined in scenarios with varying noise levels. The results highlight that the optimization approach allows for position estimation even with completely occluded seat parts and exhibits higher robustness to noise compared to point cloud registration. Keywords Point Cloud Registration, Seat Parameter Estimation 1 Einleitung Zu Beginn der Arbeit werden die Motivation, Problemstellung und Zielsetzung dargestellt. Anschließend folgt eine Einordnung des aktuellen Stands der Technik sowie die Erläuterung des Aufbaus der Arbeit. 1.1 Motivation Die fortschreitende Entwicklung und der zunehmende Automatisierungsgrad von Perso- nenkraftfahrzeugen eröffnen neue Marktpotenziale, bringen jedoch zugleich erhebliche Herausforderungen mit sich. Eine zentrale Herausforderung für die weitere Durchsetzung autonomer Systeme ist die Nutzerakzeptanz [EG15]. Diese kann gesteigert werden, indem den Konsumenten der unmittelbare Nutzen und die Annehmlichkeiten dieser autonomen Technologien verdeutlicht werden. Zwei wesentliche Aspekte in diesem Zusammenhang sind der Fahrkomfort und die Sicherheit der Fahrzeuginsassen [Arm22]. Beide Faktoren werden maßgeblich von der richtigen Sitzeinstellung beeinflusst, da eine falsche Sitzposition nicht nur den Fahrkomfort mindert [KNBR08; Gyi96] sondern darüber hinaus das Verletzungsrisiko bei Unfällen erhöht [DKM+08; HB06; GMG+22]. Die sogenannten Interior Sensing Systeme widmen sich der Innenraumüberwachung der Fahrzeugkabine und adressieren damit auch die eben genannten Herausforderungen. Realisiert wird das Interior Sensing durch den Einsatz von Kameras und Sensoren, die sowohl den Fahrer als auch den Innenraum analysieren und Einblicke in das Geschehen im Fahrzeug ermöglichen [WS21; Bos09]. Dadurch lassen sich nachgelagerte Systeme entwickeln, die eine korrekte Sitzeinstellung sicherstellen. Dies trägt nicht nur zur Steigerung des Fahrkomforts bei, sondern gewährleistet auch den optimalen Schutz der Insassen im Falle eines Unfalls [PP21; HB06]. Studien, wie [DKM+08; GWKS15] zeigen, dass stark nach hinten geneigte Rücken- lehnen einen erheblichen Einfluss auf die Aufprallkinetik bei Kollisionen haben und zu schweren Verletzungen führen können. Die Berücksichtigung der aktuellen Sitzposition als zusätzlicher Steuerungsparameter für passive Sicherheitssysteme, wie z.B. den Airbags, ermöglicht eine präzisere Risikoabschätzung und verbesserte Steuerung dieser Systeme, was das Verletzungsrisiko minimiert und die Effektivität der Systeme steigert [HB06]. Traditionell erfolgt die Erfassung der Sitzposition durch die Installation zusätzlicher Sensorik oder Motoren an den Sitzen. Die Genauigkeit dieser Erfassung hängt jedoch von der Art und Anzahl der verwendeten Messsystemen ab, was sich wiederum auf die Produktionskosten und die Komplexität der Sitzmontage auswirkt [JP17]. Ein alternativer Ansatz ist die bildbasierte Schätzung der Sitzkonfiguration mithilfe der im Fahrzeug verbauten Kameras. Dieser Ansatz ist besonders sinnvoll mit Blick auf neue EU-Verordnungen, die ab 2022 die Einführung von Fahrerüberwachungssystemen in Neuwagen vorschreiben und damit den Einsatz von Kameras in Fahrzeugen erforderlich machen [BMD02]. Ein bildbasierter Anastz bietet gegenüber herkömmlichen Verfahren mehrere Vorteile: Er eliminiert die Notwendigkeit zusätzlicher Sensorik an den Sitzen, vereinfacht die Sitzmontage 2 und führt zu Kosteneinsparungen [JP17]. In Fahrzeugen der unteren und mittleren Preisklasse ermöglicht diese Methode erstmals die Bestimmung der Sitzposition ohne den Einsatz teurer Sensoren oder Motoren. In höherpreisigen Fahrzeugen, die bereits über solche Technologien verfügen, kann der bildbasierte Ansatz als redundantes System dienen und die Zuverlässigkeit weiter steigern. Ein weiterer entscheidender Vorteil dieser Methode liegt in der Möglichkeit, die korrekte Positionierung der Insassen zu überprüfen. Während Sitzmotoren oder Sensoren lediglich die Sitzposition erfassen, kann ein bildbasiertes System durch entsprechende Erweiterungen sicherstellen, dass die Person korrekt im Sitz sitzt. Dieser Aspekt trägt wesentlich zur Erhö- hung der Sicherheit bei und stellt einen wichtigen Mehrwert gegenüber rein sensorbasierten Systemen dar [BCUM10; LÖDJ21]. 1.2 Problemstellung und Zielsetzung Das Ziel dieser Arbeit ist die wissenschaftliche Untersuchung und Evaluierung eines möglichen Ansatzes zur bildbasierten Schätzung der Sitzkonfiguration im Fahrzeug. Zu diesem Zweck wird eine Analyse von Methoden für das Ausrichten (englisch: Matching) von Punktwolken zur Bestimmung der Position und Orientierung der Sitzteile (Sitzpolster, Rückenlehne, Kopfstütze) der Vordersitze in einem Škoda Kodiaq (Baujahr 2016) durchgeführt. Die implementierten Methoden werden sowohl anhand geeigneter Bewertungsmetriken mitein- ander verglichen als auch deren Vor- und Nachteile abgewogen. Darüber hinaus wird ein vereinfachter Lösungsansatz entwickelt und realisiert, indem ein Sitzmodell definiert und die Bestimmung der Sitzposition als Optimierungsproblem formuliert wird. Bei einer bildbasierten Schätzung der Sitzkonfiguration ergeben sich Herausforderungen, die bei herkömmlichen Methoden zur Sitz-Positionsbestimmung nicht auftreten. Dazu gehö- ren die Verdeckung der Sitze, wechselnde Beleuchtungsbedingungen sowie die Genauigkeit der Kamerasysteme. Das Fahrzeug ist während der Fahrt unterschiedlichen Lichtverhält- nissen ausgesetzt, etwa durch Sonneneinstrahlung oder künstliches Licht. Zudem können Verdeckungen durch andere Objekte, wie Rucksäcke, oder Kindersitze, sowie durch die Insassen selbst auftreten. Dies ist insbesondere beim Fahrer der Fall, da dieser stets im Fahrzeug anwesend ist. Deshalb wird eine Methodik entwickelt, die eine zeitliche Aggregation von Punktwolken ermöglicht, um eine zuverlässigere Bestimmung der Sitzkonfiguration im Falle von Verdeckungen zu gewährleisten. Die Arbeit konzentriert sich auf die Analyse synthetischer Daten in einer kontrollierten Simulationsumgebung, die vollständige Informationen bereitstellt. Neben den Kamerabildern werden ergänzende Daten abgeleitet, darunter eine Tiefenschätzung sowie ein vertieftes Szenen-Verständnis durch segmentierende Ansätze. Diese Informationen dienen als Eingabe- daten und ermöglichen erst den Einsatz der Matching-Algorithmen sowie die Definition des Optimierungsproblems. 3 1.3 Stand der Technik Die Verstellung von Fahrzeugsitzen erfolgt mechanisch oder elektrisch [LL20; SENL22]. Elektrische Sitze werden dabei auch als „Memory Seats“ bezeichnet, sofern sie über die Funktion verfügen, Sitzpositionen für verschiedene Fahrer zu speichern und automatisch abzurufen, was Komfort und Bequemlichkeit erhöht [SENL22]. Mechanische Verstellungen hingegen werden manuell durchgeführt, ohne den Einsatz von Motoren, was sie kosten- günstiger macht, aber eine automatische Erkennung der Sitzposition verhindert, wenn an den Sitzen keine entsprechende Sensorik vorhanden ist. Die in dieser Arbeit untersuchten bildbasierten Ansätze lösen dieses Problem, unter der Voraussetzung, dass im Fahrzeug eine Kamera zur Innenraumüberwachung installiert ist. Bei elektrischen Verstellsystemen wird zwischen sensorbasierten und sensorlosen Ansätzen unterschieden. [LL20] beschreibt ein elektrisches Verfahren zur Steuerung eines Fahrzeugsitzes basierend auf den Verstellinformationen von Schaltern und der Analyse von Sitzwinkeldaten. Die Schalter sind hierbei an den Sitzen des Fahrzeugs angebracht und steuern die möglichen Sitzfunktionen, das Neigen, Kippen, Vorwärts- und Rückwärtsbewegen der Sitze und ihrer Komponenten. Ein Controller analysiert die Verstellinformationen und bestimmt den aktu- ellen Winkel des Sitzes mithilfe von Winkelsensoren. Basierend auf diesen Informationen steuert er die Sitzbewegungen und überprüft, ob die durchgeführte Verstellung korrekt ist. Hierbei handelt es sich somit um ein elektrisches Verfahren, das gezielt Sensoren zur Bestimmung der Sitzposition einsetzt. Im Gegensatz dazu stellt [WLY+10] einen elektrisch verstellbaren Autositz vor, der keine Sensoren zur Positionsbestimmung verfügt. Die Anpassung der Sitzeinstellung erfolgt ebenfalls über integrierte Motoren, die über Steuertasten geregelt werden, allerdings ist aufgrund fehlender Sensorik keine automatische Sitzverstellung möglich beziehungsweise Memory-Funktion vorhanden. Weitere Beispiele für sensorlose Lösungen sind [JP21; IKKK03] während [SKG+08; MK11]präzise, sensorgestützte Verfahren beschreiben. Da die Sitz-Positionsbestimmung mittels sensorgestützter Verfahren in der Fahrzeugindustrie weitgehend als technisch gelöst betrachtet wird, konnte eine weiterführende Literaturrecherche über Google Scholar und Google Patents keine bildbasierten Ansätze zur Sitz-Positionsbestimmung identifizieren. Stattdessen richtet sich der Fokus der Industrie zunehmend auf die Analyse individueller Eigenschaften der Fahrzeuginsassen, um auf dieser Grundlage die Sitzkonfigurationen automatisch und vorausschauend anzupassen. Ziel ist es, den Komfort zu optimieren, indem Systeme auf Merkmale wie Größe, Gewicht, Alter oder Ellenbogenlänge der Insassen reagieren [Aru23; Bau15; BBG23]. Die Positionierung der Kamerasysteme zur Erfassung dieser Eigenschaften variiert. So werden beispielsweise Kameras im Fahrzeug [BKSS21; Upp16; YLW20] [Bau15] eingesetzt, oder extern [DUBH23; LFL+21], um entsprechende Personen bereits vor der Nutzung des Fahrzeugs zu registrieren. All diese Ansätze konzentrieren sich auf einzelne Personen, wobei Daten wie Punktwolken [BBG23; GED+21; PC19; Aru23] oder spezifische biometrische Merkmale [MJ20] generiert werden. Punktwolken oder Eigenschaften der Sitze selbst werden 4 jedoch nicht extrahiert und weiterverarbeitet, wie es in dieser Arbeit der Fall ist. Im nächsten Schritt zur Weiterverarbeitung der extrahierten Daten kommen in [GED+21] unterschiedliche Techniken wie neuronale Netze, maschinelles Lernen oder Bildverarbei- tungsmethoden zum Einsatz, um die Körperhaltung der Insassen zu bestimmen. Andere Ansätze konzentrieren sich auf spezifische Verfahren. So wird etwa in [PC19] die Kombinati- on mehrerer Sensordaten verwendet, um ein dreidimensionales Modell der Sitzposition des Fahrers zu erstellen, auf dessen Basis Sicherheitsfunktionen des Fahrzeugs angepasst werden. Ein weiteres Verfahren verwendet 3D-Körperscans zur Entwicklung benutzerdefinierter Sitzstrukturen für verschiedene Fahrer oder Fahrbedingungen [Wit23]. Darüber hinaus wird auch die Positionierung von Kindersitzen zunehmend durch bildbasierte Methoden unterstützt, die spezifische Kindersitzmodelle identifizieren und deren korrekte Platzierung im Fahrzeug überprüfen [PP21]. 1.4 Aufbau der Arbeit Nachdem in Kapitel 1 die Motivation, Problemstellung und Zielsetzung sowie der Stand der Technik dargelegt wurden, vermittelt Kapitel 2 darauf aufbauend die theoretischen Grundlagen, die für das Verständnis dieser Arbeit essentiell sind. Dies umfasst die Be- schreibung verschiedener Repräsentationsformen von 3D-Objekten, fundamentale Trans- formationstechniken sowie die Grundlagen der Punktwolken-Registrierung und relevanter Optimierungsverfahren. Das methodische Vorgehen wird in Kapitel 3 beschrieben. Zunächst erfolgt eine Analyse des Sitzaufbaus, gefolgt von einer Erläuterung des Prozesses der Datengewinnung. Den Schwerpunkt bildet die Schätzung der Sitzkonfiguration mittels Punktwolken-Registrierung, wobei sowohl die technische Realisierung als auch Erweiterungen der Registrierungsmethoden detailliert erläutert werden. Zudem wird ein neuartiger, optimierungsbasierter Ansatz zur Schätzung der Sitzkonfiguration vorgestellt. Kapitel 4 widmet sich der systematischen Evaluation der entwickelten Methoden. Aus- gehend von der Definition geeigneter Testszenarien, Zielwerten und Bewertungsmetriken erfolgt eine umfassende Analyse der Punktwolken-Registrierung. Hierbei werden verschiedene Registrierungsmethoden quantitativ verglichen und die Auswirkungen unterschiedlicher Pa- rameterkonstellationen untersucht. Zusätzlich wird die optimierungsbasierte Schätzung der Sitzkonfiguration durch die Beurteilung der Leistungsfähigkeit verschiedener Optimierungs- algorithmen evaluiert. Daraufhin werden geeignete Punktwolken-Registrierungsmethoden sowie effektive Optimierungsansätze miteinander verglichen, wobei unterschiedliche Szenari- en mit variierenden Rauschpegeln berücksichtigt werden. Abschließend wird die Strategie zum Umgang mit Verdeckungen untersucht. Die Arbeit schließt in Kapitel 5 mit einem Fazit, welches die wesentlichen Erkenntnisse zusammenfasst und einen Ausblick auf potenzielle weiterführende Forschungsarbeiten in diesem Bereich gibt. 5 2 Grundlagen Dieses Kapitel dient dazu, die Leser auf einen gemeinsamen Stand zu bringen, indem die entscheidenden Grundlagen erläutert werden. Es beginnt in Abschnitt 2.1 mit einer Einordnung des Stands der Forschung zu existierenden Ansätzen der Schätzung der Pose (englisch: Pose Estimation). Anschließend wird in Abschnitt 2.2 das grundlegende Konzept der 3D-Punktwolken eingeführt, gefolgt von einer Beschreibung der Operationen, die auf Punktwolken durchgeführt werden können. Zuletzt erfolgt in den Abschnitten 2.3 und 2.4 eine Erläuterung der Punktwolken-Registrierung und eine Einführung in die Optimierung. 2.1 Stand der Forschung Die Bestimmung der Position und Orientierung von Objekten, auch als Pose Estimation bezeichnet, stellt in der Computer Vision ein zentrales Forschungsfeld dar und findet vielsei- tige Anwendungen in Bereichen wie der Robotik, dem autonomen Fahren, der Schätzung der menschlichen Körperhaltung, sowie in Augmented- und Virtual-Reality-Systemen. Unter dem Begriff „Pose“ wird dabei die Kombination aus Position und Orientierung eines starren Objekts in der dreidimensionalen Welt verstanden. Zur vollständigen Beschreibung der Pose sind sechs Freiheitsgrade (englisch: Degrees of Freedom, DoFs) erforderlich: drei für die Position und drei für die Orientierung [Cor17]. Trotz zahlreicher Beiträge in unterschiedlichen Anwendungsfeldern zeigt eine durch- geführte Literaturrecherche, wie auch bereits in Abschnitt 1.3 festgestellt wurde, dass Arbeiten zur spezifischen Bestimmung der Pose von Fahrzeugsitzen in der bestehenden Forschungsliteratur nicht zu finden sind. Nachfolgend werden relevante Forschungsarbei- ten zur Bestimmung der Pose von Objekten skizziert, ohne sich auf die Betrachtung von Fahrzeugsitzen zu beschränken. Der Fokus liegt dabei auf Ansätzen, die 3D-Informationen wie Tiefeninformationen oder Punktwolken nutzen, da diese in der Forschung als besonders vielversprechend gelten und eine enge Verbindung mit der in dieser Arbeit angewandten Methodik besteht [HFZL20; HAX+21]. Verfahren, die ausschließlich auf 2D-Bilddaten basieren, werden demnach nicht weiter betrachtet. Ein zentraler Beitrag zur Bestimmung der 6D Pose spezifischer Objekte in einem einzelnen RGB-D-Bild, das aus einem Farbbild RGB und einem Tiefenbild D besteht, wurde von [BKM+14] vorgestellt. Ihr Ansatz zeichnet sich durch die Flexibilität aus, mit generischen Objekten umzugehen, unabhängig davon, ob diese Texturen aufweisen oder nicht. Die Neuartigkeit dieser Arbeit besteht in der Einführung einer neuen Repräsentation: einer gemeinsamen dichten 3D-Objektkoordinaten- und Objektklassenkennzeichnung. Dadurch werden die Grenzen traditioneller schablonenbasierter (englisch: Template-based) Verfahren überwunden. Diese Methoden legen eine starre Schablone über das Bild und berechnen ein Distanzmaß, um die beste Übereinstimmung zu finden. Allerdings stoßen schablonenbasierte Ansätze bei Verdeckungen, wechselnden Lichtverhältnissen sowie der Notwendigkeit mehrerer Schablonen für verschiedene Objektposen an ihre Grenzen. Der von [BKM+14] vorgestellte Ansatz überwindet diese Einschränkungen und übertraf zum Zeitpunkt der Veröffentlichung die bestehenden State-of-the-Art-Technologien. 6 Ein Nachteil des oben genannten Ansatzes ist jedoch, dass er mit symmetrischen Ob- jekten nicht umgehen kann, da er deren Symmetrie nicht korrekt berücksichtigt. Um diese Einschränkung zu adressieren, stellen [XSNF17] das generische Framework PoseCNN vor, das die Limitationen bestehender Methoden überwindet. PoseCNN ist ein tiefes Convolutio- nal Neural Network für die 6D-Objektpose-Schätzung. Die Schlüsselidee besteht darin, die Aufgabe der Posenschätzung in verschiedene Komponenten zu entkoppeln, was es dem Netz- werk ermöglicht, die Abhängigkeiten und Unabhängigkeiten zwischen diesen Komponenten zu modellieren. PoseCNN zeigt eine hohe Robustheit gegenüber Verdeckungen und erzielt in Kombination mit Tiefendaten die besten Ergebnisse auf dem OccludedLINEMOD Datensatz [BKM+14]. Der hier beschriebene Ansatz verwendet zudem ICP (englisch: Iterative Closest Point), um die 6D-Posenschätzung weiter zu verfeinern, ähnlich wie in dieser Arbeit. Die Verwendung von ICP als nachträglicher Verfeinerungsschritt erweist sich jedoch oft als ineffizient für Echtzeitanwendungen. Daher wird in der wissenschaftlichen Literatur nach alternativen Lösungen geforscht, wobei ein bedeutender Beitrag von [WXZ+19] stammt. In dieser Arbeit wird DenseFusion als generisches Framework mit heterogener Architektur vorgestellt, dass Farbe und Tiefe aus den RGB-D-Bildern einzeln verarbeitet. Ein dichtes Fusionsnetzwerk wird verwendet, um pixelweise dichte Merkmale zu extrahieren, aus denen die Pose geschätzt wird. Darüber hinaus ersetzt ein iteratives End-to-End-Verfahren den ICP Pose-Verfeinerungsschritt, wodurch Echtzeit-Inferenz und State-of-the-Art Ergebnisse zum Veröffentlichungszeitpunkt erreicht wurden. 2.2 3D-Punktwolken und weitere Repräsen- tationsformen Als zentrale Datenstruktur zur Erfassung und Verarbeitung von 3D-Daten bilden Punkt- wolken einen wesentlichen Bestandteil dieser Arbeit. Zunächst werden die theoretischen Grundlagen der Punktwolken sowie alternative Repräsentationsformen beschrieben. Anschlie- ßend folgt eine Erläuterung der Techniken zur Datenreduktion (englisch: Downsampling) von Punktwolken und des Konzepts der homogenen Koordinaten, das eine Beschreibung von Transformationen wie die Rotation und Translation ermöglicht. Eine Punktwolke ist eine ungeordnete Sammlung von Punkten P = {p1,p2,. . . , pn | pi ∈ R3}, die zur Beschreibung der Form und Oberfläche eines Objekts oder einer Szene in 3D dient [LWZ21; Wei16; Cor17]. Jeder Punkt p enthält hierbei die x-, y- und z-Koordinaten, die eine eindeutige Position im Raum angeben, jedoch ohne zusätzliche Dimensionen wie Länge, Fläche, Orientierung oder Volumen [Wei16]. Die Position eines Punktes wird dabei eindeutig in Bezug auf drei zueinander orthogonale Achsen identifiziert. Neben diesen räumlichen Informationen kann jeder Punkt p optional zusätzliche Attribute wie RGB-Farbwerte oder Oberflächennormalen enthalten, sodass er in solchen Fällen durch einen erweiterten Vektor dargestellt wird [LZKK21]. Typischerweise bestehen Punktwolken aus einer sehr großen Anzahl von Punkten, oft im Bereich von zehntausenden bis hunderttausenden, und enthalten bei Echtwelt-Daten häufig Ausreißer sowie Rauschen [LZKK21]. Während 2D-Bilder eine vertraute Datenstruktur mit 7 einer regelmäßigen Gitteranordnung darstellen, fehlt es Punktwolken an einer festen Struktur. Diese Besonderheit erfordert bei der Entwicklung von Algorithmen zur Verarbeitung von 3D- Punktwolken eine Berücksichtigung der fehlenden Ordnung sowie der Invarianz gegenüber Permutationen [LZKK21]. Der Vorteil von Punktwolken im Vergleich zu 2D-Bildern liegt jedoch darin, dass sie vollständige 3D-Informationen über die Struktur eines ...