Eine Publikation der Swissprofessionalmedia AG
PDF download
Bildbasiertes System erkennt die Nutzung von Mobiltelefonen und den Verzehr von Lebensmitteln: Ausgabe 03/2020, 20.02.2020

Deep Learning bei Fahrassistenzsystemen reduziert Unfallrisiko am Steuer

Nach einem Bericht der Weltgesundheitsorganisation (WHO) sterben jedes Jahr etwa 1,35 Mio. Menschen bei Verkehrsunfällen und weitere 20 bis 50 Mio. werden verletzt. Eine der Hauptursachen dafür ist die Unachtsamkeit am Steuer, weswegen viele Automobilhersteller bereits Fahrassistenzsysteme zur Erkennung von Müdigkeit nutzen. Ein Deep-Learning-Ansatz soll diese Risiken minimieren. verschiedene Szenarien am Steuer erkennt und den Fahrer vor verkehrsgefährdendem Verhalten warnt. Seit einigen Jahren kommen in der Automobilindustrie bereits Systeme zum Einsatz, die vor auftretender Müdigkeit warnen. Dafür analysieren diese Fahrassistenten beispielsweise die Blickrichtung des Fahrers und sie erkennen automatisch Abweichungen vom üblichen Verhalten am Steuer. «Existierende Warnsysteme können bisher nur bestimmte Gefahrensituationen richtig erfassen», berichtet Benjamin Wagner, Senior Consultant für Fahrassistenzsysteme bei ARRK Engineering. «Denn bei einigen Tätigkeiten wie Essen, Trinken oder Telefonieren wird die Kopfhaltung kaum verändert, da der Fahrer weiter auf die Strasse vor sich schaut.» Deswegen hat ARRK Engineering eine Versuchsreihe zur Identifikation von unterschiedlichen Körperhaltungen durchgeführt, um die Nutzung von Mobiltelefonen und den Verzehr von Lebensmitteln automatisch zu erkennen. Damit sämtliche Arten von visueller, aber auch manueller und kognitiver Ablenkung korrekt erfasst werden, testete ARRK verschiedene Deep Learning Modelle und trainierte sie mit den ermittelten Daten. Erstellung des ersten Bilddatensatzes zum Anlernen der Systeme Für den Versuchsaufbau wurden in einem Testwagen zwei Kameras mit aktiver Infrarotbeleuchtung jeweils links und rechts des Fahrers an der A-Säule installiert. Beide Kameras verfügten über eine Frequenz von 30 Hz und lieferten 8-Bit-Graustufenbilder mit einer Auflösung von 1280 × 1024 Pixeln. «Die Kameras waren ausserdem mit einem IRLangpassfilter ausgestattet, um den grössten Teil des Lichts aus dem sichtbaren Spektrum mit einer Wellenlänge unter 780 nm zu blockieren», so Wagner. «Dadurch stellten wir sicher, dass das empfangene Licht hauptsächlich von den IR-Strahlern stammt und deren volle Funktionalität sowohl bei Tag als auch bei Nacht gewährleistet ist.» Darüber hinaus vermied die Blockade des sichtbaren Tageslichts auch mögliche Schatteneffekte in der Fahrerkabine, die sonst zu Fehlern bei der Gesichtserkennung führen können. Damit die Bilder auf beiden Seiten zur gleichen Zeit aufgenommen wurden, wurde ein Raspberry Pi 3 Model B+ verwendet, das ein Triggersignal an beide Kameras im Moment der Aufnahme sendet. Fünf Kategorien von Ablenkungsarten Mit diesem Aufbau wurden die Bilder der Körperhaltungen von 16 Probanden in einem stehenden Auto aufgenommen. Um möglichst vielfältige Daten zu erzeugen, unterschieden sich die Probanden beispielsweise in Geschlecht, Alter oder Kopfbedeckung, aber auch verschiedene Mobiltelefonmodelle, Lebensmittel und Getränke wurden genutzt. «Für die jeweiligen Ablenkungsarten erstellten wir fünf Kategorien, in die später die Körperhaltungen einsortiert werden konnten», so Wagner. Dabei handelte es sich um keine sichtbare Ablenkung, Telefonieren am Smartphone, manuelle Bedienung des Smartphones, Essen sowie Trinken, aber auch das Halten von Lebensmitteln oder Getränken. «Für die Versuchsreihe instruierten wir unsere Probanden, zwischen diesen Tätigkeiten bei simuliertem Fahrverhalten zu wechseln.» Nach der Aufnahme wurden die Bilder der beiden

Bilder: Arrak Engineerring

Nicht nur Sekundenschlaf verursacht viele Unfälle, auch das Telefonieren sowie Schreiben von Textnachrichten mit dem Smartphone oder der Verzehr von Lebensmitteln während der Fahrt stellen ein hohes Risiko dar. Bisherige Assistenzsysteme können diese Tätigkeiten allerdings noch nicht identifizieren.

CNN als Grundlage für Fahrassistenten
ARRK Engineering hat daher eine Testreihe durchgeführt, um Ablenkungen durch Mobiltelefone oder Nahrungsaufnahme automatisch zu erkennen und zu kategorisieren. Dazu wurden Bilder mit Infrarotkameras aufgenommen und für das maschinelle Anlernen von unterschiedlichen Convolutional Neural Network-Systemen (CNN) verwendet. So konnte die Grundlage für einen Fahrassistenten geschaffen werden, der zuverlässig verschiedene Szenarien am Steuer erkennt und den Fahrer vor verkehrsgefährdendem Verhalten warnt.
Seit einigen Jahren kommen in der Automobilindustrie bereits Systeme zum Einsatz, die vor auftretender Müdigkeit warnen. Dafür analysieren diese Fahrassistenten beispielsweise die Blickrichtung des Fahrers und sie  erkennen automatisch Abweichungen vom üblichen Verhalten am Steuer. «Existierende Warnsysteme können bisher nur bestimmte Gefahrensituationen richtig erfassen», berichtet Benjamin Wagner, Senior Consultant für Fahrassistenzsysteme bei ARRK Engineering. «Denn bei einigen Tätigkeiten wie Essen, Trinken oder Telefonieren wird die Kopfhaltung kaum verändert, da der Fahrer weiter auf die Strasse vor sich schaut.»
Deswegen hat ARRK Engineering eine Versuchsreihe zur Identifikation von unterschiedlichen Körperhaltungen durchgeführt, um die Nutzung von Mobiltelefonen und den Verzehr von Lebensmitteln automatisch zu erkennen. Damit sämtliche Arten von visueller, aber auch manueller und kognitiver Ablenkung korrekt erfasst werden, testete ARRK verschiedene Deep Learning Modelle und trainierte sie mit den ermittelten Daten.

Erstellung des ersten Bilddatensatzes zum Anlernen der Systeme
Für den Versuchsaufbau wurden in einem Testwagen zwei Kameras mit aktiver Infrarotbeleuchtung jeweils links und rechts des Fahrers an der A-Säule installiert. Beide Kameras verfügten über eine Frequenz von 30 Hz und lieferten 8-Bit-Graustufenbilder mit einer Auflösung von 1280 × 1024 Pixeln. «Die Kameras waren ausserdem mit einem IRLangpassfilter ausgestattet, um den grössten Teil des Lichts aus dem sichtbaren Spektrum mit einer Wellenlänge unter 780 nm zu blockieren», so Wagner. «Dadurch stellten wir sicher, dass das empfangene Licht hauptsächlich von den IR-Strahlern stammt und deren volle Funktionalität sowohl bei Tag als auch bei Nacht gewährleistet ist.»
Darüber hinaus vermied die Blockade des sichtbaren Tageslichts auch mögliche Schatteneffekte in der Fahrerkabine, die sonst zu Fehlern bei der Gesichtserkennung führen können. Damit die Bilder auf beiden Seiten zur gleichen Zeit aufgenommen wurden, wurde ein Raspberry Pi 3 Model B+ verwendet, das ein Triggersignal an beide Kameras im Moment der Aufnahme sendet.

Fünf Kategorien von Ablenkungsarten
Mit diesem Aufbau wurden die Bilder der Körperhaltungen von 16 Probanden in einem stehenden Auto aufgenommen. Um möglichst vielfältige Daten zu erzeugen, unterschieden sich die Probanden beispielsweise in Geschlecht, Alter oder Kopfbedeckung, aber auch verschiedene Mobiltelefonmodelle, Lebensmittel und Getränke wurden genutzt. «Für die jeweiligen Ablenkungsarten erstellten wir fünf Kategorien, in die später die Körperhaltungen einsortiert werden konnten», so Wagner.
Dabei handelte es sich um keine sichtbare Ablenkung, Telefonieren am Smartphone, manuelle Bedienung des Smartphones, Essen sowie Trinken, aber auch das Halten von Lebensmitteln oder Getränken. «Für die Versuchsreihe instruierten wir unsere Probanden, zwischen diesen Tätigkeiten bei simuliertem Fahrverhalten zu wechseln.» Nach der Aufnahme wurden die Bilder der beiden Kameras entsprechend kategorisiert und danach für das maschinelle Anlernen des Systems genutzt.

Training und Test der Bilderkennungssysteme
Zur Erkennung der Körperhaltungen wurden vier modifizierte CNN-Modelle verwendet: ResNeXt-34, ResNeXt-50, VGG-16 und VGG19. Die beiden letztgenannten repräsentieren in der Praxis gängige Modelle, wohingegen ResNeXt-34 und ResNeXt-50 eine dedizierte Struktur zur Verarbeitung von parallelen Pfaden enthalten. Für das Training der Systeme führte ARRK 50 Durchgänge mit dem AdamOptimizer durch – einem Optimierungsalgorithmus mit adaptiver Lernrate. Dabei musste das CNN-Modell bei jedem Durchgang die Körperhaltungen der Probanden in die vorher erstellten Kategorien einordnen. Mit jedem weiteren Schritt wurde diese Kategorisierung über ein Gradientenverfahren so angepasst, dass die Fehlerrate kontinuierlich sinkt. Zum Abschluss des Prozesses wurde ein dedizierter Testdatensatz für die Berechnung der Wahrheitsmatrix verwendet, um die Fehlerquote pro Fahrerhaltung für jedes CNN-Modell zu analysieren.
«Die Verwendung von zwei Kameras mit jeweils separat geschultem CNN-Modell erlaubt uns eine optimierte Fallunterscheidung für die linke und die rechte Gesichtshälfte», führt Wagner aus. «Dank dieses Vorgehens konnten wir das System mit der besten Performance ermitteln, um den Gebrauch von Mobiltelefonen und den Verzehr von Lebens
mitteln für einen grossen Bereich von Kopfwinkeln zu erkennen.» Die Gesamtauswertung ergab, dass die CNN-Modelle ResNeXt-34 und ResNeXt-50 die höchste Testgenauigkeit von 92,88 % für die linke Kamera und 90,36 % für die rechte Kamera erreichten – ein mit bisherigen Lösungen zur Erkennung von Müdigkeit absolut wettbewerbsfähiges Ergebnis.

Es gibt bereits 20 000 gelabelte Augendatensätze
Mit diesen Informationen erweiterte ARRK abschliessend seine Trainingsdatenbank und kann beispielsweise bereits auf etwa 20 000 gelabelte Augendatensätze zugreifen. Darauf aufbauend ist die Entwicklung eines automatisierten, kamerabasierten Systems zur Validierung von Fahrerbeobachtungssystemen möglich. Für eine geringere Fehlerquote des Systems planen die Experten von ARRK Engineering sogar bereits einen Schritt weiter. «Um die Genauigkeit weiter zu verbessern, werden wir in einem nächsten Projekt andere CNN-Modelle einsetzen», resümiert Wagner.
«Neben der Bewertung weiterer Klassifikationsmodelle werden wir dabei auch analysieren, ob die Integration von zugehörigen Objektpositionen aus dem Kamerabild zu zusätzlichen Verbesserungen führen kann.» In diesem Zusammenhang werden Ansätze zu berücksichtigen sein, die auf der Erkennung von sogenannten Bounding Boxes und der semantischen Segmentierung basieren. Letztere gestatten neben einer Klassifizierung auch verschiedene Detailstufen hinsichtlich der Lokalisierung von Objekten. Auf diese Weise kann ARRK die Genauigkeit eines Fahrassistenzsystems zur automatischen Erkennung von Ablenkungen am Steuer verbessern.

Infoservice
P+Z Engineering GmbH
Frankfurter Ring 160, DE-80807 München
Tel. 0049 89 31 85 70, Fax 0049 89 31 85 71 11
info@arrk-engineering.com www.arrk-engineering.com

 



Nach einem Bericht der Weltgesundheitsorganisation (WHO) sterben jedes Jahr etwa 1,35 Mio. Menschen bei Verkehrsunfällen und weitere 20 bis 50 Mio. werden verletzt.
Bild: Erich Kasten, pixelio.de


Nicht nur Müdigkeit verursacht viele Unfälle, auch das Telefonieren mit dem Smartphone während der Fahrt stellt ein hohes Risiko dar
Bild: Dusan Petkovic, Shutterstock



Für den Versuchsaufbau wurden in einem Testwagen zwei Kameras mit aktiver Infrarotbeleuchtung jeweils links und rechts des Fahrers installiert


Für das Experiment wechselten die Probanden zwischen fünf verschiedenen Tätigkeiten bei simuliertem Fahrverhalten – nach der Aufnahme wurden die Bilder der beiden Kameras kategorisiert und danach für das maschinelle Anlernen des Systems genutzt


Benjamin Wagner: «Existierende Warnsysteme können meines Wissens bisher nur bestimmte Gefahrensituationen richtig erfassen»

Firmenprofil

ARRK Engineering ist Teil des internationalen ARRK Firmenverbundes und spezialisiert auf sämtliche Leistungen rund um die Produktentwicklung. Mithilfe der Kompetenzen in Elektronik & Software, CAE, Material, Akustik, Composite, Karosserie, Antrieb, Fahrwerk, Interieur & Exterieur, Optische Systeme, Passive Sicherheit und Thermomanagement entwickelt das Unternehmen als langjähriger strategischer Entwicklungspartner für seine Kunden ganzheitlich und eigenverantwortlich Produkte. Zusammen mit den Schwesterunternehmen setzt ARRK Engineering Produktentwicklungen von der virtuellen Entwicklung bis hin zum Prototypen und der Produktion in Kleinserien um. Die Standorte der weltweit tätigen ARRK Engineering Division liegen in Deutschland, Rumänien, UK, Japan und China. Das Headquarter der Engineering Division ist die P+Z Engineering GmbH in Deutschland. ARRK Engineering beschäftigt über 1200 Mitarbeiter.