Eine Publikation der Swissprofessionalmedia AG
PDF download
Eine Einführung in Deep Learning : Ausgabe 10/2018, 13.06.2018

Bessere Erkennungsleistung als der Mensch

Deep Learning erhält in letzter Zeit viel Aufmerksamkeit, und das aus gutem Grund. Es hat grosse Auswirkungen in Bereichen wie Computer Vision und Natural Language Processing. Es ist eine der Schlüsseltechnologien hinter Autonomem Fahren und Spracherkennung und -steuerung in Endgeräten wie Telefonen und Freisprecheinrichtungen.

Autor: Johanna Pingel, Product Marketing Managerin, MathWorks, Text und Bilder

Die Beantwortung folgender drei Fragen bringt Licht in den Begriff Deep Learning:

  • Was ist Deep Learning?
  • Was ist der Unterschied zwischen Machine Learning und Deep Learning?
  • Wie wird Deep Learning in der realen Welt eingesetzt?

Frage 1: Was ist Deep Learning?

Bei Deep Learning lernt ein Computermodell, Klassifizierungsaufgaben direkt aus Bildern, Texten oder Tönen auszuführen. Deep-Learning-Modelle erreichen eine hohe Genauigkeit und übertreffen manchmal sogar die menschliche Erkennungsleistung. Die meisten Methoden des Deep Learning verwenden neuronale Netzwerkarchitekturen, weshalb Deep-Learning-Modelle oft als Deep Neural Networks bezeichnet werden.

Der Begriff «tief» bezieht sich in der Regel auf die Anzahl der verborgenen Schichten im neuronalen Netz. Traditionelle neuronale Netze enthalten nur zwei bis drei verborgene Schichten, während tiefe Netze bis zu 150 aufweisen können. Eine der populärsten Arten von tiefen neuronalen Netzen ist bekannt als faltende neuronale Netze (CNN oder ConvNet, Convolutional Neural Network). Ein CNN führt die Faltung von erlernten Merkmalen mit Eingabedaten aus und verwendet 2D-Faltungsschichten, wodurch sich diese Architektur gut für die Verarbeitung von 2D-Daten, wie z.B. Bildern, eignet.

Erkennung von handgeschriebenen Postleitzahlen ist Deep Learning

Anhand eines Bildbeispiels kann ein vollständig trainiertes Deep-Learning-Modell Objekte in Bildern automatisch identifizieren, auch wenn es diese noch nie zuvor gesehen hat. Wie können Websites bestimmte Personen auf Fotos, die gerade hochgeladen wurden, identifizieren? Das ist Deep Learning bei der Arbeit. Viele der heute bei Deep Learning benutzten Techniken gibt es schon seit Jahrzehnten. So wird z.B. seit den 90er-Jahren im Postdienst die Erkennung von handgeschriebenen Postleitzahlen mittels Deep Learning gemacht. Warum hat diese Technik in letzter Zeit so an Popularität zugenommen? Hauptgrund ist die hohe Genauigkeit. Deep-Learning-Modelle übertreffen heute manchmal sogar menschliche Erkennungsleistungen. Zwei Hauptfaktoren machen dies erst möglich:

  • Für Deep Learning sind grosse Mengen vorklassifizierter Daten erforderlich. So erfordert die Entwicklung eines selbstfahrenden Fahrzeugs Millionen von Bildern und Tausende Stunden Video
  • Deep Learning erfordert eine hohe Rechenleistung. Hochleistungs-Grafikprozessoren verfügen über eine parallele Architektur, die sich effizient für Deep Learning nutzen lässt. Kombinert mit Clustern oder Cloud-Computing lässt sich so die Trainingszeit für ein Deep-Learning-Netzwerk von Wochen auf Stunden oder weniger reduzieren.

Frage 2: Was ist der Unterschied zwischen Machine und Deep Learning?

Mit einem Standardansatz im Bereich Machine Learning muss man die relevanten Bildmerkmale, wie Kanten oder Ecken, manuell auswählen, um das Machine-Learning-Modell zu trainieren. Das Modell verweist dann bei der Analyse und Klassifizierung neuer Objekte auf diese Merkmale.

Mit einem Deep Learning Workflow werden relevante Merkmale automatisch aus Bildern extrahiert. Darüber hinaus führt Deep Learning ein «End-to-End-Learning» durch, bei dem einem Netzwerk Rohdaten und eine Aufgabe, wie die Klassifizierung, zugewiesen werden, und das Netz lernt, dies automatisch auszuführen.

Ein weiterer wesentlicher Unterschied besteht darin, dass die Deep-Learning-Algorithmen mit Daten skalieren, während das «flache Lernen» konvergiert. Unter «Shallow Learning» versteht man Machine-Learning-Methoden, die ab einem bestimmten Punkt keine weitere Verbesserung der Genauigkeit der Vorhersage erreichen, auch wenn man dem Netzwerk weitere Trainingsdaten hinzufügt.

Machine Learning erlaubt Kombination von Ansätzen

Bei der Wahl zwischen Machine und Deep Learning sollte man wissen, ob ein leistungsfähiger Grafikprozessor und viele vorklassifizierte Daten vorliegen. Falls nein, sollte man Machine Learning einsetzen. Denn Deep Learning ist in der Regel komplexer, man braucht einige tausend Bilder, um zuverlässige Ergebnisse zu erhalten, sowie einen leistungsstarken Grafikprozessor, damit das Modell weniger Zeit mit der Bilderanalyse verbringt.

Beim Machine Learning kann man das Modell für viele verschiedene Klassifikatoren trainieren. Vielleicht weiss man auch, welche Merkmale extrahiert werden müssen, um die besten Ergebnisse zu erzielen. Ausserdem bietet Machine Learning die Flexibilität, eine Kombination von Ansätzen zu wählen. Durch Verwendung verschiedener Klassifikatoren mit unterschiedlichen Merkmalen lässt sich die optimale Kombination für die gewählten Daten finden. Deep Learning ist rechenintensiver, während Machine-Learning-Techniken oft einfacher anzuwenden sind.

Frage 3: Wie wird Deep Learning in der realen Welt eingesetzt?

Deep-Learning-Anwendungen werden in vielen Branchen eingesetzt, vom autonomen Fahren bis hin zu medizinischen Geräten.

  • Autonomes Fahren: Fahrzeugentwickler nutzen Deep Learning, um Objekte wie Stoppschilder und Ampeln oder Fussgänger automatisch zu erkennen, was zur Verringerung von Unfällen beiträgt
  • Luft- und Raumfahrt, Verteidigung: Mit Hilfe von Deep Learning werden Objekte von Satelliten identifiziert, die interessante Bereiche lokalisieren und sichere oder unsichere Zonen für Truppen identifizieren
  • Medizinische Forschung: Krebsforscher nutzen Deep Learning, um Krebszellen automatisch zu erkennen
  • Industrielle Automatisierung: Deep Learning trägt dazu bei, die Sicherheit von Arbeitnehmern in der Umgebung schwerer Maschinen zu verbessern, indem es automatisch erkennt, ob sich Personen in unsicherem Abstand der Maschinen befinden
  • Elektronik: Deep Learning wird in der automatisierten Hör- und Sprachübersetzung eingesetzt. So basieren Geräte im Haus, die auf Stimmen reagieren und Präferenzen kennen, auf Deep-Learning-Anwendungen

Erste Schritte mit MATLAB und der Neural Network Toolbox

Eine der aufwendigsten Arbeiten bei der Erstellung neuer Deep-Learning-Modelle ist die Klassifizierung von Bildern zum Trainieren des Programms. Vortrainierte Netze verringern die Anzahl der nötigen Bilder erheblich. Mit MATLAB und der Neural Network Toolbox lassen sich ohne besondere Vorkenntnisse Deep-Learning-Lösungen erstellen. Weiterführende Informationen zum Thema Deep Learning findet man unter: https://ch.mathworks.com/discovery/deep-learning.html oder https://ch.mathworks.com/solutions/deep-learning.html?s_tid=hp_brand_deeplearning. 

Infoservice

Mathworks
Murtenstrasse 143, 3008 Bern
Tel. 031 950 60 20, Fax 031 950 60 22
info@mathworks.ch, www.mathworks.ch



Fahrzeugentwickler nutzen Deep Learning, um Objekte wie Stoppschilder und Ampeln oder Fussgänger automatisch zu erkennen, was zur Verringerung von Unfällen beiträgt


Vergleich eines Machine-Learning-Ansatzes zur Kategorisierung von Fahrzeugen (links) mit Deep Learning (rechts)


Ein CNN führt die Faltung von erlernten Merkmalen mit Eingabedaten aus und erkennt so ein Hundefoto als Hund