Eine Publikation der Swissprofessionalmedia AG
PDF download
Computer-on-Modules mit AMD-Ryzen-Embedded-Prozessoren für Künstliche Intelligenz: Ausgabe 19/2018, 22.11.2018

Künstliche Intelligenz in Echtzeit

Soll Künstliche Intelligenz in industriellen Applikationen zum Einsatz kommen, sind vielfach parallele Rechenprozesse bei kürzesten Reaktionszeiten in Echtzeit nötig. Das stellt an die Embedded-Computer wie die Computer-on-Modules mit AMD-Ryzen-Embedded-V1000-Prozessoren neue Anforderungen.

Autor: Andreas Bergbauer, Produktmanager Computer-on-Modules, congatec AG, Text und Bilder

Der Markt für KI erlebt derzeit einen Boom: Laut ResearchAndMarkets soll der globale KI-Markt bis 2025 um jährlich 36,6 % auf 190,61 Mrd. Dollar wachsen. Schon heute erlebt man KI bei Produkt-, Film- und Musikempfehlungen und auch bei Servicehotlines, wo KI-Bots allgemeine Kundenfragen ganz eigenständig beantworten. Auch in Smartphones ist KI integriert, beispielsweise bei der Gesichts- und Gestenerkennung und den persönlichen (Sprach-)Assistenten.

Fertigungsindustrie ist Haupttreiber
Einer der wichtigsten Treiber für neue KI ist jedoch auch die fertigende Industrie – so die Studie «Exponential technologies in manufacturing» von Deloitte. Einsatzgebiete von industrieller KI finden sich dabei neben zeitlich weniger kritischen Einsatzgebieten – wie etwa KI für Predictive Maintenance oder für Bedarfsprognosen – speziell in Anwendungsfeldern, die Echtzeitfähigkeit erfordern, wie:
■ die industrielle Bildverarbeitung, wo die KI dabei hilft, viele verschiedene Zustands- und/oder Produkteigenschaften zu erfassen und über intelligente Mustererkennung zu bewerten, so dass eine verlässlichere Qualitätskontrolle erfolgen kann. Forbes spricht davon, dass KI die Fehlererkennungsrate um bis zu 90 % steigern kann.
■ kooperative und kollaborative Roboter, die sich mit Menschen denselben Arbeitsbereich teilen und flexibel auf unvorhersehbare Ereignisse reagieren können und hierfür Entscheidungen auf Basis sogenannter Situational Awareness treffen;
■ auch an autonome Flurförderzeuge werden ganz ähnliche Anforderungen gestellt.
■ KI Anwendungen in der Halbleiterindustrie zeigten zudem beispielsweise einen um 30 % reduzieren Ausschuss durch Big Data Analytik von Maschinendaten zur Ursachenforschung, die in hoher Präzision und auch in Echtzeit erhoben werden muss.
■ Zudem gibt es auch den grossen Bereich der Produktionsplanung und -Steuerung von Industrie-4.0-Fabriken in Echtzeit. Hier hilft KI am Edge, die Prozesse zu optimieren und so die Auslastung der Maschinen und letztlich die Produktivität der gesamten Fabrik zu steigern.

Bei schnellen Prozessen gibt es keine Kontrollinstanz mehr
An den Einsatz von KI im industriellen Umfeld werden dabei hohe Anforderungen an die zu integrierende Logik gestellt, denn bei schnellen Prozessen – wie bei Inspektionssystemen – gibt es oft keine weitere Kontrollinstanz. Das ist anders, als beispielsweise in der Medizintechnik, wo die KI-Ergebnisse automatischer Bildauswertungen immer auch von einem Arzt kontrolliert werden und wo die KI nur Empfehlungen gibt und damit die Arbeitsschritte der Datenauswertung beschleunigt. Deshalb muss bei industriellen KI-Systemen stets sichergestellt werden, dass die Entscheidungsfindungsprozesse der KI-Systeme nachvollziehbar und – aus Maschinen- und damit auch Arbeitssicherheitsanforderungen – auch immer korrekt sind. Das Training der KI ist im industriellen Umfeld deshalb deutlich komplexer. Auch gibt es kaum Negativbeispiele. Dieser Aspekt ist ebenfalls anders, als in der Medizintechnik, wo abertausende von negativen und positiven Befunden genutzt werden können, um Systeme zu trainieren und lernen zu lassen.
In der Industrie müssen Fehler hingegen von Anfang an vermieden werden. Daher werden hier häufig digitale Twins, also digitale Abbilder der Maschinen und Anlagen genutzt, um Negativbefunde zu simulieren und dadurch beispielsweise gewisse Bewegungsabläufe von Robotern von vorneherein auszuschliessen. Wie entwickelt und betreibt man also fehlerfreie industrielle KI für Echtzeitanforderungen?

KI in die Fabrikhalle bringen
Zum besseren Verständnis ist hierzu zunächst ein Blick auf die Grundlagen moderner KI-Systeme hilfreich. Hierbei muss man zwei Bereiche unterscheiden: Einerseits das maschinelle Lernen, das durch neue eindeutige Informationen ständig zu erweitertem Wissen führt sowie andererseits das Deep Learning, durch das sich Systeme mittels grosser Datenmengen selber trainieren und neue Informationen eigenständig interpretieren. Das Vorgehen ist bei letzterem, also beim Deep Learning, selbst für unterschiedlichste Aufgaben nahezu immer identisch. Ein Rechnerverbund aus vielen Recheneinheiten – zumeist General Purpose Grafikeinheiten (GPGPUs) – wird zu einem Deep Neural Net zusammengefasst.
Dieses Deep-Learning-Netzwerk muss nun trainiert werden. Im Bereich der Bildverarbeitung können dies Bilder von verschiedensten Bäumen sein, um das System zu trainieren. Die Menge der benötigten Bilddaten ist dabei immens. Reale Forschungsprojekte sprechen von 130 000 bis 700 000 Bildern. Anhand dieser Informationen entwickeln die Neuronalen Netze auf Basis fallspezifischer Algorithmen sodann Parameter und Routinen, um einen Baum sicher zu identifizieren.

GPGPU: eine wichtige KI-Technologie
Bei den meisten Systemen erfolgt die Hauptarbeit der Mustererkennung in der GPGPU-gestützten Cloud mit ihrer immensen parallelen Rechenleistung. In der produzierenden Industrie ist das jedoch – zumindest derzeit noch – ein Ausschlusskriterium, da es oft um schnelle Prozesse geht. Hier muss man also dafür sorgen, dass sich die Intelligenz am Edge – also in unmittelbarer Nähe zum oder sogar im Device selbst befindet, weshalb in den Geräten, Maschinen und Anlagen der Industrie auch zumeist KI-Systeme im Einsatz sind, die für Echtzeitapplikationen wissensbasierte Intelligenz anwenden und Daten für Deep Learning an zentrale Clouds
weiterleiten, die aktuell noch nicht in Echtzeit angeschlossen werden können.
Möglich ist es also schon heute, ein übergeordnetes System mit allen neuen Daten weiter zu trainieren und die lokalen Devices über regelmässige Softwareupdates auf den aktuellen Stand des Wissens zu bringen, so dass man solche Systeme schon heute als selbstlernende Systeme einstufen kann. Das Lernen findet hier nur weniger als Lernkurve sondern in zyklischen Update-Stufen statt. Dies ist auch ein Grund, weshalb Themen wie die digitalen Zwillinge oder industrielle Edge-Server so wichtig sind: Kann man beides bereitstellen, kann selbst Deep Learning zunehmend echtzeitfähig werden.

Die passenden Embedded-Prozessoren
Ganz gleich, welches Setup OEM für ihre KI wählen: Bezogen auf die einzelne echtzeitfähige Maschine oder Anlage sind die Anforderungen an die benötigte – oft massive parallele – Verarbeitungsleistung auch bei «normaler», rein wissensbasierter KI immer noch sehr hoch. Neueste Embedded Accelerated Processing Units (APUs) von AMD unterstützen diesen Bedarf, da sie neben dem klassischen x86er-Prozessor auch eine leistungsfähige GPU bieten, die über ihre General-Purpose-Funktionen auch parallele KI-Rechenprozesse unterstützen, wie sie auch in den Rechenzentren zur Anwendung kommen. Diese lässt sich zudem auch über diskrete Embedded GPUs des gleichen Herstellers weiter skalieren, so dass man die offene parallele Rechenperformance genau an den Bedarf der industriellen KI-Applikation anpassen kann.

AMD Ryzen Embedded V1000
Mit ihrer signifikant gestiegenen Rechen- und Grafikleistung empfiehlt sich dabei besonders die sehr energiesparende und industriell-robuste AMD-Ryzen-Embedded-V1000-Serie. Sie bietet mit einer Gesamtleistung von 3,6 TFLOP aus der Multi-Purpose-CPU und der leistungsstarken General-Purpose-Grafikeinheit eine flexible Rechenleistung, die vor wenigen Jahren nur mit Systemen erreichbar war, die mehrere hundert Watt verbrauchten. Heute ist diese Rechenleistung schon ab 15 W verfügbar. Damit kann sie selbst in lüfterlose und komplett geschlossene und damit höchst robuste Geräte für den Fabrikeinsatz integriert werden. Als echtzeitfähige Prozessoren unterstützen sie zudem auch Speicher mit Error Correction Code, was für die meisten industriellen Maschinen und Anlagen essenziell ist.

Umfassender Softwaresupport
Auch in Bezug auf das nötige Software-Environment für eine schnelle und flächendeckende Einführung von KI und Deep Learning bieten diese AMD-Embedded-Prozessoren umfassenden Support an Tools und Frameworks wie TensorFlow, Caffe und Keras. Unter dem Link https://gpuopen.com/professional-compute/ finden Entwickler zudem eine breite Palette an Software-Tools und Programmierumgebungen für Deep Learning und KI-Applikationen, wie die verbreitete Open-Source-Plattform ROCm für GPGPU-Applikationen. Besonders wichtig ist dabei der Open-Source-Gedanke, damit OEMs nicht von einer proprie- tären Lösung abhängig sind.

Schnelles Design-in mit Computer-on-Modules
So steht hier auch das Tool HIPfy zur Verfügung, mit dem sich proprietäre Applikationen in portable HIP-C++-Applikationen portieren lassen, so dass die riskante Abhängigkeit von einzelnen GPU-Herstellern vermieden werden kann. KI zu entwickeln ist zudem auch mit der Verfügbarkeit von OpenCL 2.2 deutlich einfacher geworden, denn seitdem ist die OpenCL-C++-Kernel-Sprache in OpenCL integriert, was das Schreiben parallel arbeitender Programme deutlich erleichtert. Mit einem solchen Ökosystem sowohl wissensbasierter KI als auch Deep Learning vergleichsweise einfach umzusetzen und nicht nur den milliardenschweren IT-Giganten wie Google, Apple, Microsoft und Facebook vorbehalten.
Jetzt bleibt nur noch die Frage, wie OEMs diese hardwareseitigen KI-Enabler möglichst schnell und effizient in ihre Applikationen eindesignen können. Einer der effizientesten Wege führt über standardisierte Computer-on-Modules, die mit umfassendem Support für das GPGPU-Processing ausgestattet wurden. Computer-on-Modules sind besonders platzsparend, sie unterstützen Designs mit OEM-spezifischen Feature-Sets und sie sind als applikationsfertige Superkomponenten mit allem ausgerüstet, was sich Entwickler alternativ bei einem Full-Custom Design mühselig zusammenstellen müssten. Sie sind damit massgeblich für eine schnellere Time-to-Market. Zudem bieten sie auch eine hohe Designsicherheit, da sie bereits applikationsfertig ausgeliefert werden und zudem auch von vielen Anwendern nochmals zusätzlich funktionsvalidiert werden.
Man kann dadurch davon ausgehen, dass OEM beim Einsatz von Modulen rund 50 bis 90 % ihrer NRE-Kosten sparen. Durch den modularen Ansatz der Module wird die Applikation zudem auch bedarfsgerecht skalierbar: Durch einen einfachen Tausch lassen sich ohne weiteren Designaufwand auch neue Leistungsklassen auf vorhandenes Carrierboard-Design integrieren, so dass OEMs die Funktionalität ihrer Designs leicht um diese innovativen Features erweitern können.

COM Express – der führende Standard für High-End-Module
Der führende Formfaktor unter den Modulen für diese Leistungsklasse ist der Standard COM Express, der von der PICMG hersteller-unabhängig seit vielen Jahren weiterentwickelt wurde und der von allen führenden Embedded-Computing-Lieferanten unterstützt wird. Firmen wie congatec – die seit Jahren eng mit AMD zusammenarbeiten und die jüngst sogar die Verfügbarkeit von AMD-Geode-Prozessoren erneut verlängert haben – bieten AMD-Ryzen-Embedded-V1000-Prozessor-basierte Module z.B. im COM-Express-Basic-Type-6-Formfaktor an, der hinreichend Kapazität bietet, die gesamte Performancerange von 15 bis 54 W TDP abzudecken.

Hartes Real-Time-Processing lässt sich sicherstellen
Dank RTS-Hypervisor Support kann das echtzeitfähige conga-TR4-Modul zudem KI-Plattformen unterstützen, bei denen die Anbindung von Deep-Learning-Systemen und Digitalen Twins über Virtuelle Maschinen umgesetzt werden soll, so dass hartes Real-Time-Processing stets sichergestellt werden kann. Und auch für den UIC-Standard der SGET für den Datenaustausch über IoT-Gateways ist das Modul dank seiner standardisierten APIs vorbereitet, so dass sich OEM Kunden voll und ganz auf die Entwicklung der Applikation konzentrieren können. Fehlende Glue Logic kann auf Kundenanforderung jederzeit bedarfsgerecht entwickelt und bereitgestellt werden.

Embedded High-End-Edge-Server-Design-Optionen
Wollen OEM ihre Digitalen Zwillinge und Deep-Learning-Intelligenz zudem in das industrielle Edge bringen, stellt congatec hierfür ebenfalls attraktive Optionen bereit: Embedded Designs auf Basis der neuen, bis zu zehn Jahren langzeitverfügbaren AMD-EPYC-Embedded-3000-Prozessoren. Die neuen Prozessoren der Embedded-Server-Klasse erlauben mit ihren bis zu 16 Cores, 10 GBit Ethernet Performance und bis zu 64 PCIe Lanes selbst Deep-Learning-Applikationen am Edge des IIoTs. Damit wurde Entwicklern alles zur Verfügung gestellt, was sie von Seiten der Hardwareplattformen für Deep Learning basierte KI-Plattformen im industriellen Echtzeit-Einsatz benötigen.

Infoservice
Congatec AG
Auwiesenstr. 5, DE-94469 Deggendorf
Tel. 0049 991 270 00, Fax 0049 991 270 01 11
info@congatec-com, www.congatec.com



Schema Deep Learning im Rechenzentrum – Intelligenz im lokalen Industrie-Device


Die Migration hin zur KI ist mit AMD-basierten COM Express Computer-on-Modules von congatec eine einfache Aufgabe


Das jüngste COM-Express-Type-6-Benchmark-Modul für lokale Industrie-KI: conga-TR4 mit AMD-Embedded-Ryzen-Prozessor


Standard-Modul auf Standard-Board: Das Mini-ITX-Motherboard conga-IT6 kann mit dem neuen Modul bestückt werden