Im Gespräch: KI-Experte Thomas Gallien : KI als Turbo für intelligente Produktionen
Ihre Vision ist eine flexible Produktion, in der Menschen Roboter ansagen oder anzeigen, was diese tun sollen. Eine intuitive Kommunikation zwischen Mensch und Maschine soll Produktionen flexibel und dynamisch machen. Beides ist für heimische Betriebe enorm wichtig, um am globalen Markt bestehen zu können. Wie kann das funktionieren?
Thomas Gallien: Die jüngsten Entwicklungen im Bereich der sprachbasierten generativen KI sind die Gamechanger in der Zusammenarbeit mit Robotern. Textbasierte Bildgeneratoren wie DALL-E2, Midjourney oder Stable Diffusion interpretieren Texteingaben und erzeugen das dazu am wahrscheinlichsten passende Bild. Möglich machen das sogenannte Visual-Language-Foundation-Models (VLFMs), die Bildern eine Bedeutung geben und diese Information verarbeiten können. Die Besonderheit dabei ist der unfassbar große Datenumfang, mit denen diese Modelle trainiert werden. Der Datensatz für das von OpenAI veröffentlichte Modell CLIP (Contrastive Language-Image Pre-Training) umfasste zum Beispiel mehr als 400 Millionen Text-Bild-Paare. Einige dieser VLFMs stehen der Allgemeinheit zur Verfügung und finden vermehrt Anwendung in Algorithmen des maschinellen Sehens. Das bedeutet folgendes: Füttert man einen Roboter mit diesen unfassbar vielen Bild-Text-Paaren, ist dieser zum Beispiel in der Lage mittels Kamera eine Situation zu erfassen und in Echtzeit zu interpretieren. Kurz gesagt, der Roboter versteht sofort die Szene im Raum. Er weiß sozusagen, was ein Glas, ein Tisch oder ein Mensch ist und reagiert mithilfe der Kamera auf visuelle Befehle. Damit wird für einfache Arbeitsschritte die Programmierung übersprungen. Das ist kollaborative kognitive Robotik im nächsten Level.
Was braucht es, um moderne Robotersysteme in dynamische Produktionsprozesse zu integrieren?
Gallien: Die Herausforderung ist groß, da dynamische Produktionsprozesse ein großes Maß an Flexibilität und Anpassungsfähigkeit erfordern. Ein zentraler Aspekt ist dabei die Wahrnehmung, Interpretation sowie die Entscheidungsfindung in Echtzeit. Zu diesem Zwecke verarbeiten autonome Robotersysteme eine Vielzahl an Sensordaten von z. B. Kameras, 3D-Scannern oder auch RaDAR-Sensoren. Unter Cognitive Robotics werden Robotersysteme verstanden, die sich vorwiegend Methoden des maschinellen Sehens zu Nutze machen, um diese Daten zu verarbeiten und zu einer entsprechenden Interpretation der Szene zu gelangen. Der semantische Bezug entsteht durch die Visual-Language-Foundation-Models, mit denen Industrieroboter ausgestattet werden können. Das ist eine Revolution!
Die Digitalisierung und im Speziellen die rasanten Entwicklungen im Bereich der künstlichen Intelligenz erfassen alle Lebensbereiche und führen zu einem tiefgreifenden Wandel in der Fertigungslandschaft.
Welche Rolle würde dieses synergetische Zusammenarbeiten zwischen Mensch und Maschine in modernen Produktionsprozessen spielen?
Gallien: Die Vorteile liegen dabei auf der Hand: Durch das große semantische Grundwissen, dass den Robotern in die Wiege gelegt werden könnte, lassen sich sogenannte Zero-Shot-Modelle entwerfen. Diese sind in der Lage, Aufgaben zu bewältigen, für die sie nicht explizit trainiert wurden. Das ist für eine moderne Produktion extrem wichtig, denn für lange Programmierarbeiten bleibt keine Zeit mehr. Roboter können sich zukünftig in dynamischen Umgebungen gut zurechtfinden, weil sie in Echtzeit ihre Umgebung wahrnehmen und interpretieren können. Anweisungen können sprachlich oder per Handzeichen erfolgen, was eine besonders intuitive und natürliche Steuerung von Robotern in komplexen Produktionsumgebungen ermöglicht. Diese Features erweitern die Anwendbarkeit assistierender Produktionsrobotik signifikant.
Können Sie uns ein Beispiel nennen?
Gallien: Mit dem KI-Turbo kann man mit einem Roboter sprechen und ihm zum Beispiel sagen, er solle ein Objekt anheben. Das ist alles, der Roboter wird das so durchführen, wie man ihm das ansagt. Auf herkömmliche Art und Weise müssen Modelle zur Objektdetektion aufwändig vortrainiert werden. Der große Nachtteil dabei ist, dass alle Objektklassen im Trainingsdatensatz statistisch relevant repräsentiert sein müssen. Folglich scheitern diese Methoden daran, sich an neue vorab unbekannte Umgebungen anzupassen. Außerdem ist die Annotierung der Datensätze mühsam und zeitaufwändig. Der Unterschied in der zeitlichen Komponente liegt dabei klar auf der Hand.
Wie ist der Stand in Europa, wie in Österreich?
Gallien: Die Digitalisierung und im Speziellen die rasanten Entwicklungen im Bereich der künstlichen Intelligenz erfassen alle Lebensbereiche und führen zu einem tiefgreifenden Wandel in der Fertigungslandschaft. Natürlich auch in Europa. Aber Europa muss sich anstrengen, mit den USA und China Schritt zu halten. Da werden enorme Summen in das Thema KI investiert. Wir sehen, dass sich zum Beispiel in Österreich ansässige Industriebetriebe Know-how aus den USA holen. Das ist schade, bestärkt uns aber auch in unserem Vorhaben, kollaborative kognitive Robotik in Österreich zu etablieren.
Cognitive Robotics vom Wörthersee
Die JOANNEUM RESEARCH ist eine Innovations- und Technologieanbieterin im Bereich der angewandten Forschung und als Forschungsgesellschaft der Länder und Regionen prägt sie mit ihren Forschungskompetenzen die Entwicklung unserer modernen Gesellschaft und Wirtschaft nachhaltig und menschenzentriert. Das multidisziplinäres Team in flexiblen, innovationsfreundlichen Strukturen lebt höchste gesellschaftliche und wissenschaftliche Ansprüche. Dabei beschäftigt sich unser interdisziplinäres Team aus rund 20 Forscherinnen und Forschern am Standort Klagenfurt mit den Themen Industrierobotik, mobile Manipulation sowie Robotersicherheit. Ideale Bedingungen werden hierfür im ROBOTICS Solution Center, dem Forschungslabor für anwendungsorientierte Roboter- und Automatisierungssysteme, geboten.