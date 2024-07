Ihre Vision ist eine flexible Produktion, in der Menschen Roboter ansagen oder anzeigen, was diese tun sollen. Eine intuitive Kommunikation zwischen Mensch und Maschine soll Produktionen flexibel und dynamisch machen. Beides ist für heimische Betriebe enorm wichtig, um am globalen Markt bestehen zu können. Wie kann das funktionieren?

Thomas Gallien: Die jüngsten Entwicklungen im Bereich der sprachbasierten generativen KI sind die Gamechanger in der Zusammenarbeit mit Robotern. Textbasierte Bildgeneratoren wie DALL-E2, Midjourney oder Stable Diffusion interpretieren Texteingaben und erzeugen das dazu am wahrscheinlichsten passende Bild. Möglich machen das sogenannte Visual-Language-Foundation-Models (VLFMs), die Bildern eine Bedeutung geben und diese Information verarbeiten können. Die Besonderheit dabei ist der unfassbar große Datenumfang, mit denen diese Modelle trainiert werden. Der Datensatz für das von OpenAI veröffentlichte Modell CLIP (Contrastive Language-Image Pre-Training) umfasste zum Beispiel mehr als 400 Millionen Text-Bild-Paare. Einige dieser VLFMs stehen der Allgemeinheit zur Verfügung und finden vermehrt Anwendung in Algorithmen des maschinellen Sehens. Das bedeutet folgendes: Füttert man einen Roboter mit diesen unfassbar vielen Bild-Text-Paaren, ist dieser zum Beispiel in der Lage mittels Kamera eine Situation zu erfassen und in Echtzeit zu interpretieren. Kurz gesagt, der Roboter versteht sofort die Szene im Raum. Er weiß sozusagen, was ein Glas, ein Tisch oder ein Mensch ist und reagiert mithilfe der Kamera auf visuelle Befehle. Damit wird für einfache Arbeitsschritte die Programmierung übersprungen. Das ist kollaborative kognitive Robotik im nächsten Level.

Was braucht es, um moderne Robotersysteme in dynamische Produktionsprozesse zu integrieren?

Gallien: Die Herausforderung ist groß, da dynamische Produktionsprozesse ein großes Maß an Flexibilität und Anpassungsfähigkeit erfordern. Ein zentraler Aspekt ist dabei die Wahrnehmung, Interpretation sowie die Entscheidungsfindung in Echtzeit. Zu diesem Zwecke verarbeiten autonome Robotersysteme eine Vielzahl an Sensordaten von z. B. Kameras, 3D-Scannern oder auch RaDAR-Sensoren. Unter Cognitive Robotics werden Robotersysteme verstanden, die sich vorwiegend Methoden des maschinellen Sehens zu Nutze machen, um diese Daten zu verarbeiten und zu einer entsprechenden Interpretation der Szene zu gelangen. Der semantische Bezug entsteht durch die Visual-Language-Foundation-Models, mit denen Industrieroboter ausgestattet werden können. Das ist eine Revolution!