Forschung : Mehr Transparenz bei Künstlicher Intelligenz
Ob selbstfahrende Autos oder die Steuerung von Industrieanlagen: Künstliche Intelligenz spielt eine immer größere Rolle. Die TH Köln untersucht gemeinsam mit der Ruhr-Universität Bochum in einem Promotionstandem, wie Künstliche Intelligenz transparenter und verständlicher gemacht werden kann. Das Projekt „(RL)3 Repräsentations-, Reinforcement- und Regel-Lernen“ wird im Rahmen des Graduiertenkollegs „Data-NInJA“ vom Ministerium für Kultur und Wissenschaft NRW mit insgesamt 500.000 Euro gefördert.
„Künstliche Intelligenz kann viel, aber es mangelt ihr noch an Transparenz, da nicht sichtbar ist, was sie dazu bringt, eine bestimmte Handlung auszuführen. Das möchten wir ändern, indem wir sie erklärbarer und dadurch auch vertrauenswürdiger machen“, sagt Wolfgang Konen vom Institut für Informatik der TH Köln über das Ziel des Projekts „(RL)3 Repräsentations-, Reinforcement- und Regel-Lernen“.
Gemeinsam mit Laurenz Wiskott vom Institut für Neuroinformatik der Ruhr-Universität Bochum betreut er die Doktoranden Moritz Lange und Raphael Engelhardt. Moritz Lange von der Ruhr-Universität Bochum beschäftigt sich in seiner Dissertation mit dem Repräsentations-Lernen. Repräsentationen sind extrahierte Informationen, auf denen das Reinforcement-Lernen aufbaut und die diesen Prozess erleichtern. „Wie gut die relevanten Informationen aus den Daten ablesbar sind, ist entscheidend für die Fähigkeiten eines Algorithmus, daraus zu lernen“, sagt Lange. Gute Repräsentationen seien zusätzlich auch wichtig, um analysieren zu können, wie ein Algorithmus auf verschiedene Szenarien reagiert. Um dieses Verständnis entwickeln zu können, müssen komplexe Datensätze so dargestellt werden, dass sie durchschaubar sind.
Lernen durch Belohnung
Beim Reinforcement-Lernen handelt es sich um das Training einer Computersoftware, auch als Agent bezeichnet, der durch Belohnung lernt, ob seine Aktion ihn in einen besseren oder schlechteren Zustand führt. „Diese Belohnung ist beispielsweise eine Zahl und hängt vom konkreten Fall ab: Soll ein Stab aufrecht balanciert werden, ist eine denkbare Belohnung die Zahl eins für jede Sekunde, die der Stab balanciert wird. Alle Belohnungen, die der Agent nach und nach erhält, werden addiert. Sein Ziel ist es, die Aktionen so zu wählen, dass er eine möglichst große Gesamtbelohnung zu erwarten hat“, erläutert Raphael Engelhardt, Doktorand an der TH Köln. Dieser Prozess wird auch Verstärkungslernen genannt, nach dessen Ende der Agent im Idealfall eine bestimmte Aufgabe lösen kann.
„Das Problem ist, dass bei einem Agenten nach Abschluss der Lernprozesse nicht ersichtlich ist, wie dieser zu seiner Strategie gekommen ist. Man sieht nur, der Agent erreicht das Ziel. Aber was ihn dazu bringt, ist nicht mehr nachvollziehbar. Deshalb spricht man auch von einem Black-Box-Effekt. Man kann sich das ähnlich wie bei der Intuition eines Menschen vorstellen; ein Profi entwickelt eine gewisse Intuition für eine Handlung und wird Schwierigkeiten haben, diese detailliert zu erklären“, sagt Engelhardt. Er versucht anhand von Simulationen, Regelmäßigkeiten innerhalb der Black-Box zu erkennen und zu extrahieren. Es soll ermöglicht werden, das komplexe Verstärkungslernen in einfache Regeln zu überführen. Engelhardt erforscht so das Regel-Lernen.
Angestrebte Anwendungsgebiete des Projekts sind, die Steuerung von technisch komplexen Anlagen, beispielsweise bei Stahlwalzprozessen, oder die Unterstützung von Logistikleitzentren mit KI-Modellen. Das Projekt hat eine Laufzeit von dreieinhalb Jahren.