Interview

BlackBox öffne dich!

Ein Algorithmus, der die Fahrtüchtigkeit von Frachtschiffen für die kommenden zwölf Monate bewertet. Das klingt nach einer vielversprechenden Dienstleistung. In Anlehnung an den Spruch „Traue keiner Statistik, die du nicht selbst gefälscht hast“, scheint hier zu gelten: „Traue keinen Algorithmus, den du nicht selbst erfunden hast.“

Von
Künstliche Intelligenz Blackbox Algorithmen PwC

„Man muss sich entscheiden: Will ich Performance oder Erklärbarkeit?“, Christian Westermann, PwC Schweiz Partner und Leader für Data and Analytics

Das Team von Christian Westermann wurde 2019 zu einem Projekt gerufen bei dem ein Algorithmus (Black Box) zur Bewertung von Frachtschiffen analysiert werden sollt. Die Dienstleistung des Schiffs-Ratings dient Schifffahrtsgesellschaften und Auftraggeber zur Entscheidungsunterstützung. Die Verlässlichkeit der Schiffe wurde aufgrund eines Algorithmus mit einem Stern bis fünf Sternen ausgezeichnet. Die Daten von weltweit 200.000 Schiffen wurde für die Prognose von Zwischenfällen in den nächsten zwölf Monaten verwendet und dennoch war das Rating ein Flop. Das Team von Westermann hatte keinen Zugriff auf den Algorithmus – der Anbieter wollte den Code nicht offenlegen. Die Fehlerhaftigkeit konnten sie trotzdem beweisen.

FACTORY: Warum wurden Sie zu dem Projekt gerufen?

Christian Westermann: Es gab eine große Zurückhaltung am Markt, respektive einen Push Back, da sich die Schiffseigentümer durch den Algorithmus unfair behandelt fühlten. Die Schiffseigentümer wussten nicht aufgrund welcher Daten das Sternerating zustande kam oder wie sie sich verbessern könnten. Wenn nicht klar ist, wie die Blackbox bewertet, weiß ich als Bewerteter auch nicht, wie ich mich am Ende des Tages verbessern kann. Auch wir durften im Projekt bloß die Daten und Ratings, jedoch nicht den Algorithmus selber sehen. Das war eine Black Box.

White Paper zum Thema

Wie setzte sich die Bewertung zusammen?

Westermann: Pro Schiff wurden 25 Datenpunkte gesammelt, teilweise bestehende Daten, aber auch selber gebaute Datenfeatures. Mit mathematischen Verfahren konnten wir aufzeigen, dass das Rating hauptsächlich von zwei dieser 25 Datenpunkte beeinflusst wurde. „Frequently Featured Zone“ war eines dieser Datenfeatures. Diese Zonen waren willkürlich gewählt, kein branchenüblicher Standard und somit ungeeignet ein solches Ranking maßgeblich zu beeinflussen.

Wie konnten Sie einen Algorithmus verbessern den Sie nicht kannten?

Westermann: Im ersten Schritt haben wir uns die Genauigkeit des Modells angeschaut. Sie lag bei rund 73 Prozent. Wir haben im Anschluss uns angeschaut, welchen Einfluss die einzelnen Datenpunkte auf die Genauigkeit des Modells haben. Wir konnten aufzeigen, dass man mit weniger als 15 Datenpunkten zu einer äquivalenten Genauigkeit kommt. Ein klares Signal, dass dieses Modell Overfitted war. Es wurden zu viele Daten hineinpackt, die die Aussagekraft nicht verbesserten. Anschließend haben wir automatisiert nach alternativen Modellen gesucht. An einem Nachmittag haben wir über 300 andere Modelle getestet und Modellkandidaten identifiziert, die wesentlich offener und transparenter waren. Unser Modell war erklärbarer und wir konnten belegen, dass sich der Einfluss der Attribute besser verteilen lässt.

Worin bestehen die Stolperfallen bei solche KI-Modellen?

Westermann: Das Problem sind nicht die Modelle, sondern die Herangehensweise. Oft begegnen mir Teams oder „Spezialisten“, die sich zu schnell auf einen Algorithmus einschießen, oder selbst nur ein beschränktes Repertoire beherrschen. Das hat dann zur Folge, dass stets die gleichen Algorithmen verwendet werden, unabhängig davon, ob sie auch wirklich auf das Problem passen. Die einfache Verfügbarkeit dieser Algorithmen verführt zu einer nicht ausgewogenen Lösung. Deshalb lohnt es sich solche Problemstellungen breiter anzugehen, unter Einbezug von verschiedenen Experten und Meinungen, um ein optimales Resultat zu erzielen. Data Science kann man leider nicht „nebenbei“ machen. Ohne Expertise ist das Risiko des Scheiterns höher.

Was muss dann grundsätzlich bedacht werden?

Westermann: Es gibt eine Vielzahl von Algorithmen, die man als Grundlagen nehmen kann. Man muss sich entscheiden: Will ich Performance oder Erklärbarkeit. Künstliche Intelligenz mit hoher Performance haben Sie jeden Tag im Gebrauch, beispielsweise die Sprach- oder Bilderkennung am Smartphone. Da kommen häufig Modelle zum Einsatz, bei denen die Erklärbarkeit und Transparenz nicht so wichtig ist. Wenn ein KI- basierter Sprachassistent mich versteht, brauche ich wenig Erklärbarkeit. Was zählt ist hauptsächlich die Performance. Sprich, es ist wichtiger dass der KI-basierte Sprachassistent mit hoher Genauigkeit meine Sprache versteht und entsprechende Aktivitäten auslöst, als mir transparent aufzuzeigen, warum er überhaupt Sprache versteht. Anders ist es, wenn ich einem Arzt gegenübersitze und ein KI-basiertes Medizingerät eine Diagnose erstellt. Obwohl hier auch die Performance des Systems, insbesondere die Genauigkeit, für mich wichtig ist, möchte ich (und der Arzt) darüber hinaus eine Erklärung wie das System zu dem Ergebnis kam. Je nach Anwendung des Systems muss deshalb entschieden werden, ob bei einem Algorithmus die Erklärbarkeit oder die Performanz höher gewichtet werden muss. Beides gleichzeitig ist in vielen Fällen nicht möglich. Hochperformante Algorithmen sind häufig nicht erklärbar. Und umgekehrt sind erklärbare Algorithmen häufig nicht die performantesten.

Was bedeutet es umgelegt auf das Beispiel des Schiffsratings?

Westermann: Die Firma hat die Performanz in den Vordergrund gestellt, das war ein falsche Entscheidung. Durch die fehlende Erklärbarkeit wurde das System durch die Kunden als Blackbox wahrgenommen, und zurückgewiesen. Außerdem hat die Firma einen suboptimalen Algorithmus gewählt, mit einseitigen Daten und zu vielen Datenpunkten, was darauf schließen lässt, dass möglicherweise die Expertise gefehlt hat. Dadurch hat die Firma rund 18 Monate verloren, und musste die Problemstellung nochmals grundlegend neu angehen.

Haben Sie noch ein anderes Beispiel dafür?

Westermann: Eine Firma die mit diversen Baustoffen zu tun hat möchte mehr über die Konsistenz und Beschaffenheit der Materialien wissen. Insbesondere um die Kaufs- und Verkaufsgespräche weltweit zu unterstützen. Bisher wird dort die Qualität und Beschaffenheit der Baustoffe mit klassischen Verfahren (Gewicht, optische Beurteilung etc.) bewertet. Das Unternehmen möchte nun die Leute weltweit mit einer App ausstatten, die mit Hilfe von Computer Vision die Konsistenz, Beschaffenheit und die Qualität der Baustoffe misst. Das Bild muss dazu sehr scharf aufgenommen werden. Hier es für das Unternehmen wichtig, dass die Beurteilung der Baustoffe möglichst genau erfolgt. Deshalb steht die Performanz des Algorithmus im Vordergrund, und weniger die Erklärbarkeit.

Welche Rolle können solche KI-basierten Entscheidungshilfen beispielsweise in der Logistik einnehmen?

Westermann: In Unternehmen arbeiten häufig sehr erfahrene Leute, Experten, die über Jahre viel Wissen aufgebaut haben und das in der Praxis anwenden. Auf der anderen Seite gibt es Kollegen mit weniger Expertise. Beide können von KI-basierten Entscheidungshilfen unterstützt werden. Der Experte, in dem ihm das System eine „second opinion“ gibt. Und der weniger erfahrene Kollege, in dem ihm das System Sicherheit vermittelt in der Entscheidungsfindung. Wie beim Beispiel oben in der Prüfung der Qualität der Baustoffe. Experten und weniger erfahrene Kollegen werden von dem System profitieren, welches sie bei der Prüfung der Qualität der Baustoffe unterstützt.  Es ist auch legitim, dass der Experte und das System nicht zum gleichen Ergebnis kommen, da ja beide mit unterschiedlichen Verfahren sich eine Meinung bilden. Das System liefert lediglich eine zweite Meinung und soll den Experten unterstützten und nicht ersetzen. Letztendlich entscheidet der Experte ob seine Meinung vorgeht, oder die des Systems.

Abschließend, worin besteht das Hauptproblem mit KI?

Westermann: Mit KI können Unternehmen grundsätzlich sehr viel erreichen, das Potenzial ist riesig. Um das Potenzial auszuschöpfen, müssen Unternehmen jedoch Expertenwissen aufbauen oder sich Expertenwissen außerhalb des Unternehmens beschaffen. Das Hauptproblem besteht nun darin, dass Unternehmen dies noch nicht konsequent umsetzen. Meine Beobachtungen im Markt zeigen, dass ohne Expertenwissen die Unternehmen auf der einen Seite in Angstszenarien verfallen, weil sie KI mit etwas Negativem assoziieren, oder anderseits die Technologie überschätzen, und dann enttäuscht sind von der Realität. Beides müsste nicht sein. Bei allen KI-Projekten, bei welchen ich Kunden begleitet habe, konnten diese Hauptprobleme vermieden werden. Es wurden tolle Lösungen entwickelt, die heute erfolgreich im Einsatz sind.

Zur Person:

Christian Westermann ist Partner und Leader Data and Analytics bei PwC Schweiz. Ein wichtiger Schwerpunkt seiner Arbeit ist die Künstliche Intelligenz (KI). Westermann arbeitet an erklärbaren und verantwortungsbewussten Lösungen der KI-Technologie, um eine effektive Überwachung und Steuerung der KI-Ergebnisse zu gewährleisten.