Experteninterview : Federated Learning:
„Jeder profitiert vom Wissen des Anderen“

Nico Weber Portrait
© Nico Weber

Factory: Für viele ist Federated Learning noch ein ganz neuer Begriff. Was ist die Grundidee dahinter und wie funktioniert es?

Nico Weber: Nehmen wir folgendes an: Wir haben einen Server, wir haben zwei Edge-Geräte, wie etwa mobile Endgeräte, welche jeweils angeschlossene Sensoren haben. Nun möchten wir ein KI-Modell entwickeln um eine bestimmte Vorhersage basierend auf den Sensordaten treffen zu können. Da ist die Idee von Federated Learning, dass jedes der Geräte in einem ersten Schritt aus seinen historischen Daten dieses KI-Modell lernt. Nachdem sie fertig sind mit Lernen, schicken sie ihre jeweils lokal trainierten KI-Modelle zum Server. Der Server aggregiert daraufhin diese beiden Modelle und produziert ein besseres globales KI-Modell, das das Wissen von beiden Teilnehmern nutzt. Und dieses verbesserte Modell wird jetzt wiederum an die beiden Edge-Geräte geschickt, sodass die ein verbessertes Modell haben, in dem nicht nur ihr eigenes Wissen enthalten ist, sondern auch das des anderen Teilnehmers. Und dieser Prozess wird mehrmals wiederholt, bis ein hinreichend gutes Modell gefunden wurde.

Das heißt also, die Daten an sich werden nicht geteilt?

Weber: Genau, und dennoch profitiert jeder vom Wissen des Anderen. Und dadurch, dass man nur die gelernten KI-Modelle mit dem Server teilt und keine Daten übers Internet geschickt werden müssen, spart man außerdem bei der Datenübertragung.

Können Sie sagen, wie viele TeilnehmerInnen es braucht um ein gutes Learning zu erzielen?

Weber: Diese Frage kann man pauschal nicht beantworten, es hängt extrem davon ab, wie viele Daten jeder Teilnehmer hat. Ein Teilnehmer etwa, der sehr wenige Daten hat, profitiert natürlich mehr von anderen Teilnehmern, die mehr Daten haben. Aber grundsätzlich kann jeder Teilnehmer davon profitieren, sofern die Daten ähnlich sind.

Was ist nun die Besonderheit von Federated Learning, beziehungsweise was ist der Unterschied zum herkömmlichen maschinellen Lernen?

Weber: Der fundamentale Unterschied ist, dass das Modell zu den Daten kommt und nicht die Daten zum Modell. Normalerweise wird ein KI-Modell in der Cloud trainiert. Und dieses Modell braucht sehr viele Daten – je mehr, desto besser. Es gibt allerdings zwei wesentliche Faktoren, die das Ganze in der Anwendung schwierig machen. Zum einen sind das Datenschutzanforderungen – vor allem wenn um sensible Daten geht. Und zum anderen ist es bei sehr großen Datenmengen teilweise technisch nicht möglich, die Daten in die Cloud hochzuladen. Das trifft etwa auf den Bereich IoT und Edge Computing zu, wo Sensoren sehr viele Daten generieren. In diesem Kontext ist Federated Learning sinnvoll.

Können dann nicht andere TeilnehmerInnen von dem Modell in der Cloud Rückschlüsse auf die Daten ziehen?

Weber: Tatsächlich kann man aufgrund des Modells teilweise den Input rekonstruieren.

Wie lässt sich das verhindern?

Weber: Da gibt es verschiedene Mechanismen. Die zwei häufigsten heißen Differential Privacy und Fully Homomorphic Encription, also homomorphe Verschlüsselung. Bei der Differential Privacy fügt jeder Teilnehmer dem Modell ein gewisses Rauschen hinzu, bevor er es in die Cloud schickt. Und dieses Noise verschleiert die persönlichen Informationen. Da muss man immer abwägen zwischen: wie genau muss ein Modell sein und wie viel Anonymität möchte ich? So entscheide ich, wie viel Rauschen ich hinzufüge. Bei der homomorphen Verschlüsselung ist die Idee, dass jeder Teilnehmer sein Modell, bevor er es in die Cloud schickt, kryptographisch verschlüsselt.

Und welche von den beiden Methoden ist üblicher in der Praxis?

Weber: Differential Privacy ist ein älteres Konzept aus der Statistik, das kommt in der Praxis zur Anwendung. Fully Homomorphic Encription ist noch ein relativ neues Thema, an dem noch geforscht wird. Aber ich halte es für einen vielversprechenden Ansatz für die Zukunft.

Seit wann ist Federated Learning in der Forschung ein Thema?

Weber: Seit 2016 wird Federated Learning aktiv in der Forschung behandelt. Das Ursprungsfeld geht auf Brendan McMahan von Google zurück, der den ersten Algorithmus im Bereich Federated Learning vorgestellt hat. Seine Arbeit stellte quasi die Initialzündung für viele weitere Forschungstätigkeiten dar. In den letzten zwei oder drei Jahren ist schließlich sehr großes Forschungsinteresse aufgekommen.

Was genau erforschen Sie da?

Weber: An meinem Institut beschäftigen wir uns seit eineinhalb Jahren mit dem Thema. Im Kontext von Federated Learning nehmen ja mehrere Clients an einem Training teil und da ist es oft der Fall, dass während des gesamten Lernprozederes mehrere Clients wegfallen können, weil sie beispielsweise keinen Akku mehr haben oder keine Internetverbindung. Es können auch welche hinzukommen. Außerdem muss man jedem Teilnehmer sagen, was er trainieren soll. Das versuchen wir zu managen. Das wäre der eine Bereich. Und der andere ist, dass wir ein Framework für die Algorithmik entwickeln.

Wo kommt es in der Industrie zur Anwendung?

Weber: Sehr interessante Anwendungen ergeben sich im Bereich Industrie 4.0, Stichwort IoT und Edge Computing. Als Beispiel wäre hier Predictive Maintenance zu nennen. Predictive Maintance hat das Ziel mit historischen Daten die Wartungsintervalle von Maschinen zu optimieren bzw. den Ausfall von Maschinen vorherzusagen. Hier werden viele Daten generiert, die nicht mit MItbewerbern geteilt werden sollen. Und auch andere klassische Zeitreihenvorhersagen können durch Federated Learning verbessert werden. Weitere Anwendungsgebiete ergeben sich beim autonomen Fahren.

Und wo steht die Industrie hinsichtlich der Nutzung von Federated Learning?

Weber: Das Thema befindet sich gerade in der Übergangsphase zwischen reiner Forschung und breitflächigem Einsatz in Produktivsystemen. In den nächsten ein oder zwei Jahren wird es, meiner Einschätzung nach, ein großes Thema auf der Anwenderseite.

Welche Voraussetzung braucht ein Teilnehmer in Hinsicht auf Hardware und Software?

Weber: Zum einen muss man die Rechnerressourcen haben, um ein KI-Modell trainieren zu können, Stichwort Edge-Computing. Zum wird eine Laufzeitumgebung benötigt, die die Koordination zwischen verschiedenen Teilnehmern übernimmt, inklusive einem zentralen Server. Federated Learning umfasst also nicht nur das klassische Data-Science-Thema Algorithmik und Datenaufbereitung, sondern es muss auch die notwendige Infrastruktur verfügbar sein.

Muss man sonst noch etwas beachten?

Weber: Wenn verschiedene Clients teilnehmen, muss man berücksichtigen, wie die Daten verteilt sind. Sind sie beispielsweise ähnlich verteilt, kann man von der Algorithmik her ein verbessertes Modell einfach durch den Durchschnitt berechnen. Sind aber die Datenverteilungen der Teilnehmer extrem unterschiedlich, muss man kompliziertere Algorithmen anwenden. Dazu muss man die Teilnehmer etwa in verschiedene Gruppen einteilen und für jede Gruppe ein eigenes Modell erstellen.

Wie schätzen Sie die Offenheit von Unternehmen ein, die Möglichkeiten des Federated Learning zu nutzen?

Weber: Ich denke, es besteht großes Interesse. Vor allem im Bereich der sensiblen Daten, wenn man geringe Latenz möchte, oder wenn die Kommunikationsbandbreite für die vorhandenen Daten nicht ausreicht. Bei diesen Problemstellungen ist es technisch nicht anders möglich, gute KI-Systeme zu entwickeln, die sich im Laufe der Zeit auch noch verbessern.

************************

Lesen Sie mehr über Federated Learning:

/artikel/prozessstabilita-t-im-spritzguss-durch-gemeinsam-lernende-ki-modelle/

/artikel/vier-interessante-fakten-ueber-federated-learning/