Künstliche Intelligenz beeindruckt nicht nur durch ihre Leistung, sondern auch durch ihren Energiehunger. Und sie verbraucht umso mehr Energie, je anspruchsvoller die Aufgaben sind, für die sie trainiert wird. Víctor López-Pastor und Florian Marquardt, zwei Wissenschaftler des Max-Planck-Instituts für die Physik des Lichts in Erlangen, präsentieren nun eine Methode, mit der sich künstliche Intelligenz deutlich effizienter trainieren lassen könnte. Sie setzen dabei auf physikalische Prozesse statt der heute verwendeten digitalen künstlichen neuronalen Netze.
Wieviel Energie nötig ist, um GPT-3, das ChatGPT zu einem eloquenten und augenscheinlich gut informierten Chatbot macht, zu trainieren, legt Open AI, das Unternehmen hinter der künstlichen Intelligenz (KI), nicht offen. Laut dem deutschen Statistikunternehmen Statista wurden dafür 1.000 Megawattstunden gebraucht – das ist etwa so viel, wie 200 deutsche Haushalte mit drei und mehr Personen in einem Jahr verbrauchen. Mit diesem Energieaufwand hat GPT-3 gelernt, ob hinter dem Wort 'Tisch' wahrscheinlicher das Wort 'decken' oder 'rücken' in den Datensätzen folgt, verstanden hat das Modell den Unterschied zwischen 'Tisch decken' und 'Tisch rücken' nach allem, was man weiß, allerdings nicht.
Neuronale Netze auf neuromorphen Computern
Um den Energieverbrauch von Computern und insbesondere von KI-Anwendungen zu
senken, verfolgen zahlreiche Forschungseinrichtungen seit wenigen Jahren ein
völlig neues Konzept, wie Computer künftig rechnen könnten. Das Konzept ist
unter dem Begriff "neuromorphes Computing" bekannt. Das klingt zwar
ähnlich wie künstliches neuronales Netz, hat damit aber zunächst nicht viel
zu tun. Denn künstliche neuronale Netze laufen heute auf herkömmlichen digitalen
Rechnern. Das heißt die Software, genauer gesagt der Algorithmus, nimmt sich
zwar die Arbeitsweise des Gehirns zum Vorbild, als Hardware dienen aber digitale
Computer. Sie arbeiten die Rechenschritte des neuronalen Netzes sequenziell,
also einen nach dem anderen ab, und trennen vor allem zwischen Prozessor und
Arbeitsspeicher. "Alleine der Datentransfer zwischen diesen beiden Bauteilen
verschlingt große Mengen an Energie, wenn ein neuronales Netz Hunderte Milliarden
Parameter, sprich Synapsen, mit bis zu einem Terabyte an Daten trainiert",
sagt Florian Marquardt, Direktor am Max-Planck-Institut für die Physik des
Lichts und Professor an der Universität Erlangen.
Ganz anders das menschliche Gehirn, das sich evolutionär wahrscheinlich nie
durchgesetzt hätte, wenn es mit einer ähnlichen Energieeffizienz arbeiten
würde wie Rechner mit Siliziumtransistoren. Es hätte nämlich vermutlich wegen
Überhitzung versagt. Das Gehirn kennzeichnet, dass es die zahlreichen Schritte
eines Denkvorgangs parallel und nicht sequenziell abarbeitet. Und die Nervenzellen,
genauer gesagt die Synapsen, sind Prozessor und Arbeitsspeicher in einem. Als
Kandidaten für die neuromorphen Pendants zu unseren Nervenzellen werden weltweit
verschiedene Systeme gehandelt, unter anderem photonische Schaltkreise, die
mit Licht statt Elektronen rechnen. Deren Bauteile dienen gleichzeitig als Schaltelemente
und Speicherzellen.
Eine selbstlernende physikalische Maschine optimiert ihre Synapsen eigenständig
Gemeinsam mit Víctor López-Pastor, Doktorand am Max-Planck-Institut
für die Physik des Lichts, hat Florian Marquardt nun eine effiziente Trainingmethode
für neuromorphe Computer ersonnen. "Wir haben das Konzept einer selbstlernenden
physikalischen Maschine entwickelt", erklärt Florian Marquardt. "Die
Kernidee besteht darin, das Training in Form eines physikalischen Prozesses
auszuführen, bei dem die Parameter der Maschine durch den Prozess selbst optimiert
werden." Beim Anlernen von konventionellen künstlichen neuronalen Netzen
ist ein Feedback von außen nötig, um die Stärke der vielen Milliarden synaptischen
Verbindungen anzupassen. "Dass wir dieses Feedback nicht brauchen, macht
das Training viel effizienter", sagt Florian Marquardt. Eine künstliche
Intelligenz auf einer selbstlernenden physikalischen Maschine zu implementieren
und zu trainieren, würde dabei nicht nur Energie, sondern auch Rechenzeit sparen.
"Unsere Methode funktioniert unabhängig davon, welcher physikalische Prozess
in der selbstlernenden Maschine stattfindet, und wir müssen den genauen Prozess
nicht einmal kennen", erklärt Florian Marquardt. "Der Prozess muss
aber ein paar Bedingungen erfüllen." Die wichtigste: Er muss sich umkehren
lassen, also möglichst ohne Energieverlust vorwärts und rückwärts laufen.
"Außerdem muss der physikalische Prozess nicht-linear sein, also hinreichend
komplex", sagt Florian Marquardt. Nur nicht-lineare Prozesse können die
komplizierten Transformationen zwischen eingegeben Daten und Ergebnissen bewerkstelligen.
Eine Flipperkugel, die ohne Zusammenprall mit einer zweiten über eine Platte
rollt, wäre eine lineare Aktion. Wenn sie aber von einer zweiten abgelenkt
wird, wird die Sache nicht-linear.
Praxistest in einem optischen neuromorphen Computer
Beispiele für umkehrbare, nicht-lineare Prozesse finden sich unter anderem
in der Optik. In der Tat arbeiten Víctor López-Pastor und Florian Marquardt
bereits mit einem experimentellen Team zusammen, das einen optischen neuromorphen
Computer entwickelt. Diese Maschine verarbeitet Information in Form überlagerter
Lichtwellen, wobei geeignete Bauteile die Art und Stärke der Wechselwirkung
regulieren. In der Kooperation wollen die Forschenden das Konzept der selbstlernenden
physikalischen Maschine praktisch realisieren. "Wir hoffen, dass wir in
drei Jahren die erste selbstlernende physikalische Maschine präsentieren können",
sagt Florian Marquardt. Bis dahin dürfte es neuronale Netze geben, die mit
noch wesentlich mehr Synapsen denken als die heutigen und mit deutlich
größeren Datenmengen trainiert werden. Dann dürfte auch der Bedarf noch größer
sein, neuronale Netze nicht mehr in herkömmlichen digitalen Computern zu implementieren,
sondern sie durch neuromorphe Rechner zu ersetzen und diese effizient zu trainieren.
"Wir sind daher zuversichtlich, dass selbstlernende physikalische Maschinen
dann gute Chancen haben, bei der Weiterentwicklung von künstlicher Intelligenz
eingesetzt zu werden", sagt der Physiker. (PH/MPG)