Der Computer als persönlicher Designer

Prof. Dr. Björn Ommer

Prof. Dr. Björn Ommer (LMU) im Interview über Ziele und Möglichkeiten von Stable Diffusion.


Kurz gefasst: Was ist das Ziel von Stable Diffusion? 

Der Zweck von Stable Diffusion ist, Menschen die Möglichkeit geben, Bilder möglichst einfach generieren zu können. Bisher musste dafür entweder zum Pinsel gegriffen oder computerunterstützt mit Photoshop, Gimp oder ähnlichen Systemen jeder Pixel einzeln angefasst werden. Das setzt natürlich sowohl künstlerische Fähigkeiten als auch entsprechende Computerkenntnisse voraus.

Wir haben uns also die Frage gestellt, ob es nicht möglich wäre, dem Computer zu beschreiben, was ich gerne sehen möchte und ihn das dann umsetzen lassen. Etwa so, als ob der Computer mein persönlicher Designer wäre, dem ich natürlichsprachig meine Idee beschreiben kann und er wandelt diese in ein Bild um.

Man kann sich vorstellen, dass damit plötzlich Millionen von Menschen, die zwar kreativ sind, aber nicht über die künstlerischen Fähigkeiten verfügen, jetzt die Möglichkeit haben, ihre Kreativität auszuleben.


Und wie hat sich die Idee dann technisch entwickelt?

Ein Ziel meiner Arbeitsgruppe ist, dem Computer das Sehen beizubringen, also ihn in die Lage zu versetzen, Bilder inhaltlich zu verstehen. Bisher hat man dem Computer einfach Bilder von verschiedenen Objekten gezeigt, damit er lernt, diese wiederzuerkennen. Hier kann er natürlich relativ schnell mogeln und dann zum Beispiel einen Hund am vor ihm liegenden Knochen erkennen. Wenn man Bilder synthetisieren lässt, merkt man dann sehr schnell, was der Computer noch nicht erfasst hat.

Technisch bedeutet das, dass wir den Prozess gewissermaßen umdrehen müssen. Der Computer muss lernen, was Bilder ausmacht. Welche Textur lokal vorliegt, aber auch welche Beziehungen die Objekte und Landschaften im Bild zueinander haben, etwa Spiegelungen in einem See, Schattenwürfe usw. Das ist die große Herausforderung.

Stable Diffusion setzt sich von anderen Systemen in diesem Bereich nun dadurch ab, dass das trainierte Modell so kompakt ist, dass es auf gewöhnlichen Computern läuft und keinen Großrechner zur Anwendung benötigt. Dazu mussten wir die Essenz von Milliarden Trainingsbildern abstrahieren und so zusammenfassen, dass sie in eine Grafikkarte mit wenigen Gigabyte Speicher in einem heimischen PC passt.


Die KI ist in der Text- und Sprachverarbeitung, aber auch in der Verarbeitung von Audiodaten allgemein wesentlich schneller fortgeschritten als im Bildbereich. Was ist der Grund hierfür?

Im Bild- und Audiobereich hat sich in den letzten Jahren ebenfalls sehr viel getan. Text ist eindimensional, daher ist es in diesem Bereich etwas einfacher. Bilder haben schon zwei Dimensionen. Es gibt also bei Bildern nicht einfach ein „Davor und Dahinter“ wie beim Text, sondern eine räumliche Darstellung, was die Sache deutlich schwieriger macht.

Modelle zu lernen, die Bilder erfassen und bestenfalls sogar einmal verstehen, stellt daher eine relativ große Herausforderung dar. Aus meiner Sicht sind beide Probleme aber noch nicht vollständig gelöst und bedürfen weiterer Forschung. 


Wenn immer mehr Tools für die Kreation schöpferischer Werke zur Verfügung stehen, entwertet das nicht die Arbeit der Künstler auf lange Sicht? 

Ich denke nicht, dass das der Fall ist. Mit der Entwicklung der Fotografie ist ja auch nicht die Bedeutung der bildenden Kunst verschwunden, obwohl die Sorge zunächst bestand. Kreativität obliegt dem Menschen. Da halte ich es ganz mit Joseph Beuys, der sagte, dass der wahre Künstler nur der Mensch ist, weil nur der Mensch ein sich selbst bestimmendes Wesen ist. Die Maschine gehorcht uns idealerweise, sie ist nicht kreativ. 

Ich habe mit vielen Künstlern gesprochen und habe gehört, dass sie selbst Stable Diffusion verwenden, um Entwürfe schnell zu erzeugen und Ideen auszuprobieren. So gewinnen sie einen ersten Eindruck, wie ihre Ideen aussehen könnten, bevor sie sie auf die Leinwand o. ä. bringen. Die Maschine wird also zum Werkzeug für den Künstler.

Gleichzeitig haben jetzt viele Menschen, die bislang aufgrund fehlender künstlerischer Fähigkeit keine Möglichkeit hatten, ihre Kreativität auszuleben, Zugang zu einem Tool, das ihnen diese Umsetzung ermöglicht. Gäbe es diese Möglichkeit für sie nicht, blieben diese Ideen ungenutzt.

Ich sehe hier gewisse Analogien zum Textbereich. Hier ging es auch mit Tusche und Feder los, dann kam die Schreibmaschine und dann das Desktop Publishing. Die Dichter oder Schriftsteller sind dadurch nicht arbeitslos geworden, sondern haben die Vereinfachungen, die mit dem System einhergingen, selbst angenommen.


Wo stößt die KI an ihre Grenzen, also was kann KI nicht und wird es künftig auch nicht oder nicht gut können?

Wie ich schon sagte, die Kreativität obliegt dem Menschen, der Computer ist nur das Werkzeug.

Im Moment kann der Computer noch nicht gut zählen. Etwa, das immer genau fünf Finger an einer Hand sein müssen, das verliert sich relativ schnell bei der Arbeit mit Stable Diffusion, während Spiegelungen und Schatten schon ganz gut sind. Hier ist noch weitere Forschung nötig.

Auch ein tiefergehendes inhaltliches Verständnis hat der Computer noch nicht. Es gibt zwar erste Lichtblicke, aber es wird noch einige Zeit dauern, bis  der Computer hierfür bereit ist.


Welche allgemeine Entwicklung können wir in der KI für die Video-/Bildgestaltung in den nächsten 10, 15 Jahren erwarten?

Es gibt noch viel zu tun. Aber ich denke, wir werden ein exponentielles Wachstum dessen erleben, was mit dem Computer möglich ist. Das wird viel Kreativität freisetzen. Der Computer ergänzt als mächtiges Werkzeug dabei unsere kognitiven Fähigkeiten, ähnlich wie in der Anfangsphase der Taschenrechner.

Textlich und sprachlich wird der Computer immer natürlichsprachiger werden. Er kann ja exakt mit Daten umgehen, wird aber auch noch lernen, schwammige Äußerungen des Menschen besser zu verstehen. Insgesamt steckt dort unglaublich viel Potential drin.

Und da Stable Diffusion eine offene Plattform ist, können wir uns heute wahrscheinlich gar nicht vorstellen, was alles künftig damit möglich sein wird und wie umgesetzt werden kann. Die menschlichen Fähigkeiten werden sicher enorm erweitert.

Ich erwarte dann auch eine immer stärkere Personalisierungsmöglichkeit. Etwa bei Computerspielen, die quasi „on the fly“ nach den Wünschen ihres Benutzers modifiziert werden und sich so an seinen visuellen Geschmack anpassen.


-AB
Aufmacher: Pixabay 
Portraitbild: Björn Ommer