Was wir denken nennen

Wenn ich einen Text lese entstehen Bilder in meinem Kopf. Je nach Stimmung können diese unterschiedlich heftig ausfallen. Bilder werden oft zu Szenen. Aus Szenen werden Filme. Diese bildhaften Erscheinungen unseres Gehirns sind Teil dessen, was man auch unter träumen oder denken versteht.

Einem Team von sieben internationalen Informatikern ist es gelungen (hier das Paper dazu) einen zweistufigen Generator mit dem Namen «stacked Generative Adversarial Networks», kurz StackGAN, zu programmieren, welcher aus einem Satz (einer Wortkette) ein fotorealistisches Bild erzeugen kann.

Kleiner Einwurf von mir: Ein ungeheuerlicher Durchbruch den wir da sehen! 2016 wird in die Geschichte eingehen, als das Jahr, in dem eine Maschine erstmalig eine «Beschreibung von etwas», in ein überzeugendes fotorealistisches Bilder übersetzen konnten.

This bird has a yellow belly and tarsus, grey back, wings, and brown throat, nape with a black face” auf Deutsch soviel wie “Der Vogel hat einen gelben Bauch und Torso, grauen Rücken, Flügel, und einen brauen Hals, Schnabel mit einem schwarzen Gesicht“.

Aus diesem Satz konnte ein sogenanntes «Generator Network» eine Skizze erzeugen, welche dem beschriebenem Vogel den groben Konturen nach ähnlich sieht. In einem nächsten Schritt erstellt ein «Discriminator Network», basierend auf der Skizze und erneut dem Satz, ein nahezu fotorealistisches Bild des im Satz beschrieben Vogels. Das Discriminator-Network wurde im Vorfeld mit einer Vielzahl von “Vogelfotos” trainiert und “versteht” nun wie ein Vogel aufgebaut ist und aussehen kann.

 

Mit diesem Paper wurde gezeigt, was mit Hilfe von Maschine Learning im Bereich “Text to Photo-realistic Image Synthesis” (Text in fotorealistische Bilder wandeln) bereits möglich geworden ist. Erstaunlich, das der gelbe Vogel so in der Natur nicht vorkommt und dieser nach Vorgabe und “Trainings-Niveau” von einer, man könnte sagen, Künstlichen Intelligenz (KI) “erdacht” wurde.

 

Weitere Beispiele dieses Verfahrens, hier mit einem dritten Generator (256×256 StackGAN):

Aus Bildern werden Bewegtbilder werden (oh, es geht schon los: https://www.youtube.com/watch?v=oitGRdHFNWw). Anstatt der Texte werden wir unsere Träume einfach nur aussprechen müssen. Ein Voice-to-Text-Wandler erledigt den Rest. Die Maschine wird uns in Echtzeit unsere eigenen Traumwelten vor Augen führen. Wahrscheinlich in einer virtuellen Umgebung.

Zum Video: Károly Zsolnai-Fehér betreibt einen sehr gelungenen YouTube-Channel zum Thema Computer Graphics und Maschine Learning.

Vilém Flusser (1920-1991), bedeutender Medienphilosoph und Kommunikationswissenschaftler, hat den Einfluss von Schrift und Text auf Baupläne und den Programmcode der Apparate, als elementare Triebfeder aller Maschinen verstanden. Für ihn ist das daraus resultierende «technische Bild» das zentrale Phänomen dieser Entwicklung. Die technischen Bilder erzeugen eine immer stärker werdende Verbindung zwischen Mensch und Apparat.

Das technische Bild beschreibt er als “Pixelhaufen”, erzeugt durch den Apparat. Es fing mit Fotoapparaten an, die stetig verbessert wurden, später TV, dann digitale Fotografie, Videographie und Animation. Der jüngste Sprung des «technischen Bildes» ist der in die Virtuelle Realität (VR). Unsere Apparate erzeugen immer stärkere Bilder, da immer stärkere Apparate entstehen. Was Flusser nur schwer ahnen konnte ist, dass sich die «Apparate» seit diesem Experiment direkt an unseren Schriften bedienen können, um daraus artifizielle Traumwelten zu erzeugen und das ohne den Menschen dazwischen. Das ist ab jetzt kein Traum mehr. Wie gesagt, ein ungeheuerlicher Durchbruch.

Foto im Header von Ed Sommer. Quelle: http://www.flusser-archive.org

Follow up Beitrag (Juni, 2017):

Leave a Reply

Your email address will not be published. Required fields are marked *