Zurück

ChatGPT und Co. – das Ende des Graphical User Interface?

9. Oktober 2023

Generative AI ist auf dem Vormarsch. Fortschritte in den Bereichen des Natural Language Processing ermöglichen der künstlichen Intelligenz das Erledigen von Aufgaben von bisher unerreichter Komplexität. Doch nicht nur das: Der immense Einsatz von Chatbots und anderen Applikationen, die auf generativer KI basieren, verändert die Art, wie wir mit Computern interagieren. Interessanterweise haben diese Interaktionsmöglichkeiten erstaunliche Ähnlichkeit mit Interaktionswegen, die schon seit den allerersten Computer-Generationen bekannt sind. Werfen wir also zunächst einen Blick in die Vergangenheit.

Eine kleine Geschichte der Mensch-Computer-Interaktion

Der Siegeszug der Computer lässt sich ins letzte Jahrhundert zurückverfolgen. Vor Touchscreen und Cursor mussten Nutzer*innen in Terminals Kommandos eingeben, die dem Computer mitteilten, was er tun sollte. Die frappierende Ähnlichkeit zu heutigen Interaktionen mit Chatbots wie ChatGPT ist schnell ersichtlich. Im Gegensatz zu Natural Language Interfaces, also Schnittstellen, die imstande sind, natürliche Sprache zu verstehen, hat die Kommandozeile jedoch den offensichtlichen Nachteil, dass die Befehle eindeutig sein müssen und keinen Freiraum für Fehler erlauben – wer sich vertippt, ist dem Ziel keinen Schritt näher. Die Kommandozeile hat somit nur wenig Ähnlichkeit mit menschlichen Konversationen.

Der nächste Evolutionsschritt war das Graphical User Interface (GUI). Eingetippte Befehle wurden ersetzt von grafischen Oberflächen, die eine einfach verständliche Interaktion auch für unerfahrene Benutzer*innen ermöglicht. Dies machte den Computer zugänglicher für viele Menschen, die bis dahin nur wenig damit zu tun hatten. Zahlreiche Paradigmen aus dieser Zeit bestehen bis heute: Das Fenster, das Icon, das Menü und der Zeiger (engl. Window, Icon, Menu, Pointer, kurz WIMP) sind bis heute fester Bestandteil eines jeden GUIs. Das GUI selbst hat im Laufe der Zeit ebenfalls wichtige Evolutionsschritte durchlaufen. Applikationen auf älteren iOS-Versionen etwa sind ihren Gegenstücken in der realen Welt häufig deutlich näher als moderne Applikationen. Diese Abstraktion weg vom realen Objekt eröffnet Gestalter*innen neue Möglichkeiten, Interaktionen zu gestalten – mit dem Nachteil, dass diese neuen Interaktionswege erst erlernt werden müssen.

gui.jpg

Das GUI ist zweifelsohne eine der wichtigsten Disruptionen in der Geschichte des Computers. Aber auch wenn ein GUI noch so verständlich und einfach gestaltet ist, ist die Interaktion mit einer Applikation häufig noch immer mit Lernprozessen verbunden, die dem gewünschten Ziel im Weg stehen – gerade bei komplexeren Workflows. Wie wäre es, wenn wir dem Computer einfach mitteilen könnten, was wir uns wünschen, so wie wir es einem anderen Menschen sagen würden?

Natural Language Interface – die nächste Evolutionsstufe?

Mit LLMs sind wir dem Ziel schon einen Schritt näher. Wir schreiben einfach, was wir wollen, und ChatGPT, Bard oder LLaMA erledigt es. Schon in seiner Grundausstattung ist ChatGPT enorm beeindruckend in seinen Fähigkeiten. Plugins ermöglichen eine Anbindung an externe Dienste, die diesen Funktionsumfang nochmal erweitern. Werden wir in Zukunft ausschließlich über das Natural Language Interface mit dem Computer kommunizieren?

Es stimmt, dass das NLI gegenüber dem GUI einige bestechende Vorteile bietet. Die Abstraktionsebene der grafischen Elemente existiert bei NLIs nicht. Stattdessen greifen LLMs auf geschriebene Texte zurück, gegebenenfalls in Kombination mit gesprochener Sprache – ein Kommunikationsmittel, mit dem alle Nutzer*innen vertraut sind. Das baut Zugänglichkeitsbarrieren ab und ermöglicht schnelles und unkompliziertes Arbeiten.

Gerade wenn es um komplexere Tätigkeiten geht, die eine hohe Präzision oder ein schnelles visuelles Erfassen von Informationen erfordern, zeigen ChatGPT und co. jedoch noch immer Limitationen – hier hat das klassische GUI oft weiter die Nase vorn. Die meisten Nutzer*innen dürften beispielsweise einen einfachen Klick auf die Adresszeile des Browsers gegenüber einem entsprechenden Befehl bevorzugen („öffne folgende Website im Safari-Browser: …“). Andere GUI-Interaktionen wie Slider ermöglichen ein schnelles Ausprobieren und Anpassen von Parametern, ohne sich konkret festlegen zu müssen. Insbesondere, wenn viele dieser Interaktionen in Workflows mit mehreren Schritten miteinander verknüpft sind, kann ein GUI von Vorteil sein. Tatsächlich ermöglichen GUIs das Herunterbrechen von komplexen Aufgaben auf einfache Interaktionsschritte. Indem Gestalter*innen sich Konventionen bedienen, können ähnliche Interaktionen programmübergreifend gleich gestaltet werden, was die Verständlichkeit von Interfaces weiter erhöht.

NLI vs. GUI – wie kann ein Kompromiss aussehen?

Wir sehen also, das Natural Language Interface kann bestimmte Dinge besser als das Graphical User Interface und umgekehrt. Statt das eine gegen das andere auszuspielen, würde es nicht Sinn ergeben, beide Interfaces zum jeweils größtmöglichen Vorteil zu nutzen?
Nutzer*innen und Designer*innen gleichermaßen sind künftig mit der Aufgabe betraut, herauszufinden, für welche Einsatzzwecke das jeweilige Interface am besten geeignet ist. Platzhirsche wie Adobe zeigen bereits, wie die Zukunft der Mensch-Computer-Interaktion aussehen könnte. In der neuesten Photoshop-Version führt Adobe das sogenannte Generative Fill ein, was ein einfaches „Ausradieren“ und Ersetzen von bestimmten Bildelementen ermöglicht. Nutzer*innen wählen zunächst den gewünschten Bereich mit der Maus aus und teilen der KI anschließend in schriftlicher Form mit, wie der Bereich verändert werden soll. Anschließend lassen sich weitere Verfeinerungen vornehmen – wahlweise mit Mausklicks oder in Form von Befehlen.

Warum also nicht einfach beides benutzen? Das GUI bietet Vorteile ebenso wie das NLI. Die Forschung, die Science-Fiction und die Praxis arbeitet bereits an Entwürfen, wie die Zukunft einer Interaktion mit dem Computer aussehen kann. Wir dürfen gespannt sein, was als nächstes kommt. Angesichts der aktuellen technischen Entwicklung sind wir uns sicher, dass die Geschichte der Mensch-Computer-Interaktion weitere spannende Wendungen für uns bereithält.
 

Mehr lesen...