Zurück

Sprach- und andere Modelle

29. Juli 2024

Nachdem wir uns im ersten Teil unserer Serie mit den verschiedenen Arten von KI beschäftigt und im zweiten Teil einen näheren Blick auf die generative KI und ihre Besonderheiten geworfen haben, geht es in diesem Teil um die verschiedenen Modelle, die dabei zum Einsatz kommen.

Sprachmodelle: Die Grundlage textbasierter KI

Ein Beispiel für solche Modelle sind Sprachmodelle, die die Grundlage für Anwendungen wie ChatGPT und ähnliche Systeme bilden. Diese Modelle werden mit riesigen Datenmengen trainiert, um die Bedeutung von Wörtern und deren Beziehungen zueinander zu erlernen. Dabei kommen unterschiedliche Techniken des maschinellen Lernens zum Einsatz, die es dem Modell ermöglichen, Wörter in sinnvollen und grammatikalisch korrekten Sätzen aneinanderzureihen.

Bild-, Audio- und Videomodelle: Spezialisierung auf unterschiedliche Modalitäten

Neben den Sprachmodellen gibt es spezialisierte Modelle für andere Modalitäten, wie das Generieren von Bildern, Audio und Video. Diese Modelle müssen ebenfalls in der Lage sein, Textanweisungen zu verstehen, um sie in die jeweilige Zielmodalität umzusetzen. Bildmodelle beispielsweise analysieren eine textliche Beschreibung, zerlegen sie in ihre wesentlichen Bestandteile und ordnen diesen visuelle Elemente zu. Diese Elemente werden iterativ zusammengeführt, um ein vollständiges Bild zu generieren.

Unimodale vs. multimodale Modelle

Sprach- und Bildmodelle gelten als unimodale Modelle, da sie sich jeweils nur auf eine Modalität – entweder Text oder Bilder – konzentrieren. Im Gegensatz dazu können multimodale Modelle (Large Multimodal Models, LMMs) mehrere Modalitäten gleichzeitig verarbeiten und ausgeben. Diese Modelle vereinen verschiedene Datentypen wie Text, Bild und Audio und nutzen spezialisierte Trainingsmethoden, um mit diesen unterschiedlichen Modalitäten umgehen zu können. Der große Vorteil multimodaler Modelle besteht darin, dass sie nahtlos zwischen textbasierter und visueller oder auditiver Kommunikation wechseln und eine Vielzahl von Eingabearten akzeptieren können.

Ist das wirklich multimodal?

Allerdings bedeutet das nicht, dass jeder Chatbot, der Audiodaten verarbeiten kann, auf einem multimodalen Modell basiert. Oft kombinieren Hersteller verschiedene spezialisierte Modelle, um ihren Nutzern unterschiedliche Kommunikationswege zu bieten. Dagegen spricht prinzipiell nichts. Doch gerade bei Audiochats merken wir den Unterschied. Der Verlauf der Konversation, den wir bei OpenAIs Vorstellung von GPT-4o gesehen haben, ist nur mit einem multimodalen Modell möglich. Diese Fähigkeit, flexibel auf verschiedene Eingaben zu reagieren, ist ein typisches Merkmal multimodaler Modelle, das durch die gemeinsame Verwendung mehrerer unimodaler Modelle nicht simuliert werden kann.

Von der Theorie zur Praxis

Nach diesem theoretischen Einblick widmen wir uns im nächsten Teil der Serie wieder praktischen Anwendungen, insbesondere den Halluzinationen. Dabei wirst du feststellen, dass du dir das notwendige Wissen schon angeeignet hast, um sie weitestgehend zu vermeiden.

Mehr lesen