Was ist Generative KI wirklich? Kernkonzepte & Technologien

Plus
Generative KI - Vom Hype zum Hebel für dein Wachstum
Den Trend generative KI im Detail verstehen
Was ist Generative KI wirklich? Kernkonzepte & Technologien

Wenn wir über Künstliche Intelligenz sprechen, ist es leicht, alles in einen Topf zu werfen. Doch die aktuelle Welle der Begeisterung hat einen spezifischen Grund: Eine neue Art von KI, die sich fundamental von dem unterscheidet, was wir bisher meistens kannten. Lass uns diesen Unterschied klar herausarbeiten.

Definition: GenAI vs. "Klassische" KI

Stell dir einen KI-Typ als Analysten vor. Er nimmt vorhandene Daten, erkennt Muster, sortiert, kategorisiert und trifft Vorhersagen basierend auf dem, was er gelernt hat. Das ist die diskriminative KI. Sie unterscheidet oder analysiert. Ein Spam-Filter, der Mails als "Spam" oder "Nicht-Spam" klassifiziert, ist diskriminative KI. Eine Gesichtserkennung, die sagt: "Das ist Person X", ist diskriminative KI. Ein System, das Kreditwürdigkeit beurteilt, ist diskriminative KI.

Nun stell dir einen anderen KI-Typ als Schöpfer vor. Er hat ebenfalls riesige Mengen an Daten analysiert und dabei gelernt, wie Dinge gemacht werden, wie Muster entstehen und wie Strukturen aufgebaut sind. Aber anstatt nur zu analysieren, nutzt dieser Schöpfer sein Wissen, um völlig neue Inhalte zu generieren. Das ist Generative KI (GenAI). Sie erschafft. Ein System, das einen Romanentwurf schreibt, ein Bild malt oder ein Musikstück komponiert – das ist GenAI. Ein Tool, das auf deine Frage hin eine kohärente Antwort formuliert (und nicht nur passende Webseiten auflistet), ist GenAI.

Der Kernunterschied liegt also im Output: Diskriminative KI analysiert Vorhandenes, Generative KI erschafft Neues. Und diese Fähigkeit zur Kreation ist der Game Changer, der unzählige neue Anwendungsfälle ermöglicht.

Die Basis: Große Sprachmodelle (LLMs) und andere Foundation Models

Der Begriff "Foundation Model" ist in diesem Kontext wichtig. Denk an ein riesiges, universelles Fundament, auf dem viele verschiedene Gebäude gebaut werden können. Foundation Models sind sehr große KI-Modelle, die auf extrem breiten Datensätzen trainiert wurden, um eine Vielzahl von Aufgaben zu verstehen und auszuführen.

Die bekanntesten Foundation Models im GenAI-Bereich sind Große Sprachmodelle (Large Language Models - LLMs). Wie ihr Name schon sagt, konzentrieren sie sich auf Sprache. Sie wurden auf beispiellos großen Mengen an Textdaten trainiert – im Grunde auf einem Großteil des öffentlich zugänglichen Textes im Internet, auf Büchern, Artikeln, Code etc. Dieses Training erlaubt es ihnen, komplexe Sprachstrukturen, Grammatik, Fakten, logische Zusammenhänge und sogar verschiedene Schreibstile zu lernen.

Beispiele für prominente LLMs, die du wahrscheinlich kennst oder nutzen wirst, sind:

GPT-Modelle von OpenAI (bekannt aus ChatGPT)
Gemini-Modelle von Google (in Bard und anderen Google-Produkten)
Claude-Modelle von Anthropic
Llama-Modelle von Meta (oft im Open-Source-Bereich verwendet)

Diese Modelle sind "multimodal" geworden, was bedeutet, dass sie nicht nur Text verarbeiten, sondern auch Bilder verstehen und generieren oder sogar Code interpretieren können.

Neben den LLMs gibt es auch Foundation Models, die speziell für andere Arten von Daten trainiert sind, z.B. riesige Modelle für die Bildgenerierung (wie Stable Diffusion oder die Modelle hinter Midjourney und DALL-E), die auf Millionen von Bildern und deren Beschreibungen trainiert wurden.

Wie GenAI "lernt": Eine vereinfachte Erklärung des Trainingsprozesses

Wie bringen wir einer Maschine bei, kreativ zu schreiben oder zu malen? Es ist ein bisschen wie ein massives Voraussage-Spiel. Während des Trainings werden dem Modell riesige Datensätze präsentiert. Bei Textmodellen sieht das Modell Sätze oder Textpassagen und versucht dann, das nächste Wort vorherzusagen. Oder ein Wort wurde maskiert, und das Modell muss es erraten.

Durch Milliarden solcher "Vorhersagen" über den gesamten Trainingsdatensatz hinweg lernt das Modell nicht nur einzelne Wörter, sondern auch, welche Wörter oft zusammen auftreten, wie Sätze strukturiert sind, welche Tonlagen und Stile es gibt (formell, informell, kreativ), und sogar rudimentäres "Wissen" über die Welt, das in den Texten enthalten ist.

Bei Bildmodellen lernt das Modell die Beziehung zwischen Textbeschreibungen und den visuellen Merkmalen von Bildern. Es lernt, wie ein "Hund im Park" aussieht und kann dann dieses Wissen nutzen, um ein neues Bild zu generieren, das diese Beschreibung erfüllt.

Ein wichtiger Fortschritt der letzten Jahre ist das Reinforcement Learning from Human Feedback (RLHF). Dabei geben menschliche Trainer der KI Feedback zu ihren generierten Antworten ("Diese Antwort ist besser als jene") und bewerten sie. Das hilft dem Modell, besser zu verstehen, was wir Menschen als "gute", hilfreiche oder sichere Antwort empfinden. Das macht Chatbots wie ChatGPT oft so viel nutzbarer als ihre direkten Vorgänger.

Schlüsseltechnologie: Transformer-Architekturen

Dieser Fortschritt im Lernen wäre ohne einen architektonischen Durchbruch kaum möglich gewesen: die Transformer-Architektur, die 2017 von Google Forschern vorgestellt wurde. Davor hatten Modelle Schwierigkeiten, den Zusammenhang über längere Textpassagen hinweg zu verstehen. Sie "vergaßen" praktisch, was am Anfang eines langen Satzes oder Absatzes stand, wenn sie am Ende ankamen.

Transformer-Modelle nutzen einen cleveren Mechanismus, die sogenannte Aufmerksamkeit (Attention), die es ihnen ermöglicht, die Bedeutung verschiedener Wörter im Kontext des gesamten Satzes oder sogar längerer Dokumente zu gewichten. Sie können also verstehen, wie verschiedene Teile des Inputs miteinander zusammenhängen, auch wenn sie weit voneinander entfernt sind. Das war entscheidend für die Entwicklung der kohärenten und kontextbezogenen Texte, die heutige LLMs generieren können. Sie sind das technologische Rückgrat des aktuellen GenAI-Booms.

Verschiedene Typen und Anwendungsbereiche von GenAI

GenAI ist nicht gleich GenAI. Je nachdem, welche Art von Inhalt sie generiert, unterscheiden wir verschiedene Typen, die wiederum unterschiedliche Tools und Anwendungsbereiche haben:

Text-zu-Text: Dies ist der bekannteste Typ, oft in Form von Chatbots. Du gibst Text ein (dein Prompt), und das Modell generiert Text als Output.

Tools: ChatGPT, Gemini, Claude.ai, Perplexity AI.
Anwendungsbereiche: E-Mail-Entwürfe, Artikel schreiben, Code generieren (oft auch eine eigene Kategorie, aber basiert auf Text), Fragen beantworten, Zusammenfassungen erstellen.

Text-zu-Bild: Du beschreibst ein Bild mit Text, und die KI malt es.

Tools: Midjourney, DALL-E, Stable Diffusion, Leonardo AI, Adobe Firefly.
Anwendungsbereiche: Illustrationen für Blogs, Marketingbilder, Konzeptkunst, Moodboards, einzigartige Stockfotos.

Text-zu-Code: Du beschreibst, was ein Programm tun soll, und die KI schreibt den Code dafür.

Tools: GitHub Copilot (basiert auf OpenAI Codex), AlphaCode.
Anwendungsbereiche: Beschleunigung der Softwareentwicklung, Hilfe beim Debugging, Code-Migration.

Text-zu-Audio: Generiert Musik, gesprochene Sprache (oft mit Emotion oder in bestimmter Stimme) oder Soundeffekte aus Text.

Tools: ElevenLabs, Murf.ai, MusicLM.
Anwendungsbereiche: Voiceovers für Videos, Podcasts, Warteschleifenmusik, Erstellung von Hörbüchern, Musikproduktion.

Text-zu-Video: Erzeugt kurze Videoclips oder Animationen aus Textbeschreibungen.

Tools: RunwayML, Sora (von OpenAI, noch sehr neu und exklusiv).
Anwendungsbereiche: Erstellung kurzer Social Media Videos, Video-Illustrationen für Artikel, erste Entwürfe für Werbespots.

Zukünftig werden wir immer multimodalere Modelle sehen, die nahtlos zwischen diesen Formaten wechseln können (z.B. ein Video generieren, das auf einer Textbeschreibung und einem Beispielbild basiert).

Prompting als zentrale Fähigkeit: Was bedeutet "Prompt Engineering"?

GenAI-Modelle sind Werkzeuge. Und wie bei jedem Werkzeug hängt das Ergebnis stark davon ab, wie gut du es bedienen kannst. Bei GenAI ist die Bedienung die Kommunikation über Prompts.

Prompt Engineering ist die Fähigkeit, effektive Anweisungen (Prompts) zu formulieren, um das gewünschte Ergebnis von einem GenAI-Modell zu erhalten. Es ist weniger technisches Coding und mehr kreatives, präzises Formulieren. Du lernst, der KI den notwendigen Kontext zu geben, die gewünschte Rolle zuzuweisen (z.B. "Du bist ein Marketing-Experte"), Constraints zu setzen (z.B. "Antworte in maximal 100 Wörtern", "Nutze einen informellen Ton"), Beispiele zu geben oder das Ausgabeformat festzulegen (z.B. "Liste die Ergebnisse als Bullet Points auf").

Gute Prompt Engineering ist der Unterschied zwischen einer mittelmäßigen, generischen Antwort und einem hochrelevanten, nützlichen Ergebnis. Es wird zu einer Schlüsselkompetenz im Umgang mit GenAI.

Nach dieser Einführung in die "Anatomie" von GenAI gehen wir in der nächsten Lektion der Frage nach, warum dieser Trend so viel mehr ist als nur eine coole Technologie – warum er ein exponentieller Hard Trend ist, der unsere Zukunft unvermeidlich prägen wird.