KI-Grundlagen| AIpedia-Redaktion

Wie funktioniert generative KI? GPT, Diffusionsmodelle und RAG einfach erklärt

Die Funktionsweise generativer KI verständlich erklärt. Von Large Language Models über Diffusionsmodelle bis zu RAG — die Technologien hinter ChatGPT, Stable Diffusion und Co.

Generative KI erstellt neue Inhalte — Texte, Bilder, Musik und Videos. Aber wie funktioniert das eigentlich?

Large Language Models (LLMs)

Wie GPT-4 und Claude funktionieren

LLMs werden auf Billionen von Texten aus dem Internet trainiert. Sie lernen statistische Muster der Sprache und können das nächste wahrscheinlichste Wort vorhersagen — was zu verblüffend menschlichen Texten führt.

Transformer-Architektur

Der Kern aller modernen LLMs. Der Self-Attention-Mechanismus ermöglicht es dem Modell, den Kontext jedes Wortes in Bezug auf alle anderen Wörter zu verstehen.

Training in drei Stufen

1. Pre-Training: Lernen von Sprachmustern aus dem Internet 2. Instruction Tuning: Lernen, Anweisungen zu befolgen 3. RLHF: Optimierung basierend auf menschlichem Feedback

Diffusionsmodelle (Bildgenerierung)

Wie Stable Diffusion und DALL-E funktionieren

Diffusionsmodelle lernen, Rauschen schrittweise aus Bildern zu entfernen. Zur Generierung starten sie mit reinem Rauschen und entfernen es schrittweise, um ein Bild zu erzeugen.

CLIP: Die Brücke zwischen Text und Bild

CLIP (von OpenAI) versteht den Zusammenhang zwischen Textbeschreibungen und Bildern und ermöglicht so die Text-zu-Bild-Generierung.

RAG (Retrieval-Augmented Generation)

Das Problem von LLMs

LLMs wissen nichts über aktuelle Ereignisse oder private Unternehmensdaten.

Die RAG-Lösung

1. Dokumente werden in Vektoren umgewandelt und gespeichert 2. Bei einer Anfrage werden relevante Dokumente gesucht 3. Diese werden dem LLM als Kontext mitgegeben 4. Das LLM generiert eine Antwort basierend auf diesen Dokumenten

Fazit

Generative KI basiert auf eleganten mathematischen Prinzipien: Statistische Sprachmuster (LLMs), schrittweise Rauschentfernung (Diffusionsmodelle) und intelligente Informationssuche (RAG). Das Verständnis dieser Grundlagen hilft, KI-Tools effektiver einzusetzen.