RAG – die Technik hinter KI-Suche
Wenn Google AI Overviews, Perplexity oder ChatGPT mit Web-Browsing eine Frage beantworten und dabei aktuelle Quellen zitieren, funktioniert das nicht durch das im Modell gespeicherte Trainingswissen — sondern durch eine Technik namens Retrieval-Augmented Generation, kurz RAG. RAG ist die technische Brücke zwischen einem LLM (das nur sein Trainingswissen kennt) und aktuellen Informationen aus dem Web. Es ist die Technik die GEO überhaupt erst relevant macht.
Wie RAG funktioniert — der Ablauf
RAG kombiniert zwei Schritte: zuerst relevante Informationen abrufen (Retrieval), dann eine Antwort generieren die diese Informationen nutzt (Generation). Statt nur aus dem Trainingswissen zu antworten, liest das System zuerst aktuelle Quellen und antwortet dann auf Basis dieser Quellen plus seines allgemeinen Sprachverständnisses.
1. Anfrage analysieren
Das System interpretiert die Nutzeranfrage und entscheidet ob aktuelle Informationen benötigt werden. 'Was ist die Hauptstadt von Frankreich?' braucht keine Suche — das ist stabiles Wissen. 'Was sind die neuesten Entwicklungen bei X?' braucht aktuelle Quellen.
2. Suche / Retrieval
Das System durchsucht eine Datenquelle — entweder eine klassische Web-Suche (Bing für ChatGPT, Googles Index für AI Overviews, eigene Indizes für Perplexity) oder eine Vektordatenbank mit vorverarbeiteten Dokumenten. Ergebnis: eine Liste relevanter Seiten/Passagen.
3. Relevanteste Inhalte extrahieren
Aus den gefundenen Seiten werden die relevantesten Abschnitte extrahiert — nicht ganze Seiten, sondern spezifische Passagen die zur Frage passen. Hier wird entscheidend: wie gut ist ein Absatz strukturiert um als eigenständige Antwort zu funktionieren?
4. Generation mit Kontext
Die extrahierten Passagen werden zusammen mit der ursprünglichen Frage an das LLM gegeben — als zusätzlicher Kontext im Prompt. Das Modell generiert eine Antwort die diese Informationen synthetisiert, oft mit Quellenangaben/Links zu den verwendeten Seiten.
RAG vs. reines Trainingswissen
Aktualität
Reines Trainingswissen: bis Trainings-Cutoff begrenzt. RAG: aktuell, in Echtzeit
Quellenangaben
Reines Trainingswissen: selten/nie. RAG: häufig, mit Links
Genauigkeit bei Fakten
Reines Trainingswissen: kann veraltet/falsch sein. RAG: basiert auf aktuellen Quellen
Halluzinations-Risiko
Reines Trainingswissen: höher bei Nischen-Themen. RAG: geringer, aber nicht null
Geschwindigkeit
Reines Trainingswissen: schneller (kein Retrieval-Schritt). RAG: langsamer (Suche + Generation)
GEO-relevant
Reines Trainingswissen: nein (kein direktes Zitat möglich). RAG: ja (Quelle kann zitiert werden)
Vektordatenbanken und Embeddings
Für die Suche nutzen RAG-Systeme oft Embeddings — numerische Repräsentationen von Text die Bedeutung statt nur Wörter erfassen. Zwei Textpassagen mit ähnlicher Bedeutung haben ähnliche Embeddings, auch wenn sie unterschiedliche Wörter verwenden. Das ermöglicht semantische Suche: eine Anfrage nach ‘Wie kann ich meine Website beschleunigen?’ findet auch Inhalte über ‘Core Web Vitals verbessern’ — auch ohne Wort-Übereinstimmung, weil die Embeddings semantisch ähnlich sind.
Wie Embeddings GEO beeinflussen
Inhalte werden nicht nur nach Keyword-Übereinstimmung gefunden, sondern nach semantischer Ähnlichkeit zur Anfrage. Ein Artikel der ein Thema umfassend und mit verwandten Konzepten behandelt, hat mehr 'semantische Oberfläche' um für verschiedene Formulierungen derselben Frage gefunden zu werden.
Chunking — wie Dokumente aufgeteilt werden
Lange Dokumente werden für RAG in kleinere 'Chunks' (Abschnitte) aufgeteilt — oft Absatz- oder Abschnittsweise. Jeder Chunk bekommt sein eigenes Embedding. Das bedeutet: ein einzelner Absatz konkurriert um Relevanz, nicht die ganze Seite. Ein eigenständiger, klar formulierter Absatz hat bessere Chancen als Teil eines unstrukturierten Fliesstexts.
RAG in den grossen KI-Suchsystemen
Google AI Overviews
Retrieval-Quelle: Googles Such-Index. Besonderheit: tief integriert mit klassischem Ranking
Perplexity
Retrieval-Quelle: eigener Index + Bing. Besonderheit: sehr transparent mit Quellenangaben
ChatGPT Browse
Retrieval-Quelle: Bing-Index. Besonderheit: Browsing nur bei Bedarf aktiviert
Claude mit Web-Suche
Retrieval-Quelle: eigene Web-Suche-Integration. Besonderheit: zitiert Quellen mit Snippets
Häufig gestellte Fragen
Nutzt jede KI-Antwort RAG?
Nein. Wenn eine Frage stabiles, allgemeines Wissen betrifft ('Was ist Photosynthese?'), kann das System direkt aus dem Trainingswissen antworten — ohne Retrieval. RAG wird aktiviert wenn das System erkennt, dass aktuelle oder spezifische externe Informationen nötig sind, oder wenn der Nutzer explizit nach Quellen fragt.
Kann RAG Halluzinationen verhindern?
RAG reduziert Halluzinationen erheblich, eliminiert sie aber nicht vollständig. Das Modell kann die abgerufenen Informationen falsch interpretieren, Quellen verwechseln, oder Informationen aus mehreren Quellen fehlerhaft kombinieren. RAG macht Antworten verlässlicher, aber nicht perfekt.
Wie schnell crawlen RAG-Systeme neue Inhalte?
Stark unterschiedlich. Manche Systeme nutzen einen aktuellen Suchmaschinen-Index (der selbst eine Crawling-Verzögerung hat — Stunden bis Tage). Manche führen Live-Crawls für spezifische Anfragen durch. Für maximale GEO-Aktualität: sicherstellen dass die Seite generell gut und häufig von Suchmaschinen gecrawlt wird (Sitemap, interne Verlinkung, Crawl-Budget).
Ist RAG dasselbe wie Fine-Tuning?
Nein, beides sind unterschiedliche Ansätze um ein Modell mit zusätzlichem Wissen auszustatten. Fine-Tuning verändert das Modell selbst durch zusätzliches Training — permanent, aber aufwendig und nicht für Echtzeit-Daten geeignet. RAG fügt Informationen zur Laufzeit als Kontext hinzu — flexibel, aktuell, aber abhängig von der Qualität des Retrieval-Schritts.