RAG erklärt – Wie KI-Systeme Echtzeit-Infos aus dem Web holen

RAG – die Technik hinter KI-Suche

Wenn Google AI Overviews, Perplexity oder ChatGPT mit Web-Browsing eine Frage beantworten und dabei aktuelle Quellen zitieren, funktioniert das nicht durch das im Modell gespeicherte Trainingswissen — sondern durch eine Technik namens Retrieval-Augmented Generation, kurz RAG. RAG ist die technische Brücke zwischen einem LLM (das nur sein Trainingswissen kennt) und aktuellen Informationen aus dem Web. Es ist die Technik die GEO überhaupt erst relevant macht.

Wie RAG funktioniert — der Ablauf

RAG kombiniert zwei Schritte: zuerst relevante Informationen abrufen (Retrieval), dann eine Antwort generieren die diese Informationen nutzt (Generation). Statt nur aus dem Trainingswissen zu antworten, liest das System zuerst aktuelle Quellen und antwortet dann auf Basis dieser Quellen plus seines allgemeinen Sprachverständnisses.

1. Anfrage analysieren

Das System interpretiert die Nutzeranfrage und entscheidet ob aktuelle Informationen benötigt werden. 'Was ist die Hauptstadt von Frankreich?' braucht keine Suche — das ist stabiles Wissen. 'Was sind die neuesten Entwicklungen bei X?' braucht aktuelle Quellen.

2. Suche / Retrieval

Das System durchsucht eine Datenquelle — entweder eine klassische Web-Suche (Bing für ChatGPT, Googles Index für AI Overviews, eigene Indizes für Perplexity) oder eine Vektordatenbank mit vorverarbeiteten Dokumenten. Ergebnis: eine Liste relevanter Seiten/Passagen.

3. Relevanteste Inhalte extrahieren

Aus den gefundenen Seiten werden die relevantesten Abschnitte extrahiert — nicht ganze Seiten, sondern spezifische Passagen die zur Frage passen. Hier wird entscheidend: wie gut ist ein Absatz strukturiert um als eigenständige Antwort zu funktionieren?

4. Generation mit Kontext

Die extrahierten Passagen werden zusammen mit der ursprünglichen Frage an das LLM gegeben — als zusätzlicher Kontext im Prompt. Das Modell generiert eine Antwort die diese Informationen synthetisiert, oft mit Quellenangaben/Links zu den verwendeten Seiten.

RAG vs. reines Trainingswissen

Aktualität

Reines Trainingswissen: bis Trainings-Cutoff begrenzt. RAG: aktuell, in Echtzeit

Quellenangaben

Reines Trainingswissen: selten/nie. RAG: häufig, mit Links

Genauigkeit bei Fakten

Reines Trainingswissen: kann veraltet/falsch sein. RAG: basiert auf aktuellen Quellen

Halluzinations-Risiko

Reines Trainingswissen: höher bei Nischen-Themen. RAG: geringer, aber nicht null

Geschwindigkeit

Reines Trainingswissen: schneller (kein Retrieval-Schritt). RAG: langsamer (Suche + Generation)

GEO-relevant

Reines Trainingswissen: nein (kein direktes Zitat möglich). RAG: ja (Quelle kann zitiert werden)

Vektordatenbanken und Embeddings

Für die Suche nutzen RAG-Systeme oft Embeddings — numerische Repräsentationen von Text die Bedeutung statt nur Wörter erfassen. Zwei Textpassagen mit ähnlicher Bedeutung haben ähnliche Embeddings, auch wenn sie unterschiedliche Wörter verwenden. Das ermöglicht semantische Suche: eine Anfrage nach ‘Wie kann ich meine Website beschleunigen?’ findet auch Inhalte über ‘Core Web Vitals verbessern’ — auch ohne Wort-Übereinstimmung, weil die Embeddings semantisch ähnlich sind.

Wie Embeddings GEO beeinflussen

Inhalte werden nicht nur nach Keyword-Übereinstimmung gefunden, sondern nach semantischer Ähnlichkeit zur Anfrage. Ein Artikel der ein Thema umfassend und mit verwandten Konzepten behandelt, hat mehr 'semantische Oberfläche' um für verschiedene Formulierungen derselben Frage gefunden zu werden.

Chunking — wie Dokumente aufgeteilt werden

Lange Dokumente werden für RAG in kleinere 'Chunks' (Abschnitte) aufgeteilt — oft Absatz- oder Abschnittsweise. Jeder Chunk bekommt sein eigenes Embedding. Das bedeutet: ein einzelner Absatz konkurriert um Relevanz, nicht die ganze Seite. Ein eigenständiger, klar formulierter Absatz hat bessere Chancen als Teil eines unstrukturierten Fliesstexts.

RAG in den grossen KI-Suchsystemen

Google AI Overviews

Retrieval-Quelle: Googles Such-Index. Besonderheit: tief integriert mit klassischem Ranking

Perplexity

Retrieval-Quelle: eigener Index + Bing. Besonderheit: sehr transparent mit Quellenangaben

ChatGPT Browse

Retrieval-Quelle: Bing-Index. Besonderheit: Browsing nur bei Bedarf aktiviert

Claude mit Web-Suche

Retrieval-Quelle: eigene Web-Suche-Integration. Besonderheit: zitiert Quellen mit Snippets

Häufig gestellte Fragen

Nutzt jede KI-Antwort RAG?

Nein. Wenn eine Frage stabiles, allgemeines Wissen betrifft ('Was ist Photosynthese?'), kann das System direkt aus dem Trainingswissen antworten — ohne Retrieval. RAG wird aktiviert wenn das System erkennt, dass aktuelle oder spezifische externe Informationen nötig sind, oder wenn der Nutzer explizit nach Quellen fragt.

Kann RAG Halluzinationen verhindern?

RAG reduziert Halluzinationen erheblich, eliminiert sie aber nicht vollständig. Das Modell kann die abgerufenen Informationen falsch interpretieren, Quellen verwechseln, oder Informationen aus mehreren Quellen fehlerhaft kombinieren. RAG macht Antworten verlässlicher, aber nicht perfekt.

Wie schnell crawlen RAG-Systeme neue Inhalte?

Stark unterschiedlich. Manche Systeme nutzen einen aktuellen Suchmaschinen-Index (der selbst eine Crawling-Verzögerung hat — Stunden bis Tage). Manche führen Live-Crawls für spezifische Anfragen durch. Für maximale GEO-Aktualität: sicherstellen dass die Seite generell gut und häufig von Suchmaschinen gecrawlt wird (Sitemap, interne Verlinkung, Crawl-Budget).

Ist RAG dasselbe wie Fine-Tuning?

Nein, beides sind unterschiedliche Ansätze um ein Modell mit zusätzlichem Wissen auszustatten. Fine-Tuning verändert das Modell selbst durch zusätzliches Training — permanent, aber aufwendig und nicht für Echtzeit-Daten geeignet. RAG fügt Informationen zur Laufzeit als Kontext hinzu — flexibel, aktuell, aber abhängig von der Qualität des Retrieval-Schritts.