Google’s Experte John Mueller hat eine interessante Frage zu einem neuen Konzept namens llms.txt beantwortet, das speziell für Webseiten und große Sprachmodelle entwickelt wurde. Er sprach über die möglichen Auswirkungen dieses Formats auf die SEO und erklärte, warum es sinnvoll sein kann, eine Noindex-Anweisung zu verwenden.
Inhaltsverzeichnis
ToggleWas ist llms.txt?
Das llms.txt-Format wurde geschaffen, um großen Sprachmodellen (Large Language Models, LLMs) den Zugriff auf die Hauptinhalte einer Webseite zu erleichtern. Es geht darum, eine saubere, vereinfachte und kuratierte Version der wichtigsten Inhalte einer Website bereitzustellen, die ohne störende Elemente wie Navigation oder Werbung verfügbar ist. Ein bedeutendes Detail ist die Platzierung der Datei: Sie liegt auf der Root-Ebene, ähnlich wie robots.txt (zum Beispiel: example.com/llms.txt).
Mueller betonte, dass llms.txt nicht mit robots.txt verwechselt werden sollte. Während robots.txt dazu dient, Roboteraktivitäten auf einer Website zu steuern, fungiert llms.txt als Inhaltsquelle, die speziell für große Sprachmodelle optimiert ist.
Könnte Google llms.txt als Duplicate Content auffassen?
Die Frage wurde auf der Plattform Bluesky gestellt, ob Google die in llms.txt enthaltenen Inhalte als doppelten Content ansehen könnte. Insbesondere wurde darüber nachgedacht, ob die LLMS-Datei in den Suchergebnissen erscheinen könnte, eventuell parallell zur eigentlichen HTML-Seite.
„Wird Google LLMS.txt-Dateien als Duplicate Content einstufen? Es scheint unlogisch, da Google versteht, wozu diese Datei wirklich gedacht ist.“
„Sollte ich für llms.txt eine Noindex-Anweisung hinzufügen?“
John Mueller antwortete daraufhin:
„Es wäre nur dann als Duplicate Content anzusehen, wenn der Inhalt identisch mit einer HTML-Seite wäre, was keinen Sinn ergeben würde (vorausgesetzt, die Datei selbst ist von Nutzen).“
„Aber es könnte trotzdem sinnvoll sein, eine Noindex-Anweisung zu verwenden, da andere Websites darauf verlinken könnten und sie im Index auftauchen könnte, was für die Nutzer komisch wäre.“
Gründe für eine Noindex-Anweisung
Mueller empfahl tatsächlich die Verwendung von „Noindex“, um zu vermeiden, dass diese Datei in den Google-Index aufgenommen wird. Allerdings stellte er klar, dass die Implementierung eines Robots.txt-Ausschlusses in diesem Fall überflüssig ist. Ein Ausschluss via robots.txt verhindert, dass Google die Datei überhaupt durchsucht, was wiederum eine Noindex-Deklaration unmöglich machen würde.
Ein „Noindex“-Header ist eine praktische Lösung, da er präzisiert, dass die Inhalte zwar für spezifische Modelle verfügbar sind, jedoch nicht in den allgemeinen Suchergebnissen erscheinen sollen.
Bildnachweis von Shutterstock/Krakenimages.com.