Inhaltsverzeichnis
ToggleGoogle’s Lokales Algorithmus zur Job-Typ-Bestimmung
Google hat eine spannende Forschung vorgestellt: ein Algorithmus, der „Dienstleistungen“ von Unternehmen automatisch aus ihren Webseiten extrahiert. Diese Informationen werden verwendet, um Unternehmensprofile in Google Maps und der Google-Suche zu verbessern. Dieser Algorithmus wurde von einer Forschergruppe entwickelt, zu der Marc Najork gehört, ein angesehener Wissenschaftler in den Bereichen Informationsbeschaffung, natürliche Sprachverarbeitung und künstliche Intelligenz.
Ein Jahr erfolgreiche Anwendung
Bereits seit einem Jahr ist dieser Algorithmus erfolgreich im Einsatz. Ziel ist es, Nutzer schnell zu den lokalen Unternehmen zu führen, die genau die Dienstleistungen anbieten, die sie suchen.
Der Grundgedanke
Der Algorithmus funktioniert, indem er beispielsweise eine Webseite eines Klempners analysiert. Wenn dort steht: „Wir bieten Toiletteninstallation und Wasserhahnreparaturen an“, identifiziert und speichert der Algorithmus diese Dienstleistungen als „Jobtypen“. Laut der veröffentlichten Forschungsarbeit durchsucht der Algorithmus Milliarden von Unternehmensseiten, um solche Informationen zu extrahieren.
BERT als Kernstück
Das Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) spielt eine Schlüsselrolle. Es wurde genutzt, um die extrahierten Phrasen zu klassifizieren und zu analysieren, ob sie tatsächliche Dienstleistungen beschreiben. Um die Genauigkeit zu erhöhen, greift der Algorithmus nicht nur auf die Hauptinhalte, sondern auch auf den Kontext der Seiten zu, wie die Struktur der Webseite oder URL-Muster.
Wie der Algorithmus aufgebaut wurde
Die Entwicklung begann mit der Analyse von Milliarden Homepages, auf denen Jobtypen erfasst wurden – entweder direkt aus Hauptseiten oder aus einer Ebene tiefer. Diese Daten wurden anschließend als Trainingsdatensatz verwendet, um das Erkennen und Zuordnen von Dienstleistungen zu verbessern. Google erweiterte diesen Datensatz später mit Synonymen und Variationen, um die Begriffe besser abzudecken.
Eine Relevanz-Herausforderung
Ein Problem aufgetreten: Viele Seiten enthalten Begriffe zu „Jobtypen“, ohne tatsächlich diese Dienstleistungen anzubieten. Zum Beispiel könnte eine Ratgeberseite über Schädlingsbekämpfung Begriffe wie „Bettwanzenbekämpfung“ enthalten, ohne selbst ein Anbieter solcher Dienstleistungen zu sein. Daher musste der Algorithmus lernen, den richtigen Kontext zu analysieren.
Suche nach besserem Kontext
Das Team implementierte schließlich eine Lösung: Der Algorithmus berücksichtigt die Sätze um die genannten Keywords. Diese Methode erwies sich als äußerst effektiv, um die Bedeutung der Keywords präzise zu erfassen, ohne den gesamten Webseiteninhalt durchzugehen.
Wichtige Erkenntnisse für SEO
- Kontext ist entscheidend: Die Analyse von umgebendem Text ist essenziell, um die Relevanz von Keywords zu bestimmen.
- Fokus auf wichtige Inhalte: Der Algorithmus verarbeitet nicht die gesamte Webseite, sondern konzentriert sich auf spezifische relevante Abschnitte.
- Parallelen zu anderen Google-Systemen: Das Konzept erinnert an Googles „Centerpiece Annotation“, bei dem Google den zentralen Inhalt einer Webseite herausfiltert. Dies ist jedoch eine separate Technologie.
Vielseitigkeit des Systems
Der entwickelte Algorithmus begrenzt sich nicht nur auf die lokale Suche. Laut den Forschern lässt sich der Ansatz leicht für andere Anwendungsbereiche wie die Suche nach Experten, juristische oder medizinische Informationssysteme übertragen. Drei wichtige Lektionen können hier für zukünftige Projekte gelernt werden:
- Datenstrukturen wie Tabellen können genutzt werden, um initial eine Datenbank aufzubauen.
- Die Aufgabe als Suchproblem zu formulieren, hilft, große Datensätze effizient zu verarbeiten.
- Kontextinformationen verbessern die Qualität des Modells erheblich, ohne die Skalierbarkeit zu beeinträchtigen.
Ein erfolgreiches System
Nach über einem Jahr erfolgreicher Nutzung gilt das System als präzise, skalierbar und effizient. Das System wird regelmäßig aktualisiert, um immer aktuelle Informationen in Google Maps und Google Search bereitstellen zu können.
Wichtige Erkenntnisse zusammengefasst
- Kontextuelle Relevanz: Nahegelegte Worte eines Keywords sind entscheidend, um richtige Bedeutungen zu erkennen.
- Hohe Präzision und Skalierbarkeit: Das System zeigt, dass maschinelles Lernen erfolgreich auf große Datenmengen angewendet werden kann.
- Allgemeine Anwendbarkeit: Der Algorithmus hat Potenzial, in weiteren Bereichen wie der Medizin oder Recht erfolgreich einzusetzen zu sein.
- Effizienz: Dadurch, dass nur spezifische Satzumgebungen berücksichtigt werden, bleibt das Modell schnell und effektiv.
Dieser Forschungsansatz betont die Wichtigkeit, nicht nur auf Keywords, sondern auch deren Kontext einzugehen. Dies sollte auch für Seitenbetreiber und SEOs ein Hinweis sein, wie Seiteninhalte strukturiert werden können, um klare Botschaften an Suchmaschinen zu senden.