MarketingRadar

Wirtschaftlichkeit der Google Indexierung oder warum Crawling-Budget wichtig ist?

Analysen und Berechnungen der Praxis belegen es, es wird zunehmend wichtiger die Effizienz des Crawling- und Indexierungsmanagements im Griff zu haben und nicht dem Zufall zu überlassen. Webseiten mit wenigen URLs und vielen Rankings pro URL sparen Google’s Ressourcen beim Crawling und der Google Indexierung. Bei über 1,2 Mrd. Webseiten, sind dies einige Ressourcen die Google für die (De)Indexierung aufwänden muss. Google legt selbst fest, wie es die Seitenstruktur verarbeitet und viele Unterseiten sie pro URL crawlen. Eine der wichtigsten Metriken zur Beurteilung des Crawlings war früher der PageRank. Je höher dieser war, desto größer war auch das zur Verfügung stehende Crawling-Budget. Dieses bestimmt in welcher Frequenz die wichtigsten Seiten der Webseite gecrawlt werden und vor allem wir tief der Crawl in der Struktur (Ebenen) erfolgt. Im Grunde genommen ist wie mit finanziellem Budget – man kann nur soviel ausgeben, wie man zur Verfügung hat. Und wie dies effizient einsetzt, möchte ich Euch im folgenden Artikel näher beschreiben.

Index Bloat: Index verträgt alles!

In den Vertrieb- und Marketing-Abteilungen von Unternehmen jeder Größe ist das Denkmuster oft verankert, dass die Unternehmenswebseite am besten die ganze Palette der Produkte oder Dienstleistungen darstellen soll. Folgende Beispiele sind uns aus der Praxis bekannt:

  • eine Online Druckerei lässt mehrere Tausende Produktvarianten (matte Visitenkarten, glänzende Visitenkarten, quadratische Visitenkarten) indexieren,
  • eine Versicherung wiederholt ihre ganze Seitenstruktur für jede Vertriebsagentur,
  • ein Online Textil-Retailer lässt alle Filter-Kombinationen (rote Kleider, grüne Kleider, Sommer-Kleider, Winter-Kleider) indexieren.

Das Ergebnis ist bei allen gleich: es landen mehrere Tausende URLs im Index, dem sogenannten „index bloat“. Die gängige Überlegung, die wir mehrmals hörten, war folgende:

Wir wollen unseren Besuchern unsere ganze Palette an Produkte oder Dienstleistungen zu Verfügung stellen. Umso besser werden wir gefunden, umso mehr Interessenten werden uns finden können. Google hat Ressourcen ohne Ende und wird das alles schon verarbeiten können.

Gesagt-getan und die gesamte Warenwirtschaft landete auf der Webseite.Aber was passiert dann? Alle URLs sind für die Google Indexierung freigegeben und man freut sich auf die in Scharen kommenden Kunden – man hat ja damit jedem erdenklichen Suchenden etwas nach seinem Gusto angeboten. Nur – die Kunden kommen nicht, in jedem Fall nicht in dem bei so vielen Produkten erwarteten Maße. Man lässt Google Zeit, man wartet. Die Lage, anstatt sich zu bessern, spitzt sich zu und nach einer Weile sieht sie dann in den meisten Fällen so aus, dass die Search Console zeigt anzeigt, dass praktisch alle Produkte indexiert sind. Sie ranken aber nicht, bzw. kaum. Dass Google den überwiegenden Großteil der indexierten URLs für irrelevant, überflüssig und verzichtbar hält, ist direkt in den Suchergebnissen durch eine site-Abfrage bemerkbar. Google zeigt an, dass alle URLs indexiert sind, tatsächlich werden nur wenige URLs angezeigt (1-3 SERP-Seiten), die übrigen URLs werden unter dem Supplemental-Link versteckt:

Irrelevante Seiten werden in den Supplemental Results versteckt

Dieses Zitat sagt nichts anderes, als das irrelevante Seiten in den Supplemental Results versteckt werden. Die Online Marketing Tools, die über den Bestand der Rankings Auskunft geben sollen, ob Sistrix oder SemRush, liefern auch „böse Überraschungen“ – die Anzahl der URLs mit Rankings kann bis zu einem einstelligen Prozent-Wert von der Anzahl der indexierten URLs absinken. Das heißt, aus 100 indexierten URLs kommen für Google kaum 10 URLs als Suchergebnisse infrage, für Top-10 Suchergebnisse – noch weniger.

Google: faul, sparsam oder effizient?

Daraus folgt: Google, obwohl sicherlich in der Lage alles zu crawlen und zu indexieren, was das Web bietet. Bim ersten Blick auch willig, „mag“ Google es nicht so gerne, wenn eine Webseite auch wirklich sämtliche Dokumente und Strukturen für das Crawling und Indexierung freigibt. Die Tendenz von Google, die Relevanz einer Seite je negativer zu bewerten, desto mehr die Seite für Crawling und Indexierung freigibt, ist nicht alt und nimmt mit der Fähigkeit von Google zu, auch komplizierte, wie Javascript-basierte, Inhalte zu entdecken. Die berechtigten Fragen könnten lauten:

  • warum sollte der Seitenbetreiber sich darum kümmern, die Anzahl der zu crawlenden und zu indexierenden Seiten eigenhändig zu managen?
  • ist denn Google nicht selbst in der Lage Spreu vom Weizen zu trennen?

Wir setzen uns mit der Infrastruktur von Google, die das Crawling und die Google Indexierung gewährleistet. Mit diesem Wissen ausgestattet, finden wir Antworten auf die Fragen:

  • warum will Google weniger indexieren?
  • was sind die Bottlenecks in der Infrastruktur von Google, die das Crawling und die Indexierung gewährleistet?
  • lässt sich Google auf ein Tauschgeschäft mit uns SEOs ein und wie lohnt sich ein solches Geschäft?

Crawling, Google Indexierung, Ranking: Prozeduren auf dem Weg zur Suchergebnisseite

Wir sehen uns drei Prozeduren an: Crawling, Indexierung und Ranking. Das Ergebnis des komplizierten, ineinander verzahnten Zusammenspiels dieser Prozeduren ist die Bereitstellung einer Suchergebnisseite zu immer steigender Anzahl der Suchanfragen, deren ca. 15% jeden Tag neu sind. Wenn wir wissen, welche Schritte hierzu nötig sind, werden wir verstehen, warum Google ein lebhaftes Interesse daran hat, dass die Seitenbetreiber sich aktiv mit Crawling und Index Management befassen.

Crawling

Mit dem Crawling an sich, beschäftigt sich der Googlebot. Beim Crawling geht es nur um URLs! Googlebot ist ein Basis-Crawler – er extrahiert nur die „einfachsten“ als HTML existenten Links aus dem Quellcode der Webseiten und übergibt sie an Indexer. Googlebot rendert nichts und führt keine Javascripte aus! Dem aktuell verbreiteten Missverständnis, Googlebot würde etwas rendern oder ausführen, liegt ein Fehler in der Dokumentation von Google (veröffentlicht am 25.08.2017, immer noch aktuell) zugrunde:

Diesem Fehler ist Barry Adams von Distilled.com nachgegangen und in diesem Artikel eine verbindliche Antwort von Gary Illyes, eines der aktuellen Talking Heads von Google, zitiert, dass der Googlebot nichts rendert. Die Dokumentation blieb allerdings ohne Richtigstellung und sorgt weiterhin für Verwirrung. Der Googlebot kommt also, sammelt URLs im Quellcode, die er entsprechend der Robots-Anweisungen sammeln darf und übergibt sie an den Indexer.

Google Indexierung

Mit der Google Indexierung ist in der Infrastruktur von Google der Indexer namens Caffeine beschäftigt. Caffeine ist die Zusammensetzung der Mechanismen, die gemeinsam für Google Indexierung der Inhalte sorgen. Ein Teil von Caffeine ist Web Rendering Service (WRS), das aktuell auf dem Chrome Browser in der Version 41.0.2272.118 aus dem Jahr 2015 basiert. Zum Vergleich: der am meisten eingesetzte SEO-Crawler Screaming Frog setzt seit einiger Zeit auch auf Chrome als Rendering Engine, allerdings in der neueren Version 55.0.2883.87 (Mark Potter @ Screaming Frog auf Nachfrage). Dass Googlebot ein Chrome ist, prophezeite noch im Jahr 2011 Mike King von iPullRank. Google machte daraus ein Geheimnis, das von Ilya Grigorik, Web Performance Ingenieur bei Google, per Twitter gelüftet wurde:

WRS ist also in der Lage alles zu rendern, was ein Chrome Browser kann. WRS arbeitet eng mit dem Googlebot zusammen, indem es die z.B. durch Rendering der Javascript-basierten Inhalten neu entdeckten URLs an den Crawler übergibt. Auch die Priorisierung der Crawling Queue übernimmt der Indexer. Die Google Indexierung einer Webseite besteht aus der semantischen, inhaltlichen, strukturellen und thematischen Analyse der Inhalte, Aufbereitung (Formalisierung) der gewonnenen Information und ihre Speicherung für die Weiterverwendung beim Ranking.

Was heißt „eine Seite ist indexiert“?

„Eine Seite ist indexiert“ heißt: Google füllt für sie eine Zeile in seiner Datenbank, die beispielsweise folgende Informationen und Flags (Marker) enthalten könnte:

  • Seite darf indexiert werden: ja/nein,
  • Seite darf gecrawlt werden: ja/nein,
  • URL der Seite,
  • URL ist canonisch: ja/nein (falls nicht – abweichendes Canonical-Verweis),
  • Sprache der Seite (hreflang-Verweise auf anderer Sprachversionen),
  • Seiteninhalt aktuell (Datum),
  • Thema der Seite,
  • Seiteninhalt unique/non-unique/unique zu …%, wenn non-unique –Original-URL?
  • Relevanz zum Thema,
  • Ankommende Links,
  • Ausgehende Links,
  • Begriffe, zu denen die Seite Relevanz hat (mit dem berechneten Grad der Relevanz),
  • Validierte Web Entitäten (aus Wiki oder anderen vertrauensvollen Datenbanken), zu welchen die Seite Relevanz besitzt,
  • Assets mit semantischer Bedeutung (Bilder, Videos, integrierte Dokumente etc.),
  • Ladezeit der Seite,
  • Formalisierter Text-Inhalt der Seite,

Und so weiter, und so fort… Das passiert in etwa so bei der erstmaligen Indexierung einer Seite. Nachdem ein Index für die Seite angelegt wurde, kommen noch weitere Informationen dazu, durch wiederholte Besuche des Indexers bzw. durch Ausgabe der URL in den Suchergebnissen. Z.B.:

  • Wie oft wurde die Seite als Suchergebnis angezeigt (Search Console Metrik: Impressions),
  • zu welchen Suchabfragen,
  • an welchen Ranking-Plätzen (Search Console Metrik: Position),
  • wie oft wurde die Seite in den Suchergebnissen auch tatsächlich angeklickt (Search Console Metriken: Klicks und SERP CTR),
  • wie oft sind Besucher nach dem Anklicken der Seite in den Suchergebnissen zurück zu den Suchergebnissen gesprungen (Bounce Rate),
  • wie oft wird die Seite modifiziert (neue Inhalte).

Vielleicht diese (und bestimmt viele weitere) Informationen dienen zur Berechnung der Relevanz einer Seite zu dieser oder jener Suchabfrage bei Erstellung eines Rankings.

Crawling vs. Indexierung

Crawling und Indexierung sind zwei Prozeduren, die einander nicht bedingen – jede Prozedur kann unabhängig von der anderen ausgeführt werden:

  • Eine Seite kann gecrawlt, aber nicht indexiert werden – z.B. im Fall, wenn Google Indexierung durch noindex-Anweisung ausgeschlossen wurde.
  • Eine Seite kann auch indexiert werden, ohne gecrawlt (gelesen) zu sein. Wie das? Na z.B. wenn Googlebot eine Seite durch einen sogenannten dofollow-Link besucht, die Seite selbst ist aber durch die Robots-Anweisung disallow gegen Crawling blockiert ist. In SERP Snippet erscheint in einem solchen Fall anstatt der Seitenbeschreibung der Satz „Aufgrund der robots.txt dieser Webseite ist keine Beschreibung für dieses Ergebnis vorhanden“, wie auf dem Bild:

Die geläufige Meinung ist, dass in solchen Fällen die Seiten gar nicht gecrawlt werden. Unsere Erfahrung – Mindestens die Seiten, die von dem Indexer bereits besucht wurden, werden auch gecrawlt. So zu sagen, um zwei Mal nicht aufzustehen. Ihre Inhalte würden abgespeichert, in der Datenbank aber würde die Seite mit einem Flag „nicht crawlbar“ gekennzeichnet. Die Vermutung basiert darauf, dass Google sich einen erneuten Crawling-Besuch ersparen würde, sollte sich das Crawling Status dieser Seite ändern. Auch ist es oft der Fall, dass Google die Anweisungen seitens Webmaster für fehlerhaft hält und selbständig versucht, die Fehler zu berichtigen. Hier könnte Google die ungewöhnliche und ungünstige Konstellation „Seite darf indexiert, aber nicht gecrawlt werden“ für fehlerhaft halten, und auch deswegen, die Seite crawlen.

Google Ranking

Das Ranking ist eine rasend schnelle Prozedur, die in der Zeit zwischen einer Suchabfrage und der Anzeige der entsprechenden SERP-Seite vollständig abläuft. Um sich vorzustellen, was in der Zeit zwischen der Abgabe einer Suchabfrage und der Auslieferung der SERP-Seite mit ten blue links passiert, hier einige Zahlen:

  • Jede Suchabfrage hat im Schnitt 2.000 Kilometer vom Kunden zu den Datazentren und zurück zu hinterlegen,
  • Um eine Antwort zu bekommen muss die Suchabfrage ca. 1.000 Rechner besuchen,
  • Die ganze Reise dauert ca. 0,2 Sekunden.

In dieser Zeit

  • analysiert Google die Abfrage,
  • versteht sie,
  • wählt aus der Datenbank mit den indexierten Seiten passende Suchergebnisse,
  • berechnet ihre genauere Relevanz und eventuellen lokalen Bezug zur aktuellen Abfrage und
  • formt anhand der Berechnung eine rangierte Liste, die als SERP-Seite angezeigt wird.

Halten wir es fest:

Die Anzahl der indexierten URLs geht Google stark an die Ressourcen.

Im Maßstab einer Webseite ist das kaum wahrnehmbar – im Maßstab des Internets geht es um die gewaltigen Ressourcen: Speicherkapazität, Rechenkapazität, Rechenzeit.

Google könnte alles wissen, was Chrome darstellen kann

Seitdem wir wissen, dass Google mit einem Chrome Browser Webseiten ansieht, gibt es auch mehr Klarheit in der Hinsicht „welche URLs kann Google entdecken?“. Die Antwort auf diese Frage ist: eigentlich alle. „Alle“ heißt im SEO-Kontext z.B.:

1. URLs, die als „richtige“ HTML-Links nicht existieren,

2. URLs, die in den Formularen vorkommen, wie

<form action="/page.php" method="get"> 

3. URLs, die gar nicht verlinkt sind und als purer Text existieren, Stichwörter: Erwähnung, mention, citation

4. URLs, die nach einem onChange Event als Optionen einer Drop Down Liste abgerufen werden, wie beispielsweise im folgenden Konstrukt:

<select id="dynamic_select">
<option value="" selected>Seite</option>
<option value="https://marketingradar.de">Marketing Radar</option>
<option value="https://mediaworx.com">Mediaworx</option>
</select>

<script>
$(function(){
$('#dynamic_select').on('change', function () {
var url = $(this).val(); 
if (url) { 
window.location = url; 
}
return false;
});
});
</script>

5. URLs, die sich innerhalb beliebiger DOM-Elemente verstecken können und  nur durch Nutzer-Aktionen wie onClick besuchbar sind, wie:

<img src="https://marketingradar.de/wp-content/uploads/2018/03/marketing-radar-dark-241x64-v2.png" alt="SEO is alive!" onClick="location.href='https://marketingradar.de'">

6. URLs, die erst nach dem onLoad Event auf der Seite erscheinen bzw. erst nach dem onLoad Event mit anderen URLs ersetzt werden, wie im folgenden Beispiel, wo eine URL mit der anderen ersetzt wird, nachdem die Seite fertig geladen wurde, und sechs Sekunden vergangen sind (Zeit, die Google auf das Erscheinen der Inhalte wartet):

<script type="text/javascript">
function timeout_init() {
setTimeout('changeLinks()', 6100);
}

window.onload = timeout_init();

var _linksChanged = false;
function changeLinks() {
if(_linksChanged) return;
_linksChanged = true;
var aEls = document.getElementsByTagName('a');
for (var i = 0, aEl; aEl = aEls[i]; i++) {
aEl.href = aEl.href.replace('https://mediaworx.com','https://marketingradar.de'); 
}
}
</script>

<a href="https://mediaworx.com" target="_blank">link</a>

In diesem Beispiel wartet die Seite bis sechs Sekunden nach dem onLoad Event vorbei sind, und ersetzt eine URL mit der anderen. Verschiedene Tests, wie der Test von Milo Tischler, führen den Beobachter an den Gedanken, dass die URLs mithilfe eines mehr oder weniger komplizierten Regulären Ausdrucks entdeckt werden. Die Tatsache, dass im gerade genannten Test, Links in den technisch komplizierteren Gebilden, wie Formular und Buttons, nicht besucht wurden, könnte die RegEx-These bestätigen. Je komplizierter die Entdeckung der neuen URLs und Inhalte, desto rechenintensiver, also kostspieliger wird sie.

Für Google stellt die Entdeckung von Links, die sich in den Formularen oder Buttons verstecken, kein Problem dar. Dass sie im Test nicht besucht wurden, ist eher damit zu erklären, dass Google hinter diesen Links keine interessanten Inhalte vermutete, um den höheren Crawling-Aufwand zu leisten. Auf eine x-beliebige Seite übertragen, würde das folgendes Crawling und Google Indexierung Verhalten von Google bedeuten:

  • Der Googlebot kommt auf die Seite und versucht erst einmal alles zu crawlen und an den Indexer zu übergeben.
  • Der Indexer meldet sich dann zurück mit der Aussage, ob und wo etwas Interessantes gefunden wurde.
  • Wurden hinter Formularen, Buttons oder anderen aufwendigen Konstrukten Inhalte gefunden, die für Google von Interesse sind, werden sie weiterhin gecrawlt, unabhängig vom Aufwand.
  • War nichts Interessantes dabei – hört Google auf und crawlt nur „einfache“ Links.

Javascripte und Javascript-Frameworks: die steigende Last

Die Verbreitung der Javascripte als Frontend Technologie im Web kann man an den folgenden Screenshots beobachten:

Die Blicke auf die Screenshots aus BuiltWith über die Nutzung verschiedener Javascript Frameworks lassen zwei Verallgemeinerungen formulieren:

  • Der Einsatz populärster Frameworks nimmt zu,
  • Die allgemeine Zunahme der Javascript-gestützten Seiten ist sehr ähnlich mit der Entwicklung von JQuery-Einsätzen. So könnte man meinen – der Einsatz von Javascript im Internet ist gleich der Einsatz von JQuery.

CPU Auslastung durch Javascripte ist hoch

Die Verarbeitung der Javascripte ist aber für den Client-Prozessor eine Aufgabe mit derart hohen Last, dass auch bei der Verarbeitung von Javascripten der größten Seiten, wie spiegel.de oder youtube.com, die Prozessoren ihre Leistungsgrenze kennenlernen.

HTTP 1.1 vs. HTTP/2 – CPU Last ist in den beiden Fällen hoch

Das passiert z.B. bei der Verarbeitung der Javascripten von spiegel.de (HTTP 1.1):

Kurz vor dem Ende der ersten Sekunde der Ladezeit werden mehrere Javascripte geladen.

Und so sieht die CPU-Auslastung in dieser Zeit aus:

Ein ähnliches Bild kommt bei youtube.com (HTTP/2) vor: zwischen 0,4 und 0,6 Sekunden nach dem Anfang des Ladevorgangs werden die Javascripte geladen:

Die CPU-Auslastung sieht folgendermaßen aus:

Ein genauso deutlicher Anstieg der Auslastung. Und das ohne Abhängigkeit von Übertragungsprotokoll.

Wir müssen uns keine Sorgen darum machen, dass Google es nicht schafft, die Javascript-lastigen Webseiten zu lesen. Wir sehen aber einen der Gründe, warum die Effizienz im Crawling, Indexierung und Ranking einen höheren Wert einnimmt.

Rendering von React, Angular & Co – CPU Last bei der Verarbeitung der Javascripte ist auch hoch

Eine weitere Verkomplizierung, die Google hinnehmen muss, sind SPAs, die sogenannten single page applications, die mithilfe von Frameworks wie React erstellt werden. Zwar werden ihre Inhalte von Google erfolgreich erfasst, wie Bartosz Goralewich in seinem hervorragenden Experiment gezeigt hat. Doch die CPU-Auslastung entwickelt sich auch bei solchen Seiten nicht anders, als wir oben gesehen haben. Hier ist das Wasserfall-Diagramm einer React-basierten Seite aus dem Test von Bartosz Goralewich:

Ein weiterer Test einer Angular-basierten Webseite aus derselben Studie von Goralewich bestätigt die Tendenz:

Auch hier ist der extreme Anstieg der Prozessor-Last beim Ladevorgang der Javascripte deutlich sichtbar. Alle Tests liefen auf der einzigen vom Betreiber gemanagten Instanz von WebPageTest.org in Dulles, Virginia, um vergleichbar zu bleiben. Das Parameter CPU Utilization bezieht sich auf alle Kerne der Maschine, nach Aussage von Patrick Meenan, Betreiber von WebPageTest.org auf alle Kerne der Maschine.

Will Critchlow von Distilled.net hält fest:

It’s possible that even when rendered, JavaScript hinders search performance.

Zwischenfazit dieses Kapitels:

Die Zunahme der Javascripte als Web Frameworks steigert den Verbrauch der Ressourcen von Google verstärkt. Diese Last ist ein weiterer Grund für Google, den Aufwand, den eine Webseite für Crawling und Google Indexierung abverlangt, kritisch zu beurteilen die nötigen Ressourcen sparsam einzusetzen und wirtschaftlich zu priorisieren. Die Kurator-Rolle sieht Google jedoch beim Seitenbetreiber.

Weitere Informationen zur Funktionsweise des Googlebots

Wer sich für die Entwicklung und aktuelle Möglichkeiten des Googlebots interessiert, ist mit den folgenden Informationen gut bedient:

Crawling, Indexierung und Ranking aus der wirtschaftlicher Sicht

Technologisch gibt es für Google keine Bottlenecks, und wird immer weniger mit der Zeit. Und aus den technischen Herausforderungen, die die modernen Seiten an Crawling und Indexierung Maschinen von Google stellen, die Empfehlung abzuleiten, auf Komplexität zu verzichten, wäre ein absolut falscher Ansatz. Wie wir verdeutlicht haben, sind aktuelle und relevante Inhalte für Google immer primär, unabhängig davon, ob sie viel Ressourcen bei der Entdeckung verbrauchen.

Lässt man Google in Vorleistung treten und selbst entscheiden, was wichtig ist, schießt man ins eigene Knie …

Die Frage, die sich stellen muss, ist: braucht denn Google alles crawlen und indexieren, was crawlbar und indexierbar ist? Das wäre unserer Meinung nach der richtigere Ansatz: anstatt auf Komplexität der Seiten zu verzichten, müssen wir eher die crawlbaren und indexierbaren Inhalte so kuratieren, dass sie für Google unabhängig von der Rendering-Technologie wichtig bleiben und ihre Google Indexierung in jedem Fall lohnt. Lässt man Google in Vorleistung treten und selbst entscheiden, was wichtig ist, schießt man ins eigene Knie, indem man freiwillig eigene Relevanz absetzen lässt. Wie sieht denn der wirtschaftliche Umgang mit den Rechenkapazitäten von Google?

Wirtschaftlichkeit beim Crawling

Um das Overhead beim Crawlen zu minimieren ist es anzustreben, dass die Anzahl der gecrawlten Seiten sich der Anzahl der indexierten Seiten nähert.

Wirtschaftlichkeit im Index Management

Google könnte die Indexierung mit der höchsten Effizienz betreiben, wenn die indexierten Seiten auch ranken. Seiten, die indexiert sind, aber nicht ranken, erzeigen bei Google nur Speicher und Maintenance-Aufwände. Wie geht das?

  • Keine Doorways,
  • Kein Thin und Duplicated Content,
  • Keine Canonicals…

Eigentlich alles die SEO-Basics.

Wirtschaftlichkeit beim Ranking

Kann denn ein Webmaster auch das Ranking Management eigener Seite so betreiben, dass die Ressourcen von Google geschont werden? Klar, man sollte nur gewährleisten, dass im Index die Seiten landen, die über Substanz verfügen:

  • Viele Inhalte,
  • Evergreens, die immer weiter geschrieben werden,
  • Mehrere und immer wieder zunehmende Rankings – Shorthead, Mid- und Longtail.

Wirtschaftlichkeit von Crawling, Indexierung und Ranking in den Beispielen

Unsere These ist: Google schaut sehr wohl auf die Wirtschaftlichkeit seiner Infrastruktur. Verwendet Google eigene Rechenkapazitäten dafür, 100.000 URLs zu crawlen, aus ihnen 10.000 URLs für Google Indexierung auszuwählen, um dann nur 10 URLs für ausreichend gut zu befinden, um sie als Suchergebnisse anzuzeigen, straft Google den Seitenbetreiber für die Verschwendung der Ressourcen mit dem Verlust der Relevanz ab. Diese Abstrafung könnte, grob ausgedruckt, damit zu tun haben, dass Google einen genau bezifferbaren finanziellen Mehraufwand, ausgedrückt in kWt/h Energie und Cents, davonträgt, wenn es unnötige Arbeit verrichten muss. Folgendes Beispiel demonstriert diesen Mehraufwand:

Webseite AWebseite B
Gecrawlt100.000 URLs1.000 URLs
Indexiert1.000 URLs100 URLs
Ranking
(als Suchergebnisse ausgespielt)
80 URLs80 URLs
Crawling/Indexierung Effizienz-99%
(99.000 URLs überflüssig)
-90%
(900 URLs überflüssig)
Indexierung/Ranking Effizienz-92%
(920 URLs überflüssig)
-20%
(20 URLs überflüssig)
Ranking/Crawling Note
Verhältnis der gecrawlten URLs zu den URLs mit Rankings
0,00080,08
Ranking/Indexierung Note
Verhältnis der indexierten URLs zu den URLs mit Rankings
0,080,8

In dieser Berechnung ist der klare Gewinner die Seite B: für dieselbe Anzahl der URLs, die von Google als Suchergebnisse ausgespielt werden, verbraucht sie deutlich weniger Ressourcen von Google, sowohl prozentual, als auch in absoluten Zahlen, und dies selbständig, ohne Google selbst die Entscheidung zu überlassen. Übrigens, die Formulierung „Google Entscheidung zu überlassen“ stammt von Google selbst: Google bietet in der Search Console ein Werkzeug, um den Seitenbesitzern die Möglichkeit zu geben, aktiv den URL-Bestand, der für Crawling freigegeben wird, zu kuratieren. Eine der möglichen Aktionen ist – „dem Googlebot die Entscheidung überlassen“, in diesem Fall entscheidet Google selbst, ob URLs mit bestimmten Parametern gecrawlt werden. Es ist aber auch möglich einzustellen, dass URLs mit definierten Parametern explizit vom Crawling ausgenommen werden.

SEO-Effizienz oder Ranking-Effizienz: neue Metrik mit zunehmender Wichtigkeit

Ein weiterer Parameter, das zu beachten gilt, ist die SEO-Effizienz einer Seite: die durchschnittliche Anzahl von Keywords, für welche URLs einer Seite ranken, sowohl im Top-10, als auch im Top-100 Segment, im Verhältnis zu der Anzahl der gecrawlten und indexierten URLs. Dieser Parameter kann sowohl mithilfe von Search Console und SeoToolsForExcel, als auch mit den Daten aus Sistrix, SemRush oder ähnlichen Tools berechnet werden. Anhand dieser Daten, die aus den Suchergebnissen, Search Console, Sistrix, SemRush oder ähnlichen Tools zu entnehmen sind, kann aktuelle Effizienz einer Seite berechnet werden. Auch eignen sich solche Berechnungen, um den eigenen Platz in der Konkurrenzlandschaft zu beurteilen. Zwar lässt sich die Anzahl der gecrawlten URLs bei der Konkurrenz nicht feststellen, alle weiteren Daten samt Suchmaschinensichtbarkeit stehen zu Verfügung.

Wie sieht die Lage in der Praxis aus? Eigene Statistiken, die über mehrere Jahre und Branchen hinweg entstanden, belegen, dass ca. 90% aller Seiten eine mehr oder weniger ausgeprägte Problematik hinsichtlich Wirtschaftlichkeit von Crawling und Indexierung haben. Die Idee davon, dass Google die Effizienz will, sie belohnt, und ihr Fehlen abstraft, hatten wir noch vor Jahren. Sie findet im breiten Unternehmens- und Agentur-Alltag noch erstaunlich wenig Widerklang, obwohl der wichtigste Provider der Ranking-Daten in Deutschland, Sistrix, dieses Parameter, die SEO-Effizienz, bereits am 20.09.2016 in seine Toolbox aufnahm:

Dies bekräftigte uns darin, dass der Effizienz-Gedanke sich in der nächsten Zeit im SEO durchsetzen wird. So passiert es, wenn auch langsam: inzwischen sind auch ein Paar Anleitungen erschienen, eine davon als Gastbeitrag bei Sistrix, die sich mit der Effizienz, ihrer Bedeutung und Berechnung auseinandersetzen. Um die Praxis im Wild Web darzustellen, stellen wir zwei Vergleiche an, wo wir an den beschriebenen Effizienz-Metriken prüfen, ob die Tendenz stimmt, dass effizientere Seiten SEO-mäßig besser aufgestellt sind.

Wirtschaftlichkeit in der Praxis: SEO-Effizienz bei den Versicherungen

In diesem Vergleich haben wir Webseiten von 10 Versicherungen (je fünf klassische und fünf Direktversicherer) ausgewählt und folgende Metriken gesammelt:

  • Suchmaschinensichtbarkeit, SI,  nach Sistrix
  • Anzahl indexierter URLs, site-Abfrage
  • Anzahl Top-10 URLs,
  • Anzahl Top-10 Keywords,
  • Anzahl Top-100 URLs,
  • Anzahl Top-100 Keywords

Aus diesen Metriken haben wir jeweils drei SEO-Effizienz Metriken für die Top-10 und Top-100 Ranking-Bereiche berechnet:

Top-10 SEO-Effizienz

  • Top-10 Ranking-Effizienz: Verhältnis der Anzahl Top-10 Keywords pro Anzahl Top-10 rankender URL, Berechnung von Sistrix,
  • Top-10 Index-Effizienz: Verhältnis der Anzahl Top-10 Keywords pro Anzahl indexierter URL (site-Abfrage)

Top-100 SEO-Effizienz

  • Top-100 Ranking-Effizienz: Verhältnis der Anzahl Top-100 Keywords pro Anzahl Top-100 rankender URL, Berechnung von Sistrix,
  • Top-100 Index-Effizienz: Verhältnis der Anzahl Top-100 Keywords pro Anzahl indexierter URL (site-Abfrage)

Inwiefern die Tendenz „Je effizienter die Seite, desto besser Suchmaschinensichtbarkeit“ stimmt, haben wir durch die Berechnung der Korrelation (Excel-Funktion KORREL) zwischen der Suchmaschinensichtbarkeit und allen Effizienz-Metriken geprüft und folgende Daten kamen zusammen.

KK = Korrelationskoeffizient
SI = Suchmaschinensichtbarkeitsindex

SEO-Effizienz bei den klassischen Versicherern

HDISignal IdunaZurichKK zu SI
SI2,5771,2551,755 
Top-10
Ranking-Effizienz
(Sistrix-Berechnung)
1,70,82,40,8
Top-10 Index Effizienz0,30,10,30,7
Top-100
Ranking-Effizienz
(Sistrix-Berechnung)
166,721,20,8

Top-100
Index Effizienz

5,71,04,80,8

SEO-Effizienz bei den Direktversicherer

Sparkassen direktErgo direktHUK24KK zu SI
SI0,3687,8498,431 
Top-10
Ranking-Effizienz
(Sistrix-Berechnung)
33,37,80,8
Top-10
Index Effizienz
0,80,73,50,8
Top-100
Ranking-Effizienz
(Sistrix-Berechnung)
31,532,851,70,9
Top-100
Index Effizienz
13,89,126,60,8

SEO-Effizienz zeigt eine hohe Korrelation mit der Suchmaschinensichtbarkeit

Die Berechnung der Korrelation ergab einen hohen Zusammenhang, im Bereich von 0,7-0,9. Das heißt, die Tendenz „Je effizienter die Seite, desto besser Suchmaschinensichtbarkeit“ stimmt größtenteils. Im Einzelnen halten wir folgende Verhältnisse für wichtig:

  1. Welcher Anteil der indexierten URLs rankt in den Top-10 und Top-100 Bereichen.
  2. Je höher dieser Anteil, desto weniger Karteileichen muss Google im Index pflegen,
  3. Für wie viele Keywords aus Top-10 und Top-100 Bereichen rankt eine URL und
  4. Für wie viele Keywords aus Top-10 und Top-100 Bereichen ranken alle URLs einer Domain.

Je höher die Anzahl der Keywords und je geringer die Anzahl der URLs, desto weniger Speicherkapazitäten in der Index-Datenbank muss Google zu Verfügung stellen, und desto kürzer sind Turnaround-Zeiten bei der Auswahl der der Suchergebnisse für jeweilige Suchabfragen. Besondere Wichtigkeit dürfte für Google die Anzahl der indexierten URLs haben, die im Top-10 Bereich ranken. Der Top-10 Bereich wird mit der höchsten Rechenintensität berechnet und ausgespielt – die erste SERP-Seite muss als erste erscheinen, die weiteren SERP-Seiten können ja im Background zusammengestellt werden. Deshalb ist für Google die Effizienz der in Top-10 Bereich rankenden URLs ein wichtiger Faktor.

SEO-Wirtschaftlichkeit einer Seite auf allen Schritten durch die Google’s Infrastruktur: ein Beispiel

Wir zeigen an einem Beispiel aus unserer Praxis, wie die Gedankengänge und Optimierungsschritte auszusehen haben, wenn man mit Google ein Tauschgeschäft abschließen will, und ob bzw. wie sich dieses Geschäft mit Google rentiert.

  • Use Case: Optimierung von Crawling und Google Indexierung Management einer Online Druckerei.
  • Ausgangsbasis: ca. 2.500 indexierte URLs (Kategorien, Produkte, Produkt-Varianten etc.), ca. 15.000 gecrawlte URLs.

Dieses Use Case eignet sich sehr gut für die Demonstration: die Optimierung wurde granular angegangen, so dass wir ceteris paribus beobachten konnten, was einzelne Maßnahmen bewirken.

Gute Seiten, schlechte Seiten: Spreu von Weizen trennen

Folgendes Onion-Diagramm stellt die Seite vor der Optimierung dar:

  • Der grüne Kreis in der Mitte steht für die URLs mit Rankings,
  • Der übrige Kreis sind alle Seiten-URLs, die sowohl gecrawlt, als auch indexiert werden.

Wir sahen uns einzelne Seitentypen an und beurteilten sie nach ihrem Stellenwert für Google und die Nutzer:

Seitentyp

Gut für Google

Gut für Nutzer

Interne Suchergebnisseneinja
Tags, Paginierungen, Sortierungenneinja
Produkt-Varianten:
verschiedene Materialen, Beschaffungsarten, Verpackungseinheiten
neinja
Gar nicht bis sehr selten gesuchte Produkteneinja
Selten gesuchte Produkte
(Absprungrate hoch)
neinja
Selten gesuchte Produkte
(Nutzer-Metriken gut)
jaja
Oft gesuchte Produktejaja
Sehr oft gesuchte Produktejaja

Planung der Optimierung

Auf dieser Unterteilung basiert das strukturelle Grundprinzip der Optimierung. Innerhalb einer Webseite werden zwei Welten geschaffen:

  • SEO-Welt – Diese Welt ist klein und besteht aus Seiten, die Google sowohl als relevant, als auch als effizient betrachtet.
  • Nutzer-Welt – Das sind die Seiten, die für Nutzer ein Interesse darstellen – nicht aber für Google.

In die SEO-Welt hielten folgende Seitenarten Einzug:

  • Info-Seiten mit dem höchsten organischen Traffic und der höchsten Anzahl der Keywords pro rankende Seite,
  • Kategorien mit der höchsten Anzahl der Keywords pro rankende Seite,
  • Produkte, die am öftesten gekauft wurden,
  • Produkte, die den meisten Umsatz gebracht haben.

Nach der Optimierung sieht die Seite schematisch ungefähr so aus:

Crawling und Google Indexierung Ranking 2

Alle weiteren inhaltlichen und OffPage-Optimierungen werden so ausgerichtet, dass

  • Die Anzahl der indexierten URLs nicht ohne Grund ansteigt,
  • Die bereits indexierten URLs für weitere Keywords ranken,
  • Die bereits rankenden URLs für weitere, zusätzliche Keywords ranken.

Die Priorität liegt bei der Steigerung der Keyword-Anzahl pro rankende URL. Die weitere Entwicklung der Seite kann man schematisch so ausdrücken:

Crawling und Google Indexierung Ranking 3

Was wurde erreicht?

Während der Optimierung haben wir folgende Aufgaben erledigt:

  • Die Anzahl der gecrawlten URLs wurde so reduziert, dass sie sich an die Anzahl der indexierten URLs näherte. Der Overhead stellen nach der Optimierung nur die deindexierten aber gecrawlten Paginierungen. Sie werden gecrawlt, um Google vollständige Zusammenhänge aufzuzeigen. Nach der Optimierung werden ca. 300 URLs gecrawlt – 2% von dem herkömmlichen Wert.
  • Die Anzahl der indexierten URLs wurde so reduziert, dass im Index nur URLs bleiben, die über die höchste Effizienz hinsichtlich Rankings, Nutzer- und E-Commerce-Metriken verfügen. Nach der Optimierung werden ca. 250 URLs indexiert – 10% vom herkömmlichen Wert.

So reagierte Google auf die Optimierung. Die Reduzierung der Anzahl von indexierten URLs entwickelte sich im Zeitverlauf wie auf dem folgenden Bild:

Am 26.03. wurde mit dem URL-Abbau im Index begonnen. Zwischen 26.03. und dem Zeitpunkt, wo die Anzahl der indexierten URLs den aktuellen Stand erreichte (September-Oktober) haben sie die Rankings der Seite folgendermaßen entwickelt:

Seit dem URL-Abbau im Index wurden keine Keyword Rankings verloren:

Während im Index immer weniger URLs verblieben, teilte Google die Rankings neu um, und zwar auf die kleinere URL-Anzahl. Dadurch wurde die Ranking-Effizienz noch einmal gesteigert und von Google auch mit neuen Rankings belohnt. In der besagten Zeitspanne wurden Rankings für mehr als 650 neue Suchbegriffe gewonnen:

Ihr Gesamt-Suchvolumen beläuft sich auf mehr als 350.000 monatlichen Suchvorgänge. 10% davon liegen im Top-20 Bereich. Das Non-Brand SERP CTR stieg von 1% bis auf 2,8% an – so sieht die Entwicklung grafisch aus:

Bei der Betrachtung der Google Analytics Metriken, die im Zeitraum der Bemessung entstanden sind, wo Google unsere Index Bereinigung wahrnahm, lässt sich eine interessante Entwicklung beobachten.

Wie wir sehen, obwohl die tatsächlichen Besucherzahlen, wie die Anzahl der Sessions, neuer Sessions und neuer Besucher zurückgingen, stiegen andere Metriken an, wie die Anzahl der besuchten Seiten pro Sitzung, durchschnittliche Sitzungsdauer. Auch die E-Commerce Metriken, wie der Umsatz, Anzahl der Transaktionen sowie Konversionsrate zogen an.

Das Fazit aus dem Beispiel: quid pro quo lohnt sich

Nach der Durchführung der Index Bereinigung und Priorisierung haben wir einerseits den Abgang der Besucherzahlen sowie den Verlust einiger Keyword Rankings zu verzeichnen. Auf der anderen Seite sehen wir den Anstieg der qualitativen Metriken, der E-Commerce Metriken sowie den Zuwachs der anderen Keyword Rankings.

Unser Deal mit Google hat sich absolut gelohnt:

  • Wir haben die Kapazitäten von Google eingespart, indem wir weniger Seiten indexieren ließen, die jedoch effizienter ranken,
  • Google belohnte das mit mehr Relevanz und neuen Rankings.

Evgeniy Orlov

Evgeniy Orlov ist Senior SEO Consultant bei mediaworx berlin AG. Er hilft Unternehmen schnelle und effektive Seiten zu bauen, die von den Nutzern geliebt und von Google respektiert werden. Die Highlights in seinem Repertoire sind Indexierungsmanagement, Performance Optimierung, Data Mining sowie die Lösung außergewöhnlicher technischer Fragestellungen.

Newsletter-Anmeldung