Suchmaschinen und die Technik


Cloaking

Ein Problem bei der Optimierung von Seiten für Suchmaschinen ist, dass optimierte Seiten optisch oft nicht sehr anspruchsvoll sind. Ein guter Text sollte Wiederholungen möglichst vermeiden, für ein gutes Ranking kann aber die mehrfache Wiederholung der Stichwörter hilfreich sein. Oder es müssen aus Marketinggründen auf den Webseiten viele zusätzliche Informationen untergebracht werden, die eine Seite inhaltlich überladen und so Suchmaschinenplatzierungen kosten.

Daher setzen Suchmaschinen-Optimierer schon lange eine technische Möglichkeit ein, dem menschlichen Besucher die optisch schön gestaltete Seite zu präsentieren, während der Robot der Suchmaschinen die Seite “zu sehen” bekommt, die für ein gutes Ranking sorgt. Diese als Cloaking bezeichnete Vorgehensweise ist einfach, und auch die Umsetzung fällt nicht allzu schwer. Der Teufel aber steckt im Detail – und in der Gefahr, dass die so optimierte Website aus dem Index der Suchmaschinen gebannt wird.
Wie kann ich aber nun einer Suchmaschine andere Inhalte präsentieren als einem menschlichen Besucher? Der einfachste Weg ist die CGI-Umgebungsvariable HTTP_USER_AGENT abzufragen – darin ist der User-Agent des Clients (Browser oder Robot) gespeichert, der die Seite aufgerufen hat.

Beispiele:

Mozilla/4.0 (compatible; MSIE 5.0; Windows 95; DigExt)
Mozilla/4.6 [de]C-CCK-MCD QXW03200 (Win98; I)
Scooter/1.0
Slurp/2.0e (slurp@inktomi.com; http://www.inktomisearch.com/)

Die ersten beiden Beispiele zeigen User Agents eines Internet Explorers bzw. eines Netscape Navigators. Die Beispiele drei und vier sind User-Agents von Robots. So kann also eine angeforderte Seite erkennen, welcher Client die Anforderung abgesetzt hat. Für normale Browser liefert der Webserver die “schöne” Seite, für Robots die optimierte.
Dieser Weg ist nicht ganz perfekt – niemand garantiert Ihnen, daß die Suchmaschinen Robots ihren eigenen User-Agent bei der Abfrage der Seiten angeben. Und tatsächlich tarnen sich inzwischen Robots mit Kennungen, wie sie auch von Browsern benutzt werden. Sicherer wird es, wenn Sie zudem noch die IP-Adresse abfragen und vergleichen – allerdings müssen Sie hier immer eine aktuelle Liste von Suchmaschinen-IP-Adressen pflegen. Und auch dann ist noch nicht ganz sicher, dass Sie Suchmaschinen-Robots auch als solche erkennen können, denn um Cloaking aufzuspüren, nutzen Suchmaschinen inzwischen auch IP-Adressen von normalen Einwahlprovidern.
Sollten Sie beim Cloaking erwischt werden, wird Ihre Site komplett von der Suchmaschine, die Sie beim Tricksen erwischt hat, gelöscht werden; als Ausweg bleibt dann oft nur die Nutzung einer neuen Domain. Diese Gefahr steht in keinem Verhältnis zu den geringen Vorteilen, die Cloaking bieten kann; deshalb sollten Sie auf diese Art der “Optimierung” verzichten.

Frames

Mit Frames lassen sich mehrere HTML-Dokumente innerhalb eines Browserfensters darstellen. Frames werden oft benutzt, um das Inhaltsverzeichnis einer Site oder Werbung darzustellen. Zwar sind Frames nicht von Haus aus schlecht für die Suchmaschinen-Optimierung, aber man handelt sich mit ihnen deutlich mehr Probleme ein als wenn man von auf dieses Hilfskonstrukt verzichtet.
Für den Suchmaschineneintrag sind Frames schon lange kein Hinderungsgrund mehr. Alle Suchmaschinen sind in der Lage, die Unterseiten eines Framesets zu erkennen und auch in den Index aufzunehmen. Allerdings beginnen hier bereits die Probleme. Denn Suchmaschinen nehmen, anders als dies oft der Vorstellung der Nutzer entspricht, nicht Webseiten auf, sondern URLs. Im Falle von Frames gibt es nun eine URL, die auf den Frameset verweist und mit dem Inhalt dieser Framesetseite aufgenommen wird. Doch hat ein Frameset gar keinen Inhalt, der aufgenommen werden könnte, sondern nur “Links” auf die Unterseiten. Entsprechend wenig aussagekräftig sehen solche Ergebnisse dann in Suchmaschinen aus.

Dabei gibt es durchaus Möglichkeiten, auch in der Frameset-Datei Inhalte unterzubringen: Dazu bietet sich der title-Tag ebenso an wie der noframes-Tag. Wenn Sie in diesen beiden Bereichen sinnvolle Inhalte angeben, haben Sie bereit eine wesentliche Frames-Klippe umschifft.

Es gibt aber noch eine weitere Falle. Was passiert, wenn eine Unterseite eines Framesets über Suchmaschinen gefunden wird? Dann klickt der Nutzer auf den Treffer in der Ergebnisliste der Suchmaschine und kommt unmittelbar auf die Unterseite – aber ohne Navigations- oder Titelframe. Wenn Sie Pech haben, sieht Ihr Besucher so zwar den Inhalt Ihrer Seite, aber keine Navigationselemente und er weiß nicht, wo er hier gelandet ist. Deshalb müssen Sie unbedingt auf jeder Unterseite eines Framesets Links zur Homepage und, wenn möglich, zu den wichtigsten Rubriken angeben. Denn so kann auch ein verirrter Quereinsteiger Ihre Frame-bestückte Website sinnvoll nutzen.
Für Quereinsteiger erbringt übrigens JavaScript nützliche Dienste. Wenn Sie auf jede HTML-Seite, die innerhalb eines Framesets dargestellt werden soll, das folgende kleine Script stellen, so wird beim Aufruf der Unterseite das Frameset nachgeladen:
Da aber nicht alle Nutzer in ihren Browsern JavaScript einschalten, sollten Sie trotz dieses Scripts meinen obigen Rat mit den wichtigsten Links auf jeder Unterseite beherzigen.

JavaScript-Weiterleitungen

Um den Inhalt dieses Artikels besser verstehen zu können, sollten Sie bereits grundlegende Kenntisse über HTTP-Weiterleitungen und JavaScript besitzen.
Der Einsatz von JavaScript zur Darstellung von Inhalten auf einer Webseite führt dazu, dass diese Inhalte für Suchmaschinen unsichtbar bleiben. In den meisten Fällen ist das nicht erwünscht, denn Suchmaschinen sollen ja möglichst viele Informationen aufnehmen, damit die zu optimierende Website gut gefunden wird.
Es gibt allerdings auch Einsatzzwecke, für die man die JavaScript-Blindheit der Suchmaschinen gezielt ausnutzt. Dies gilt vor allem beim Einsatz von Weiterleitungen auf speziell für Suchmaschinen optimierten Webseiten, den sogenannten Doorway-Pages. Eine Suchmaschine erkennt in einem solchen Fall die Weiterleitung nicht und nimmt den Inhalt der Doorway-Page auf; ein üblicher Browser (mit aktiviertem JavaScript) bemerkt die Weiterleitung und führt sie aus – und den menschlichen Betrachter sofort weiter auf die beworbene Webseite.

Realisierung einer JavaScript-Weiterleitung

JavaScript-Weiterleitungen können auf verschiedene Arten ausgeführt werden:

  1. location.href = ‘/neue-seite.htm’;
    Mit dieser Vorgehensweise wird dem Objekt location.href ein neuer Inhalt, im obigen Beispiel ‘/neue-seite.htm’ zugewiesen. Diese Zuweisung führt dazu, dass der Browser diese neue Adresse lädt und darstellt.
  2. location.replace(‘/neue-seite.htm’);
    Weist den Browser an, die aktuelle Seite durch die angegebene neue Adresse zu ersetzen. Der wesentliche Unterschied zur obigen Methode ist, dass die URL der Adresse, auf der sich diese Weiterleitung befindet, dabei aus der Browser-History gelöscht wird. Damit funktioniert der Zurück-Knopf im Browser wie bei einem normalen Link.

An dieser Stelle sei ein wichtiger Hinweis angebracht: Suchmaschinen versuchen zunehmend JavaScript-Weiterleitungen zu erkennen. Sie sollten also diese Weiterleitungen auf keinen Fall für unsaubere Zwecke, sprich für Spamming, einsetzen.

robots.txt

Nicht immer sollen alle Bereiche einer Website von Suchmaschinen durchsucht werden können. Verzeichnisse mit Logfiles oder anderen halb-geheimen Dateien sollten nicht unbedingt in den Datenbanken der Suchmaschinen auftauchen. Um dies gewährleisten zu können, wurde der Robots Exclusion Standard vereinbart, an den sich die meisten Robots auch halten. Im übrigen wird er auch von vielen der “hausgemachten” Crawler beachtet, da die üblichen Libraries (etwa die Perl LWP Bibliothek), mit denen Robots sehr einfach zu schreiben sind, diesen Standard von sich aus berücksichtigen.
Entsprechend dem Robots Exclusion Standard liest ein Robot beim Besuch einer neuen Website (genauer: eines neuen Hosts) zunächst die Datei robots.txt im obersten Verzeichnis Ihres Webservers ein: http://www.ihredomain.de/robots.txt
Diese Datei ist eine einfache Textdatei, die zeilenweise aufgebaut ist. Hier sehen Sie ein

Beispiel:

# /robots.txt file for http://webcrawler.com/
# mail webmaster@webcrawler.com for constructive criticism
User-agent: webcrawler
Disallow:
User-agent: lycra
User-agent: omega
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs

Die Zeilen mit einem # am Beginn stellen Kommentare dar. Mit User-Agent sprechen Sie bestimmte Robots mit Ihrem Namen an. Es reicht dabei aus, einen Teilstring des tatsächlichen User-Agents des gewünschten Robots anzugeben; Groß/Kleinschreibung wird nicht berücksichtigt. Es können ein oder mehrere User-Agent-Einträge untereinander stehen.

Mit dem folgenden Disallow wird diesem Robot mitgeteilt, welche Bereiche tabu sind. Dabei werden alle URLs auf diesem Server ausgeschlossen, die mit den hinter Disallow angegebenen Zeichen beginnen. Im obigen Beispiel ist für den Robot webcrawler nichts verboten, also kann er die ganze Site indexieren. Für die Robots lycra und omega hingegen sind alle URLs gesperrt, die mit “/” beginnen – also die komplette Site. Der User-Agent * schließlich spricht alle bisher noch nicht genannten Robots an und verbietet diesen die Ordner /tmp und /logs mit allen Unterordnern. Eine Notierung der Art /tmp/* ist übrigens nicht zulässig. Eine Disallow-Angabe gilt immer für den zuletzt angegebenen User-Agent.

Wollen Sie allen Robots den Zugang zu Ihrer kompletten Site gewähren, so benötigen Sie keine robots.txt-Datei. Allerdings führt dies bei jedem Robot-Besuch zu einem 404-Fehler in Ihren Logfiles. Wenn Sie das stört, stellen Sie einfach eine leere robots.txt Datei auf Ihren Webserver.

Bitte beachten Sie, dass der Robots Exclusion Standard lediglich eine unverbindliche Empfehlung ist. Ein Robot muss sich nicht unbedingt daran halten. Die robots.txt-Datei bietet keinerlei Schutz für geheime Daten! Sie sollten also nicht auf die Idee kommen, eine Datei mit Passwörtern auf Ihren Webserver zu legen und das entsprechende Verzeichnis per robots.txt zu “schützen”.
Scriptsprachen (ASP, PHP, JSP) und Suchmaschinen
Anders als bei Javascript wird bei dynamischen Seiten mit ASP, PHP, JavaServlets, JSP oder ServerSideIncludes (SSI) der Programmcode vom Webserver ausgeführt – der Client, egal ob Browser oder Suchmaschinen-Robot, erhält gewöhnlichen HTML-Code ohne Programmanweisungen zurückgeliefert.

Während manche Suchmaschinen in den Anfangstagen des Web – wir sprechen also von den neunziger Jahren – nur Seiten aufnahmen, die auf .htm oder .html endeten, ist die Endung heute bei allen wichtigen Suchmaschinen bedeutungslos. Nun gut, Sie sollten Ihren HTML-Seiten nicht unbedingt Endungen geben, die typischerweise für Bilder (.jpg, .gif oder .png) oder ausführbare Dateien (.exe) verwendet werden; aber an Dateinamen, die auf .php oder .aspx enden, stößt sich heute keine wichtige Suchmaschine mehr.
Schwieriger aber wird es, wenn man wirklich dynamische Seiten einsetzen will – Seiten also, die ihre Inhalte aus einer Datenbank extrahieren. Denn Suchmaschinen sind oftmals recht zurückhaltend, wenn es darum geht URLs mit einem Fragezeichen aufzunehmen.
Die Angst ist verständlich, man stelle sich nur folgendes Szenario vor: Der Robot einer Suchmaschine findet einen Link, der auf eine Suchmaschine verweist und dort eine Suche auslöst. (ein fiktives Beispiel:

http://www.suchmaschine.com/search.cgi?search=computer) Würde der Robot diesem Link folgen, kommt er auf die erste Ergebnisseite der Suchmaschine und liest diese Datenbank-generierte Seite ein. Auf dieser Seite finden sich dann wiederum Links zu den nächsten zehn Ergebnisse, die er wiederum verfolgen würde. Auf diese Weise würde der Robot zigtausende Seiten der Datenbank auslesen, ein Vorgehen, das offensichtlich wenig Sinn ergibt.

PHP und Co. übergangen
Es gibt aber Websites, deren kompletter Inhalt in einer Datenbank abgelegt ist. Man denke nur an ein Online-Magazin, das alle Artikel in einer Datenbank speichert und keine statischen Seiten hat. Online-Shops und Blogs sind weitere Beispiele für Websites, die meistens aus einer Datenbank gespeist werden.

Der Königsweg, um solche Seiten problemlos in die Suchmaschinen zu bekommen, ist relativ einfach: Überlegen Sie sich ein statisches Adressformat, das keine Fragezeichen enthält, sondern die hinter dem Fragezeichen übergebenen Parameter im Dateinamen “versteckt”. Sollte also die Adresse Ihrer Website in etwa so lauten: /show.php?id=1234&cat=3, dann könnte ein mögliches statisches Adressformat diese Form haben: /artikel_1234_3.htm.
Noch haben Sie nichts gewonnen, denn es ist nur selten sinnvoll, für alle möglichen Werte von id und cat die entsprechenden Dateien tatsächlich auf dem Webserver abzulegen. Denn bei jeder Änderung an einem Artikel in der Datenbank müssten Sie dafür sorgen, dass die statischen Dateien ebenfalls aktualisiert werden. Wenn Sie aber das Modul mod_rewrite benutzen, nimmt Ihnen der Webserver (zumindest, falls Sie Apache benutzen) die ganze Arbeit ab. Wie das geht, ist im verlinkten Lexikon-Artikel erklärt.

Nun müssen Sie nur noch dafür sorgen, dass alle Links auf die neue Version der Art artikel_123_3.htm verweisen und das lästige Fragezeichen-Problem ist für Sie gelöst.
Weiterleitung per Meta-Refresh-Tag
Weiterleitungen werden üblicherweise per HTTP gesteuert. Da aber der Autor einer Webseite nicht immer Zugriff auf die Serverkonfiguration hat, gibt es eine HTML-Anweisung, die trotzdem eine Weiterleitung möglich macht.
Der Code für diesen sogenannten Meta-Refresh-Tag sieht so aus und ist im -Bereich der HTML-Seite anzugeben:
Die Zahl vor dem Strichpunkt gibt an, wie viele Sekunden der Browser nach dem Laden einer Seite warten soll, bis er die neue URL lädt, bis er also die Weiterleitung ausführt. Diese Art der Weiterleitung wird von Suchmaschinen heute problemlos erkannt. Eine Seite, auf der eine solche Weiterleitung angegeben ist, wird nur dann aufgenommen, wenn die Wartezeit bei mindestens fünf bis zehn Sekunden liegt.
Falls Sie Zugriff auf die Webserverkonfiguration haben, sollten Sie statt des Meta-Refresh-Tags eine “richtige” HTTP-Weiterleitung einsetzen. Diese erfüllen den gleichen Zweck und entsprechen der HTTP-Definition.

Weiterleitungen

Weiterleitungen sind eine praktische Einrichtung, etwa wenn sich die Struktur einer Website ändert und so neue Ordner- und/oder Dateinamen fällig werden. Wobei sich ändernde URLs recht nervig sein können – und weder Ihre Nutzer noch Suchmaschinen wirklich erfreuen.

Der Web-”Erfinder” Tim Berners-Lee hat diese Thematik bereits 1998 in einem wunderschönen Artikel mit dem noch schöneren Titel Cool URIs don’t change dargelegt. Theoretisch, so sagt Berners-Lee, gibt es keinen Grund, dass sich die URLs eines Dokuments ändern muss. Denn der Eigentümer einer Domain kann unterhalb seiner Domain den Namensraum (also die Order- und Dateinamen) beliebig festlegen und nutzen. Typische Gründe, die für einen URL-Wechsel angegeben werden, sind fast immer Gründe, die Berners-Lee zufolge leicht umgangen werden können. Oder hätten vermieden werden können, wenn der Webmaster zu Beginn etwas Verstand in die Struktur seiner URLs gesteckt hätte. (siehe auch: URI vs. URL.)
Da Sie hier immer noch lesen, gehören Sie wohl zur Mehrheit der Webmaster, die hin und wieder uncoole URLs verwenden und um Weiterleitungen nicht rumkommen. (Oder Sie möchten Weiterleitungen zum Zwecke der Suchmaschinen-Optimierung einsetzen, dann sind Sie hier natürlich auch richtig.)

Es gibt prinzipiell zwei Arten von Weiterleitungen:

  1. HTTP-Weiterleitungen
    Das sind Weiterleitungen, die im HTTP-Protokoll definiert wurden und somit von jedem HTTP-Client (egal ob ein moderner Browser oder ein Suchmaschinen-Robot) verstanden werden. Diese Art von Weiterleitungen werden manchmal auch Server-Weiterleitungen genannt, da sie durch einen Header in der Antwort des Webservers gesteuert werden.
  2. Client-Weiterleitungen
    Diese Art der Weiterleitung funktioniert nur, wenn der Client in der Lage ist, die Weiterleitungsanweisung zu interpretieren. Da es sich dabei nicht um eine Eigenschaft handelt, die im HTTP-Protokoll definiert wurde, führen auch nicht alle Clients diese Weiterleitung aus. So fallen etwa JavaScript-Weiterleitungen in diese Kategorie; solche Weiterleitungen führt ein Client nur dann aus, wenn er JavaScript interpretieren kann – und wenn die JavaScript-Funktionalität auch eingeschaltet ist.

HTTP-Weiterleitungen richtig einsetzen

An dieser Stelle soll der Blick auf HTTP-Weiterleitungen gerichtet werden. Zu den beiden wichtigsten Arten der Client-Weiterleitung sei auf die entsprechenden Artikel verwiesen: JavaScript-Weiterleitungen und Weiterleitung per Meta-Refresh-Tag.

Wenn Sie also Weiterleitungen zu sinnvollen Zwecken, etwa nach einem Website-Relaunch, einsetzen möchten, so sind HTTP-Weiterleitungen der korrekte Weg. Da diese Weiterleitungen von jedem HTTP-fähigen Client erkannt werden, sind natürlich auch Suchmaschinen-Crawler in der Lage, solche Weiterleitungen zu erkennen. Haben Sie also die Pfade in Ihrer Website neu organisiert, so sollten Sie von den alten Adressen, die in vielen Suchmaschinen noch verzeichnet sind und manchmal auch von fremden Websites verlinkt sind, eine Weiterleitung auf die neue, nun korrekte Adresse setzen. Das hilft Ihnen, keine Nutzer zu verlieren und signalisiert gleichzeitig den Suchmaschinen, dass sich die URL der Webseite geändert hat. Damit wird in den meisten Fällen die neue Adresse nicht nur schneller aufgenommen, sondern Suchmaschinen berücksichtigen auch die Links, die auf die alte URL zeigen, für die Bewertung der neuen Adresse.

301 oder 302

Allerdings kommt es hier auf ein kleines Detail an. Es gibt zwei verschiedene Arten der HTTP-Weiterleitung, die sich im übergebenen Statuscode unterscheiden. Während der Code 301 für Moved Permanently steht, bedeutet 302 Moved Temporarily. 301 signalisert also dem Client, dass die angeforderte URL veraltet ist und künftig immer die neue angefordert werden soll; 302 hingegen heißt, dass die alte URL durchaus weiterhin gültig ist und nur derzeit die gewünschte Webseite unter einer anderen Adresse aufgefunden werden kann.

Während für einen menschlichen Nutzer diese Unterscheidung nicht so bedeutend ist, kann sie für die Auffindbarkeit einer Website in Suchmaschinen entscheidend sein. Denn Suchmaschinen nutzen diesen Statuscode um zu ermitteln, ob die weiterleitende URL im Datenbestand verbleiben soll oder dort gelöscht wird. Ein Code 302 sagt nun der Suchmaschine: “Lass’ die Adresse bitte in deiner Datenbank, denn sie wird irgendwann wieder benutzt werden.” Das führt nun aber dazu, dass die Suchmaschine die alte und die neue Adresse parallel weiterführt – und somit zwei URLs mit demselben Inhalt enthält. Diese Art der Spiegelung, im Fachjargon duplicate content genannt, kann sogar zum Ausschluss aus dem Google-Index führen. Sie sollten deshalb bei Änderungen an Ihrer Website, die Weiterleitungen erfordern, diese Weiterleitungen mit dem Statuscode 301 ausführen.

Wie aber lassen sich Weiterleitungen einfach realisieren? Das hängt in erster Linie vom eingesetzten Webserver und dessen Konfiguration ab. Wenn Sie einen Apache in der üblichen Konfiguration nutzen, und die Marktanteile besagen, dass Sie das mit ziemlicher Wahrscheinlichkeit tun, lässt sich eine Weiterleitung am einfachsten über eine .htaccess-Datei erledigen. Diese Dateien ermöglichen Konfigurationseinstellungen für einzelne Domains oder gar nur einzelne Unterordner vorzunehmen und können sehr einfach für Weiterleitungen eingesetzt werden. Hier sehen Sie ein Beispiel:

Redirect 301 /aktuelles/ http://www.suchmaschinentricks.de/aktuelles/news/

Wichtig ist, dass das Weiterleitungsziel als absolute URL mit führendem http:// anzugeben ist. Viele Clients akzeptieren zwar auch eine relative URL als Zielangabe, allerdings entspricht dies nicht der HTTP-Definition.

Wenn Sie Ihre Weiterleitung auf diese Art ausführen, sollte Google schnell bemerken, dass Sie Ihre Website umgebaut haben und die neuen Adressen in seine Datenbank aufnehmen.

Quelle: suchmaschinentricks.de

Tags: , , ,

Google kann mehr…


Rechtschreibung

Wenn die Rechtschreibprüfung bei einer Anfrage einen möglichen Rechtschreibfehler erkennt, wird bei Suchen in US-Englisch ein einzelner Vorschlag zur Schreibweise zurückgegeben. Bei der Rechtschreibprüfung wird der Kontext berücksichtigt.

Großschreibung

Bei Google-Suchen wird keine Groß- und Kleinschreibung berücksichtigt. Alle Buchstaben werden unabhängig von Ihrem Eintrag als kleingeschrieben interpretiert. Für die Suchanfragen “konrad adenauer”, “Konrad Adenauer” und “Konrad adenauer” werden beispielsweise dieselben Ergebnisse zurückgegeben.

Häufig verwendete Begriffe

Google ignoriert häufig benutzte Wörter, wie “wo” und “wie” sowie bestimmte einzelne Zahlen und einzelne Buchstaben, da diese Ihre Suche verlangsamen, ohne die Ergebnisse zu verbessern. Google gibt an, dass ein häufig verwendetes Wort ausgeschlossen wurde, indem Details auf der Ergebnisseite angezeigt werden.
Wenn ein häufig verwendetes Wort hinsichtlich der gesuchten Ergebnisse wichtig ist, kann es eingeschlossen werden, indem ihm ein Pluszeichen (“+”) vorangestellt wird. Geben Sie vor dem Pluszeichen “+” ein Leerzeichen ein, aber nicht danach.

Nach Datum sortieren

Suchergebnisse werden standardmäßig nach Relevanz sortiert, wobei das relevanteste Ergebnis oben auf der Seite angezeigt wird. Wenn Sie die Dokumente stattdessen nach Datum ordnen möchten, klicken Sie auf den Link “Nach Datum sortieren”. Das aktuellste Dokument erscheint oben auf der Seite. In den Ergebnissen wird das Datum jeder Datei zurückgegeben. Ergebnisse, für die keine Datumsangaben vorhanden sind, werden am Ende nach Relevanz sortiert angezeigt.

Zahlen

Verwenden Sie bei der Suche nach Zahlen weder exponentielle Zahlen, wie “1e10,” noch negative Ganzzahlen, wie “-12.” Durch Kommas getrennte Zahlen werden als separate Zahlen, nicht als Bruchzahlen gehandhabt. Das heißt, das Komma wird als Trennzeichen, nicht als Dezimaltrennzeichen angesehen. Beispiel: Falls Sie “3,75″ eingeben, werden zwei separate Suchanfragen durchgeführt, eine nach “3″ und eine nach “75″, also nicht nach dem Dezimalbruch, “drei und dreiviertel.” Kommas, die nach jeder dritten Ziffer als Trennzeichen vorkommen, werden ignoriert und sind nicht erforderlich. Beispiel: “10,000″ und “10000″ werden gleichermaßen behandelt.

Erweitern der Suche

Sie können die Suche mithilfe des OR-Operators erweitern. Wenn Sie nach Seiten suchen, die entweder Wort A oder Wort B enthalten, setzen Sie zwischen die Begriffe ein groß geschriebenes OR.

Verfeinern der Suche

Da Google nur Webseiten zurückgibt, die alle Wörter Ihrer Suchanfrage enthalten, kann die Suche ganz einfach durch das Hinzufügen weiterer Wörter zu den bereits eingegebenen Suchbegriffen verfeinert werden. Die verfeinerte Suchanfrage gibt einen Teil der Seiten aus, die bereits bei der ursprünglichen umfassenderen Anfrage zurückgegeben wurden. Wenn dabei nicht die gewünschten Ergebnisse erzielt werden, können Sie versuchen, Wörter auszuschließen, nach Wortgruppen zu suchen oder die Suche auf einen Zahlenbereich zu beschränken. Diese Verfahren werden in den folgenden Teilabschnitten beschrieben.

Ausschließen eines Worts

Wenn der Suchbegriff mehr als eine Bedeutung aufweist, können Sie die Suche durch Hinzufügen eines Minuszeichens (“-”) vor Wörtern konzentrieren, die mit der zu vermeidenden Bedeutung im Zusammenhang stehen. Stellen Sie sicher, dass vor dem Minuszeichen ein Leerzeichen steht. Sie können eine Liste von Wörtern verketten, die Sie ausschließen möchten.

Wortgruppensuche

Wortgruppensuchen sind dann nützlich, wenn Sie nach Zitaten oder bestimmten Namen suchen. Sie können nach einem exakten Ausdruck oder Namen folgendermaßen suchen:

Setzen Sie den Ausdruck in Anführungszeichen. Google gibt in diesem Fall nur Dokumente zurück, die die exakte eingegebene Wortgruppe enthalten.

Verwenden Sie Wortgruppenverbindungen – z. B. Bindestriche, Schrägstriche, Punkte, Gleichheitszeichen und Apostrophzeichen – zwischen den einzelnen Wörtern der Suchanfrage.

Wortgruppenverbindungen und Anführungszeichen verbinden die Suchbegriffe zu einer einzigen Einheit. Beispiel: Wenn Sie folgende Anfrage eingeben, behandelt Google diese als Wortgruppensuche, obwohl die Suchbegriffe nicht in Anführungszeichen eingeschlossen sind.

Bereichssuchen

Sie können die Suchanfrage in einem gewissen Bereich abgrenzen. Sie können Bereiche für Daten, Gewichte, Preise, Meta-Tags usw. festlegen. In den folgenden Teilabschnitten werden Möglichkeiten beschrieben, wie die Suche mithilfe von Bereichen verfeinert wird.

Zahlenbereiche

Falls Sie nach Dokumenten oder Artikeln suchen möchten, die Zahlen in einem bestimmten Bereich enthalten, geben Sie den Suchbegriff und den Zahlenbereich (getrennt durch zwei Punkte “..”) ein. Sie können Bereiche für Gewichte (“250..500 g Kohlenschippe”), Abmessungen (“90..100 mm Stiel”), Jahre (“Tour de France 2000..2006″), Preise (nur in Dollarwährungen, “Fahrradbeleuchtung $10..$30″) usw. festlegen. Geben Sie eine Maßeinheit oder einen beliebigen anderen Indikator für den Zahlenbereich an. Jede Zahl im Bereich sollte nicht mehr als sechs wichtige Ziffern umfassen. Beispiel: Falls Sie die Suchanfrage “1..1234567-Tonnen-LKW” eingeben, werden nur die sechs wichtigen Ziffern von “1234567″ in die Bereichssuche aufgenommen, als ob Sie nur “1..1234560-Tonnen-LKW” eingegeben hätten.

Datumsbereiche

Sie können nach Dokumenten suchen, die Daten innerhalb eines Zeitfensters enthalten. Geben Sie zur Verwendung der Datumsbereichssuche Folgendes ein:

Der Suchbegriff

Der Datumsbereichsoperator

Das Startdatum

Das Trennzeichen (zwei Punkte bei Verwendung des Formats JJJJ-MM-TT oder ein Bindestrich bei Verwendung des julianischen Formats)

Das Enddatum

Fügen Sie kein Leerzeichen zwischen dem Suchoperator und dem Datumsbereich ein. Das Datum kann folgende Formate aufweisen:

Das Format JJJJ-MM-TT (ISO 8601). Datumsbereiche in diesem Format müssen mit zwei Punkten (“..”) getrennt werden.

Das julianische Format Das julianische Datum wird nach der Anzahl der Tage seit dem 1. Januar 4713 v. Chr. berechnet. Beispiel: Das julianische Datum für den 1. August 2001 lautet 2452122. Datumsbereiche in diesem Format müssen mit einem Bindestrich (“-”) getrennt werden.

Das früheste Datum, das bei der Datumssuche verwendet werden kann, ist der 1. Januar 1990 und das letzte Datum der 9. November 2034.

Metadaten- und Meta-Tag-Bereiche

Sie können nur nach Dokumenten mit Metadaten oder Meta-Tags suchen, die Zahlen im angegebenen Bereich enthalten. Geben Sie zur Verwendung der Metadatenbereichssuche Folgendes ein:

Der Suchbegriff

Der inmeta:-Operator

Der Name der Metadaten oder des Meta-Tags

Der mit zwei Punkten (“..”) getrennte Zahlenbereich

Für eine korrekte Datumsbereichsuche mit inmeta muss der Meta-Tag-Content nur das Datum, keine weiteren Daten, enthalten. Beispiel: Ihre Dokumente verfügen über Metadaten mit der Bezeichnung “geändert”, die Informationen über die letzten geänderten Daten der Dokumente enthalten. Sie können den inmeta-Operator über das reine Suchen nach Dokumenten mit Metadaten, die einen Datums- oder Zahlenbereich umfassen, hinaus verwenden.

Quelle: google.uni-koeln.de

Tags: , ,

Erweiterte Google-Suche

unterstützt mehrere erweiterte Operatoren, bei denen es sich um Suchbegriffe handelt, die Ihre Suche auf einen kleineren Satz Dokumente beschränken. Wenn Sie Ihre Suchanfrage eingeben, fügen Sie zwischen Suchoperator und Suchbegriffen kein Leerzeichen ein.

allinanchor:

Beschränkt die Suche auf Seiten, die alle Suchbegriffe im Ankertext der Seite enthalten.
Bei einem Anker handelt es sich um eine Markierung, die in einem bestimmten Abschnitt einer Seite eingefügt wird. Dadurch kann der Autor des Dokuments Links zu diesen Ankern erstellen, die den Leser schnell zum angegebenen Abschnitt führen. Das Inhaltsverzeichnis am Anfang des Dokuments verwendet z.B. Hyperlinks zu Ankern, die in dieses Dokument eingebettet sind. Fügen Sie keine anderen Suchoperatoren zusätzlich zum allinanchor:-Operator ein

Beispiel:
Geben Sie allinanchor:billige bücher in das Suchfeld ein, werden nur Seiten zurückgegeben, bei denen im Ankertext die Begriffe “billige” und “bücher” enthalten sind.

allintext:

Beschränkt die Suche auf Dokumente, deren Textbereich die Suchbegriffe enthält. Bei dieser Art der Suche sucht Google in Metadaten, Titeln und Ankern nicht nach den Suchbegriffen. Siehe auch intext: suche operator.
Geben Sie allintext: google suche in das Suchfeld ein, werden nur Dokumente zurückgegeben, in deren Textbereich sowohl “google” als auch “suche” vorkommt. allintitle: Beschränkt die Suche auf Dokumente, deren HTML-Titel alle Suchbegriffe enthält. Siehe auch intitle: suche operator.

Beispiel:
Geben Sie allintitle: google suche in das Suchfeld ein, werden nur Dokumente zurückgegeben, in deren HTML-Titel sowohl “google” als auch “suche” vorkommt.

allinurl:

Beschränkt die Suche auf Dokumente, deren URL alle Suchbegriffe enthält. Für den Suchoperator ist es weder erforderlich, dass die Suchbegriffe im Dokument nebeneinander stehen, noch dass die Wörter im Dokument in einer bestimmten Reihenfolge erscheinen. Der Suchoperator funktioniert zwar bei Begriffen in der URL, nicht aber bei URL-Komponenten (z. B. Zeichensetzung). Schrägstriche (“/”) werden beispielsweise ignoriert. Siehe auch inurl: suche operator.

Beispiel:
Geben Sie allinurl: google suche in das Suchfeld ein, werden nur Dokumente zurückgegeben, in deren URL sowohl “google” als auch “suche” vorkommt. Geben Sie allinurl:google/suche in das Suchfeld ein, werden dieselben Dokumente zurückgegeben wie im vorangegangenen Beispiel. Der Schrägstrich im Suchbegriff wird vollständig ignoriert.

cache:

Die Suchmaschine speichert den Text zahlreicher gecrawlter Dokumente zwecks Verfügbarkeit in einem gesicherten Format, genannt “Cache”. Eine Cache-Version einer Webseite kann abgerufen werden, wenn die Originalseite nicht verfügbar ist, z. B. wenn der Server der betreffenden Seite ausgefallen ist. Die Cache-Seite wird genau so angezeigt, wie sie dargestellt wurde, als der Crawler sie zum letzten Mal gecrawlt hat. Sie enthält jedoch (im oberen Bereich der Seite) eine Meldung, in der darauf hingewiesen wird, dass es sich um die Cache-Version der betreffenden Seite handelt. Nehmen Sie zusätzlich zu der Webadresse in Ihrer Anfrage Suchbegriffe auf, werden diese Suchbegriffe innerhalb des im Cache gespeicherten Dokuments markiert.

Beispiel:
Geben Sie cache:www.google.de in das Suchfeld ein, wird die gecachte Version der Google-Startseite zurückgegeben. Geben Sie cache:www.google.de presseveröffentlichung in das Suchfeld ein, wird der gecachte Content mit den Wörtern “Presse” und “Veröffentlichungen” markiert.

filetype:

Beschränkt die Suche auf bestimmte Dateitypen (z. B. Excel-Tabellenkalkulationen, PDF-Dateien oder Word-Dokumente). Geben Sie den Operator filetype: mit der Dateierweiterung ein.     Geben Sie autos filetype:pdf in das Suchfeld ein, werden nur PDF-Dateien über Autos zurückgegeben.
info:

Gibt die folgenden Informationen für die betreffende URL zurück:

Der Cache der Seite

Der Seite ähnelnde Websites

Webseiten, die über Hyperlinks zur Seite verfügen

Auf dieser Seite verknüpfte Webseiten

Webseiten, die im Textbereich die URL enthalten

Beispiel:
Geben Sie info:www.google.de in das Suchfeld ein, werden die folgenden Informationen über die Google-Startseite zurückgegeben.

Der Cache von www.google.de

www.google.de ähnelnde Websites

Mit www.google.de verknüpfte Webseiten

In www.google.de verknüpfte Webseiten

Webseiten, die im Textbereich die Adresse www.google.de enthalten

intext:

Beschränkt die Suche auf Dokumente, die den Suchbegriff im Textbereich der Dokumente enthalten. Wenn Sie intext: vor jedem Wort in Ihrer Anfrage einfügen, erzielen Sie dasselbe Ergebnis wie mit allintext: vor der gesamten Anfrage.

Beispiel:
Geben Sie intext:google ein, werden Dokumente zurückgegeben, in denen der Begriff “google” im Textbereich erwähnt wird. Wenn bei einem Dokument der Begriff “google” zwar im HTML-Titel aber nicht im Textbereich enthalten ist, wird das Dokument nicht in den Suchergebnissen angezeigt. Wenn Sie intext:google suche eingeben, werden Dokumente zurückgegeben, in denen der Begriff “google” im Textbereich und der Begriff “suche” im Textbereich, Titel, Anker oder an einer anderen Stelle im Dokument erwähnt wird. Wenn Sie intext:google intext:suche in das Suchfeld eingeben, wird dasselbe Ergebnis wie bei Eingabe von allintext:google suche erzielt.

intitle:

Beschränkt die Suche auf Dokumente, die den Suchbegriff im HTML-Titel des Dokuments enthalten. Wenn Sie intitle: vor jedem Wort in Ihrer Anfrage einfügen, erzielen Sie dasselbe Ergebnis wie mit allintitle: vor der gesamten Anfrage.

Beispiel:
Geben Sie intitle:google suche ein, werden Dokumente zurückgegeben, in denen der Begriff “google” im HTML-Titel erwähnt wird und der Begriff “suche” im Textbereich, Titel, Anker oder an einer anderen Stelle im Dokument. Geben Sie intitle:google intitle:suche in das Suchfeld ein, wird dasselbe Ergebnis erzielt, wie wenn Sie allintitle:google suche eingeben.

inurl:

Beschränkt die Suche auf Dokumente, die den Suchbegriff in der URL enthalten. Dieser Operator funktioniert zwar bei Begriffen, nicht aber bei URL-Komponenten (z. B. Zeichensetzung). Schrägstriche (“/”) werden beispielsweise ignoriert. Wenn Sie den inurl:-Operator vor jedem Wort in Ihrer Anfrage einfügen, erzielen Sie dasselbe Ergebnis wie mit allinurl: vor der gesamten Anfrage.

Beispiel:
Geben Sie inurl:google suche in das Suchfeld ein, werden Dokumente zurückgegeben, in denen der Begriff “google” in der URL erwähnt wird und der Begriff “suche” in der URL, im Textbereich, im Titel oder an einer anderen Stelle im Dokument.vGeben Sie inurl:google/suche in das Suchfeld ein, werden dieselben Dokumente zurückgegeben wie im vorangegangenen Beispiel. Der Schrägstrich im Suchbegriff wird vollständig ignoriert. Geben Sie google inurl:google inurl:suche in das Suchfeld ein, werden Dokumente zurückgegeben, in deren URL sowohl “google” als auch “suche” vorkommt. Dabei werden dieselben Dokumente wie bei der Suchanfrage allinurl:google suche zurückgegeben.

link:

Beschränkt die Suche auf alle Seiten, die mit der in der Anfrage genannten Website verknüpft sind.vAn diesen Suchoperator und die angegebene Website kann kein anderer Suchbegriff angehängt werden.

Geben Sie link:www.berkeley.edu in das Suchfeld ein, werden alle Seiten zurückgegeben, die eine Verknüpfung zu dieser Seite herstellen.

site:

Schränkt die Suche nach Dokumenten auf einer Website ein. Wenn Sie keine Website angeben und nur den generischen Domainnamen der obersten Ebene eingeben (z. B. .com, .edu oder .org) gibt die Suchmaschine alle Dokumente in der generischen Domain der obersten Ebene zurück. Der site:-Operator ermöglicht eine erweiterte Beschränkung der Suche bis auf Verzeichnisse.

Beispiel:
Geben Sie hilfe site:www.google.de in das Suchfeld ein, werden Hilfe-Seiten oder Nutzerdokumentationsseiten in www.google.de zurückgegeben. Geben Sie hilfe site:de in das Suchfeld ein, wird nach Hilfe-Seiten oder Nutzerdokumentationsseiten in allen Websites gesucht, die die Erweiterung .de aufweisen. Geben Sie site:www.google.com/enterprise/ ein, wird die Suche auf die Objekte beschränkt, die sich auf der Ebene des Unternehmensverzeichnisses befinden. Wird der nachstehende Schrägstrich in der Anfrage ausgelassen, wie beispielsweise in www.google.com/enterprise werden zusätzlich alle Unterverzeichnisse durchsucht.

Quelle: google.uni-koeln.de

Tags: , ,

Doppelcontent

häufigsten Ursachen für internen doppelten Content:

  • Eine Domain ist sowohl mit als auch ohne “www” aufrufbar.
  • Es besteht eine Doppelung bei der Internationalisierung (zum Beispiel einmal nur “.de” und einmal “.de.de”)

  • Die Seite ist unter zwei verschiedenen URLs aufrufbar (zum Beispiel einmal mit der Endung “.de” und einmal mit der Endung “.html”)

  • Die Tracking Parameter verursachen zwei verschiedene URLs (zum Beispiel einmal mit der normalen Endung “.de” und einmal mit der Endung “.de/source=11“)

Sollte eines dieser Beispiele zutreffen, hat man wegen des identischen Seiteninhalts doppelten Content und man wird unter Umständen mit den Folgen leben müssen. Dabei ist man ein wenig den Launen der Suchmaschinen ausgeliefert. Denn Google könnte durchaus erkennen, dass es sich um internen doppelten Content handelt. In diesem Fall würden die beiden URLs als identische Seiten behandelt werden. Gerade bei einer URL mit “www” und einer URL ohne “www” geschieht dies recht häufig. Doch es kann auch anders laufen und Google behandelt die beiden URLs wie jeden anderen Fall von doppelten Content.

Quelle: drweb.de

Tags: , ,

Suchmaschine

Eine Suchmaschine ist eine Software bzw. ein Programm zur Recherche in Dokumenten oder Dateien, welche in einem Computer oder in einem Computernetzwerk, wie z.B. dem World Wide Web, gespeichert sind.

Nach der Eingabe eines oder mehrerer Suchbegriffe liefert die Suchmaschine eine nach bestimmten Kriterien geordnete Liste mit Verweisen auf relevante Dokumente, welche am ehesten mit dem Suchtext in Beziehung gebracht werden konnten. Da nicht bei jeder Suchanfrage das gesamte World Wide Web durchsucht werden kann, wird ein Index angelegt und entsprechend der Suchanfragen, der Veränderungen der Daten oder Dokumente, und der Rankingkriterien ständig aktualisiert. Neben diesen, auf einem eigenen Index und Algorithmus basierenden Suchmaschinen, gibt es auch so genannte Metasuchmaschinen, welche die Daten bestehender Suchmaschinen durchsuchen und auflisten.

Eine Suchmaschine besteht im Wesentlichen aus folgenden Einzelelementen:

  • Ein Url-Server
  • mehrere Crawler (Bots, Robots, Spider)
  • dem Parser und
  • dem Store Server

Der Url-Server verwaltet die Internetadressen (Urls), welche noch nicht in den Index aufgenommen wurden. Anmeldungen einzelner Webseiten bei Suchmaschinen werden also zumeist an den Url- Server übermittelt. Dieser gibt die Daten an den oder die einzelnen Crawler weiter.

Die Crawler wandeln nun jede einzelne Url in eine IP-Adresse um, damit sie mit den jeweiligen Servern in Verbindung treten können. Um die Dauer der Übertragung zu verkürzen, und die Server nicht zu überlasten, öffnet ein Crawler oftmals mehrere hundert Verbindungen gleichzeitig. Treten bei einer Verbindung Probleme auf, kann er schnell und ohne großen Zeitverlust auf die nächste Verbindung zugreifen. Durch dieses Rotationsverfahren kann nur ein Robot bis zu 30 Seiten pro Sekunde erfassen. Nach erfolgreicher Übergabe liefert der Crawler die Daten der Webseiten dem Parser.

Der Parser erstellt nun von jeder einzelnen HTMLSeite eine vereinfachte Form und leitet diese an den Store Server weiter. Ein Store Server hat die Aufgabe, die in den vereinfachten Seiten enthaltenen Informationen zu extrahieren. Enthaltene Links werden an den Url- Server übermittelt, der enthaltene Text bzw. die enthaltenen Begriffe werden, wenn sie noch nicht bekannt sind, dem Index hinzugefügt.

Der Index besteht vereinfacht gesagt aus dem Lexicon, den Hit Lists und dem Repository. Das Lexicon ist eine zumeist in Form einer Hashtabelle dargestellte Sammlung aller im Netz gefundenen Begriffe. Nur jene Begriffe, welche im Lexicon enthalten sind, liefern auch eigenständige Suchergebnisse. Jeder Begriff bzw. jedes Wort des Lexicons enthält einen Vermerk auf die entsprechende Hit List. Die Hit Lists enthalten zu jedem Wort Verweise auf die entsprechenden Seiten im Repository. Im Repository werden die Webseiten gespeichert. Gleichzeitig wird in den Hit Lists vermerkt, welche Bedeutung den einzelnen Seiten in Bezug auf die einzelnen Begriffe bzw. Suchwörter zukommt.

Um mit einer Suchmaschine interagieren zu können, benutzt man das Frontend oder den Searcher. Das Frontend ist nichts anderes, als die sichtbare Komponente einer Suchmaschine, also die Benutzeroberfläche. Stellt der Benutzer eine Suchanfrage, zeigt der Searcher eine aus dem Lexicon und den Hit Lists erstellte Ergebnisliste.

Jede Suchmaschine verwendet einen eigenen Algorithmus, also eine Methode, nach der die Ergebnisse gelistet werden. Dieser Algorithmus ist das eigentliche Herzstück einer Suchmaschine.

Etwa Mitte der 90er Jahre entstanden die ersten Suchmaschinen. Das Internet bzw. das World Wide Web hatte bereits zu diesem Zeitpunkt eine Größe erreicht, welche es dem Benutzer fast unmöglich machte, die von ihm gesuchten Informationen auf Anhieb zu finden.

Mit den ersten Suchmaschinen waren WebCrawler, Lycos und Alta Vista. Lange Zeit war die Metasuchmaschine Alta Vista, zudem eine der ersten kommerziellen Suchmaschinen, Marktführer auf ihrem Gebiet. Heute dagegen gibt es fast keine Metasuchmaschine, die sich erfolgreich behaupten kann.

1998 entwickelten Larry Page und Sergey Brin, damals noch Studenten, eine eigene Suchmaschine. Eine einfache, fast schlichte Benutzeroberfläche sowie eine vorher nie gekannte Suchgeschwindigkeit waren die Grundlagen für den späteren Erfolg der Suchmaschine Google. Darüber hinaus nutzte diese Algorithmen bzw. Rankingkriterien, welche man vorher so nicht kannte. Eines dieser Kriterien ist der so genannte PageRank.

Schnell erkannten auch Yahoo und MSN, zwei weitere Suchdienste, dass sich die neue Suchtechnik der Suchmaschine Google durchsetzen würde. Da Larry Page und Sergey Brin sich aber sofort alle Techniken patentieren ließen, blieb ihnen nichts anderes übrig, als sich bei Google einzukaufen. Heute, auch wenn Yahoo mittlerweile einen eigenen Algorithmus entwickelt hat, ist die Suchmaschine Google absoluter Marktführer. Ihr Marktanteil beträgt, nimmt man die Suchmaschinen hinzu, welche ebenfalls den Googleindex nutzen, über 90%. Yahoo und MSN bzw. Windows Live folgen auf den Plätzen 2 und 3. Sie scheitern, zumindest in Deutschland, jeweils deutlich an der 5% Hürde…

Ob Google sich auch zukünftig als Marktführer behaupten kann, lässt sich nicht sagen. Dass Alta Vista heute kaum noch jemand kennt, hätte noch vor einigen Jahren keiner für möglich gehalten. Genauso schnell könnte Google einer neu entwickelten Technologie weichen müssen. Von einem Tag auf dem anderen wird dieses jedoch kaum geschehen. Google versteht es, wie kaum ein anderes Unternehmen, sich selbst zu vermarkten. Das Stichwort lautet `Branding´. Google ist längst keine bloße Suchmaschine mehr, sondern ein Unternehmen, welches in nahezu alle Bereiche expandiert. Dazu zählen z.B. die speziellen Suchdienste Froogle, Google Maps, Google News, das Diskussionsforum Google Groups, ein E-Mail- Dienst (GMail) oder Communities wie blogger.com oder Orkut, eine Kontaktbörse. Des Weiteren bietet Google kostenlose Software, wie Google Desktop oder das Bildbearbeitungsprogramm Picasa an.

Der Hauptgedanke, welcher hinter diesen und vielen anderen neuen Entwicklungen steckt, ist einfach. Der Name Google gewinnt mehr und mehr an Bedeutung. Es wird längst nicht mehr gesucht, sondern nur noch `gegoogelt´.

Der Suchmaschine von Morgen werden wir per Spracheingabe eine Suchanfrage stellen können. Ebenso wird sie, nachdem sie selbstständig alle relevanten Ergebnisse gefunden und ausgewertet hat, mit einer eigenen Stimme antworten. Dieses kann jedoch noch Jahrzehnte dauern. Es gibt zwar schon Versuche und auch erste Ergebnisse, aber die Sprache im Kontext ist viel zu komplex, als das diese wirklich brauchbar wären. Hier werden die Probleme deutlich, der sich die Entwickler einer zukünftige Suchmaschine stellen müssen.

Neben der Mehrdeutigkeit vieler Suchbegriffe oder der unterschiedlichen Grammatik, stellt vor allen Dingen die schnell wachsende Datenmenge ein großes Problem dar. Zu einen entstehen täglich Millionen neuer Webseiten, und zum anderen werden viele Webseiten täglich aktualisiert. Experten gehen aus diesen Gründen davon aus, dass die Suchmaschine der Zukunft auf spezialisierte Datenbanken zurückgreifen wird. Außerdem wird die personalisierte und regional gesteuerte Suche (Personalized Search bzw. Geo-Targeting) immer mehr an Bedeutung gewinnen. So lassen sich nicht nur wichtige Ressourcen sparen, die Suche wird für den Benutzer auch einfacher und übersichtlicher, denn die Suchmaschine wird zusammen mit ihm `lernen´.

Quelle: seo-united.de

Tags: , , , ,