Suchmaschine
Autor: Markus Fettke | Kategorie: Internet
Eine Suchmaschine ist eine Software bzw. ein Programm zur Recherche in Dokumenten oder Dateien, welche in einem Computer oder in einem Computernetzwerk, wie z.B. dem World Wide Web, gespeichert sind.
Nach der Eingabe eines oder mehrerer Suchbegriffe liefert die Suchmaschine eine nach bestimmten Kriterien geordnete Liste mit Verweisen auf relevante Dokumente, welche am ehesten mit dem Suchtext in Beziehung gebracht werden konnten. Da nicht bei jeder Suchanfrage das gesamte World Wide Web durchsucht werden kann, wird ein Index angelegt und entsprechend der Suchanfragen, der Veränderungen der Daten oder Dokumente, und der Rankingkriterien ständig aktualisiert. Neben diesen, auf einem eigenen Index und Algorithmus basierenden Suchmaschinen, gibt es auch so genannte Metasuchmaschinen, welche die Daten bestehender Suchmaschinen durchsuchen und auflisten.
Eine Suchmaschine besteht im Wesentlichen aus folgenden Einzelelementen:
- Ein Url-Server
- mehrere Crawler (Bots, Robots, Spider)
- dem Parser und
- dem Store Server
Der Url-Server verwaltet die Internetadressen (Urls), welche noch nicht in den Index aufgenommen wurden. Anmeldungen einzelner Webseiten bei Suchmaschinen werden also zumeist an den Url- Server übermittelt. Dieser gibt die Daten an den oder die einzelnen Crawler weiter.
Die Crawler wandeln nun jede einzelne Url in eine IP-Adresse um, damit sie mit den jeweiligen Servern in Verbindung treten können. Um die Dauer der Übertragung zu verkürzen, und die Server nicht zu überlasten, öffnet ein Crawler oftmals mehrere hundert Verbindungen gleichzeitig. Treten bei einer Verbindung Probleme auf, kann er schnell und ohne großen Zeitverlust auf die nächste Verbindung zugreifen. Durch dieses Rotationsverfahren kann nur ein Robot bis zu 30 Seiten pro Sekunde erfassen. Nach erfolgreicher Übergabe liefert der Crawler die Daten der Webseiten dem Parser.
Der Parser erstellt nun von jeder einzelnen HTMLSeite eine vereinfachte Form und leitet diese an den Store Server weiter. Ein Store Server hat die Aufgabe, die in den vereinfachten Seiten enthaltenen Informationen zu extrahieren. Enthaltene Links werden an den Url- Server übermittelt, der enthaltene Text bzw. die enthaltenen Begriffe werden, wenn sie noch nicht bekannt sind, dem Index hinzugefügt.
Der Index besteht vereinfacht gesagt aus dem Lexicon, den Hit Lists und dem Repository. Das Lexicon ist eine zumeist in Form einer Hashtabelle dargestellte Sammlung aller im Netz gefundenen Begriffe. Nur jene Begriffe, welche im Lexicon enthalten sind, liefern auch eigenständige Suchergebnisse. Jeder Begriff bzw. jedes Wort des Lexicons enthält einen Vermerk auf die entsprechende Hit List. Die Hit Lists enthalten zu jedem Wort Verweise auf die entsprechenden Seiten im Repository. Im Repository werden die Webseiten gespeichert. Gleichzeitig wird in den Hit Lists vermerkt, welche Bedeutung den einzelnen Seiten in Bezug auf die einzelnen Begriffe bzw. Suchwörter zukommt.
Um mit einer Suchmaschine interagieren zu können, benutzt man das Frontend oder den Searcher. Das Frontend ist nichts anderes, als die sichtbare Komponente einer Suchmaschine, also die Benutzeroberfläche. Stellt der Benutzer eine Suchanfrage, zeigt der Searcher eine aus dem Lexicon und den Hit Lists erstellte Ergebnisliste.
Jede Suchmaschine verwendet einen eigenen Algorithmus, also eine Methode, nach der die Ergebnisse gelistet werden. Dieser Algorithmus ist das eigentliche Herzstück einer Suchmaschine.
Etwa Mitte der 90er Jahre entstanden die ersten Suchmaschinen. Das Internet bzw. das World Wide Web hatte bereits zu diesem Zeitpunkt eine Größe erreicht, welche es dem Benutzer fast unmöglich machte, die von ihm gesuchten Informationen auf Anhieb zu finden.
Mit den ersten Suchmaschinen waren WebCrawler, Lycos und Alta Vista. Lange Zeit war die Metasuchmaschine Alta Vista, zudem eine der ersten kommerziellen Suchmaschinen, Marktführer auf ihrem Gebiet. Heute dagegen gibt es fast keine Metasuchmaschine, die sich erfolgreich behaupten kann.
1998 entwickelten Larry Page und Sergey Brin, damals noch Studenten, eine eigene Suchmaschine. Eine einfache, fast schlichte Benutzeroberfläche sowie eine vorher nie gekannte Suchgeschwindigkeit waren die Grundlagen für den späteren Erfolg der Suchmaschine Google. Darüber hinaus nutzte diese Algorithmen bzw. Rankingkriterien, welche man vorher so nicht kannte. Eines dieser Kriterien ist der so genannte PageRank.
Schnell erkannten auch Yahoo und MSN, zwei weitere Suchdienste, dass sich die neue Suchtechnik der Suchmaschine Google durchsetzen würde. Da Larry Page und Sergey Brin sich aber sofort alle Techniken patentieren ließen, blieb ihnen nichts anderes übrig, als sich bei Google einzukaufen. Heute, auch wenn Yahoo mittlerweile einen eigenen Algorithmus entwickelt hat, ist die Suchmaschine Google absoluter Marktführer. Ihr Marktanteil beträgt, nimmt man die Suchmaschinen hinzu, welche ebenfalls den Googleindex nutzen, über 90%. Yahoo und MSN bzw. Windows Live folgen auf den Plätzen 2 und 3. Sie scheitern, zumindest in Deutschland, jeweils deutlich an der 5% Hürde…
Ob Google sich auch zukünftig als Marktführer behaupten kann, lässt sich nicht sagen. Dass Alta Vista heute kaum noch jemand kennt, hätte noch vor einigen Jahren keiner für möglich gehalten. Genauso schnell könnte Google einer neu entwickelten Technologie weichen müssen. Von einem Tag auf dem anderen wird dieses jedoch kaum geschehen. Google versteht es, wie kaum ein anderes Unternehmen, sich selbst zu vermarkten. Das Stichwort lautet `Branding´. Google ist längst keine bloße Suchmaschine mehr, sondern ein Unternehmen, welches in nahezu alle Bereiche expandiert. Dazu zählen z.B. die speziellen Suchdienste Froogle, Google Maps, Google News, das Diskussionsforum Google Groups, ein E-Mail- Dienst (GMail) oder Communities wie blogger.com oder Orkut, eine Kontaktbörse. Des Weiteren bietet Google kostenlose Software, wie Google Desktop oder das Bildbearbeitungsprogramm Picasa an.
Der Hauptgedanke, welcher hinter diesen und vielen anderen neuen Entwicklungen steckt, ist einfach. Der Name Google gewinnt mehr und mehr an Bedeutung. Es wird längst nicht mehr gesucht, sondern nur noch `gegoogelt´.
Der Suchmaschine von Morgen werden wir per Spracheingabe eine Suchanfrage stellen können. Ebenso wird sie, nachdem sie selbstständig alle relevanten Ergebnisse gefunden und ausgewertet hat, mit einer eigenen Stimme antworten. Dieses kann jedoch noch Jahrzehnte dauern. Es gibt zwar schon Versuche und auch erste Ergebnisse, aber die Sprache im Kontext ist viel zu komplex, als das diese wirklich brauchbar wären. Hier werden die Probleme deutlich, der sich die Entwickler einer zukünftige Suchmaschine stellen müssen.
Neben der Mehrdeutigkeit vieler Suchbegriffe oder der unterschiedlichen Grammatik, stellt vor allen Dingen die schnell wachsende Datenmenge ein großes Problem dar. Zu einen entstehen täglich Millionen neuer Webseiten, und zum anderen werden viele Webseiten täglich aktualisiert. Experten gehen aus diesen Gründen davon aus, dass die Suchmaschine der Zukunft auf spezialisierte Datenbanken zurückgreifen wird. Außerdem wird die personalisierte und regional gesteuerte Suche (Personalized Search bzw. Geo-Targeting) immer mehr an Bedeutung gewinnen. So lassen sich nicht nur wichtige Ressourcen sparen, die Suche wird für den Benutzer auch einfacher und übersichtlicher, denn die Suchmaschine wird zusammen mit ihm `lernen´.
Quelle: seo-united.de
Tags: Bots, Crawler, Robots, Spider, Suchmaschine