Ausgabe Mai 2003


Suchmaschinen im Internet


Vorwort
Nach den Erkenntnissen einer Studie der Bertelsmann Stiftung wissen nur wenige Nutzer von Suchmaschinen, wie diese Internet-Helfer arbeiten und wie die Suchergebnisse zustande kommen oder wie sich Suchmaschinen finanzieren. Die Stiftung sieht als Gefahr, dass die Suchmaschinen zu „Torwächtern“ im Internet werden und die Mehrzahl der Nutzer nur eine Suchmaschine verwenden, was einer Monopolbildung Vorschub leistet.

Suchmaschinen
Die Vielzahl der Suchmaschinen ist erfreulich. Allerdings ist zu bedenken, dass viele Suchmaschinen Metasuchmaschinen sind, d.h. sie bedienen sich anderer Suchmaschinen und liefern als Resultat deren Suchergebnis in aufbereiteter Form. Man darf sich daher nicht wundern wenn man keine zusätzlichen Treffer findet oder in anderer Wichtung. Wichtiger als die Anzahl der Treffer ist ein "intelligentes" Suchen. Manche Suchmaschinen erlauben boolsche Verknüpfungen (OR, AND, NOT) der Suchbegriffe. Leider gibt es keine Suchmaschine, die Flexionen auflöst und etwa bei einer Suche nach Apfel auch mit Äpfeln aufwartet. Über vergleichsweise primitive Trunkierungsmechanismen läßt sich allenfalls noch ein Apfelkuchen auftreiben, aber auch nicht bei allen Maschinen. Pure Zukunftsmusik ist es, von „Golden Delicious" als Antwort auf Apfel zu träumen. Manche „Suchmaschinen" sind in Wirklichkeit nur manuell erstellte Indizes mit einem Ausgang zu AltaVista. Leider wurden der Großteil der einstigen Profisuchmaschinen, so z.B. Altavista so stark kommerzialisiert, daß sie kaum noch einen prakatischen Wert haben. Versuchen Sie daher auch andere Suchmaschinen. Aber aufgepaßt, nicht alle Suchmaschinen sind kostenlos!

Deutsche Suchmaschinen
Viele deutsche Suchmaschinen sind noch jung und in einem "experimentellen" Stadium. Die wenigsten indexieren Folgeseiten, schaffen eine Volltextindexierung, aktualisieren automatisch und bieten dann noch vernünftigen Komfort durch eine leistungsfähige Abfragesprache. Auf der anderen Seite sind manche deutsche Suchmaschinen innovativ genug, durch eigene Entwicklungen Besonderheiten der deutschen Sprache Rechnung zu tragen. So enthält Fireball einen Modul, der überprüft, ob ein Dokument in deutscher Sprache geschrieben ist; Abacho bietet Suche nach Wortbestandteilen und auch die Spidertechnologie von Speedfind verdient Erwähnung.

Fireball
T-Online
Speedfind
Aladin/Eule/Abacho
Kolibri
Web.de
Webcrawler

Internationale Suchmaschinen
Die im Folgenden aufgeführten Suchmaschinen sind die ältesten, größten und am besten bekannten des amerikanisch/englischen Raumes. Der Bekanntheitsgrad hängt nicht immer nur mit dem Gebotenen zusammen, sondern auch mit den „strategischen Allianzen", der Verwendung in Portalsites und der Verbindung mit dem Browser zusammen. Manche Benutzer wissen gar nicht, daß man Suchmaschinen auch anders als mit dem SEARCH-Button des Browsers starten kann! AltaVista und Lycos streiten sich darum, die erste Suchmaschine im Internet gewesen zu sein. Ebenfalls bereits sehr alt (und entsprechend technologisch stabil) sind HotBot, Infoseek und Excite. Neben ihrer Stabilität punkten diese Maschinen mit teilweise sehr großen Indizes.
Einige dieser Maschinen unterhalten auch ein besonderes Verhältnis zu Katalogbetreibern wie Yahoo oder haben selbst, zusätzlich zur robotbasierten Suchmaschine, einen Katalogdienst aufgebaut. Viele ehemals rein amerikanisch orientierten Suchmaschinen bieten heute ebenfalls fremdsprachige, d.h. auch deutsche Interfaces an. In der Indexverwaltung sind diese Maschinen jedoch sehr konservativ und bieten alle denselben, meist unbefriedigenden Standard. Diese mangelnde Innovativität erklärt sich wohl auch daraus, daß das Englische mit seiner geringen Flexion und fehlenden Nominalkomposita den Suchmaschinen ohnehin sehr weit entgegenkommt. Neuentwicklungen betreffen daher weniger das Datenbanksystem als die Sortierung der Suchergebnisse oder die Verwendung zusätzlicher, nicht dem Web entnommener, Quellen (Northern Light). Google hat ein ganz eigenes Konzept. Diese beiden Maschinen erfreuen sich steigender Beliebtheit. Gute Dokumentation der Suchsyntax scheint amerikanischen Gepflogenheiten zuwiderzulaufen und kommt daher kaum vor. Deshalb findet man die Features nur, wenn man explizit hinter die Zusatzfunktionen schaut, welche sich hinter Select-Menüs verstecken und wenn überhaupt an unmöglicher Stelle in der Dokumentation erwähnt sind. Das think-and-search scheint demnächst unter dem click-and-go begraben zu werden. Die internationalen Suchmaschinen indexieren Dokumente in der Regel in allen Sprachen aus allen Domains.

AltaVista
HotBot
Infoseek
Excite
Lycos
Northern Light
Google
Yahoo

Ranking
Ranking ist der Fachbegriff für die Sortierung der Treffer, die die Suchmaschine zum eingegebenen Suchbegriff gefunden hat. Naturgemäß erwartet man die besten Ergebnisse an oberster Stelle. Um die Übereinstimmung zu ermitteln, werden umfangreiche statistische Modelle und Verfahren der Wahrscheinlichkeitsrechnung angewendet. Dazu werden unter anderem die im Volltext vorkommenden Wörter und die Begriffe in der Überschrift eines Dokuments herangezogen, oder welche Schriftgrößen für welche Wörter benutzt werden und welches Thema eng benachbarte Seiten haben.
War die Suche früher meist auf Anhieb erfolgreich, so stellt man in letzter Zeit immer häufiger fest, dass nur kommerzielle Angebote oben stehen, welche mit dem Suchbegriffen sogar oft nur wenig zu tun haben. Dies hat mehrere Gründe. Zum einen, weil sich Suchmaschinen zum Großteil von der Werbung finanzieren, zum anderen weil die Suchalgoritmen der Spider bzw. Crawler durch „optimierte" Webseiten ausgetrickst werden. Die Suchalgoritmen ziehen nämlich nicht nur die Schlüsselworte der HTML-Seiten zur Indexierung heran, sondern auch die Verweise auf fremde Seiten, d.h. die Wertschätzung die Webdesigner anderen Webseiten entgegenbringen. Aber nicht nur die bloße Anzahl der Links, sondern auch das Ranking der verweisende Website fließt in die Bewertung ein. Raffinierte Webprogrammierer installieren daher zusätzliche Websites, deren alleinige Aufgabe es ist die eigene (eigentliche) Website hochzuranken. Da Suchmaschinen automatisch bewerten und nicht denken können, schießen solche Linkfarmen allerortens aus dem Boden. Cloaking ist ein anderes Verfahren den Spider zu linken. Die Website unterscheidet dabei ob ein Mensch (identifiziert durch den Browser den er benutzt) oder ein Spider einer Suchmaschine (identifiziert über seine IP) eine HTML-Seite aufruft. Ist es ein Mensch, so erhält er eine für ihn zugeschnittene Seite, ist ein Spider, so erhält er eine andere, auf einen Begriff hin optimierte Seite. Solche unlauteren Methoden sind jedoch mit dem Risiko behaftet, falls sie bemerkt werden, ganz aus einer Suchmaschine verbannt zu werden.

Eintrag in Suchmaschinen
Häufig wird uns die Frage gestellt, wie man sich am besten in Suchmaschinen einträgt. Dies ist in der Regel einfach. Entweder man bedient sich spezieller Software, welche die Einträge vornimmt (z.B. http://www.promoware.de) oder man füllt online ein Formular auf der Homepage der Suchmaschinenanbieters aus. Wer allerdings erwartet, dass dies kostenlos geschieht, wird enttäuscht. Nur Webseiten von Schulen, Forschungseinrichtungen und private Seiten werden quasi automatisch gesucht und eingetragen, während Firmen und kommerzielle Dienste sogar explizit entfernt werden. Nur für Kunden werden die
wichtigen" Schlüsselworte eingetragen, welche auf der Ranking-Liste oben erscheinen. Haben Sie etwa etwas anderes erwartet?

Haben Sie noch Fragen? 

Dann senden Sie uns eine Email (info@sepa-computer.de) oder rufen Sie uns an unter: 07123-963801.