Einträge "September 2006":
Dienstag, 12. September 2006
the history of search engines
A search engine or search service is a program designed to help find information stored on a computer system such as the World Wide Web, inside a corporate or proprietary network or a personal computer. The search engine allows one to ask for content meeting specific criteria (typically those containing a given word or phrase) and retrieves a list of references that match those criteria. Search engines use regularly updated indexes to operate quickly and efficiently. Without further qualification, search engine usually refers to a Web search engine, which searches for information on the public Web. Other kinds of search engine are enterprise search engines, which search on intranets, personal search engines, which search individual personal computers, and mobile search engines. However, while different selection and relevance criteria may apply in different environments, the user will probably perceive little difference between operations in these. Some search engines also mine data available in newsgroups, large databases, or open directories like DMOZ.org. Unlike Web directories, which are maintained by human editors, search engines operate algorithmically. Most Web sites which call themselves search engines are actually front ends to search engines owned by other companies. The very first tool used for searching on the Internet was Archie. (The name stands for "archive" without the "v", not the character from the 'Archie' comic book series). It was created in 1990 by Alan Emtage, a student at McGill University in Montreal. The program downloaded the directory listings of all the files located on public anonymous FTP (File Transfer Protocol) sites, creating a searchable database of filenames. While Archie indexed computer files, Gopher indexed plain text documents. Webkatalog Gopher was created in 1991 by Mark McCahill at the University of Minnesota. (The program was named after the school's mascot). Because these were text files, most of the Gopher sites became Web sites after the creation of the World Wide Web. Two other programs,Veronica and Jughead, searched the files stored in Gopher index systems. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) provided a keyword search of most Gopher menu titles in the entire Gopher listings. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) was a tool for obtaining menu information from various Gopher servers. The first Web search engine was Wandex (without the topics), a now-defunct index collected by the World Wide Web Wanderer, a web crawler developed by Matthew Gray at MIT in 1993. Another very early search engine, Aliweb, also appeared in 1993, and still runs today. The first "full text" crawler-based search engine was WebCrawler, which came out in 1994. Unlike its predecessors, it let users search for any word in any web page, which became the standard for all major search engines since. It was also the first one to be widely known by the public. Also in 1994 Lycos (which started at Carnegie Mellon University) came out, and became a major commercial endeavor. Soon after, many search engines appeared and vied for popularity. These included Excite, Infoseek, Inktomi, Northern Light, and AltaVista. In some ways, they competed with popular directories such as Yahoo!. Later, the directories integrated or added on search engine technology for greater functionality. Suchmaschine / Search Engines were also known as some of the brightest stars in the Internet investing frenzy that occurred in the late 1990s. Several companies entered the market spectacularly, recording record gains during their initial public offerings. Some have taken down their public search engine, and are marketing enterprise-only editions, such as Northern Light. Before the advent of the Web, there were search engines for other protocols or uses, such as the Archie search engine for anonymous FTP sites and the Veronica search engine for the Gopher protocol. More recently search engines are also coming online which utilise XML or RSS. This allows the search engine to efficiently index data about websites without requiring a complicated crawler. The websites simply provide an xml feed which the search engine indexes. XML feeds are increasingly provided automatically by weblogs or blogs. Examples of this type of search engine are feedster, with niche examples such as LjFind Search providing search services for LiveJournal blogs. Around 2001, the Google search engine rose to prominence. Its success was based in part on the concept of link popularity and PageRank. The number of other web sites and web pages that link to a given page is taken into consideration with PageRank, on the premise that good or desirable pages are linked to more than others. The PageRank of linking pages and the number of links on these pages contribute to the PageRank of the linked page. This makes it possible for Google to order its results by how many web sites link to each found page. Google's minimalist user interface was very popular with users, and has since spawned a number of imitators. Google and most other web engines utilize not only PageRank but more than 150 criteria to determine relevancy. The algorithm "remembers" where it has been and indexes the number of cross-links and relates these into groupings. PageRank is based on citation analysis that was developed in the 1950s by Eugene Garfield at the University of Pennsylvania. Google's founders cite Garfield's work in their original paper. In this way virtual communities of webpages are found. Teoma's search technology uses a communities approach in its ranking algorithm. NEC Research Institute has worked on similar technology. Web link analysis was first developed by Dr. Jon Kleinberg and his team while working on the CLEVER project at IBM's Almaden Research Center. Google is currently the most popular search engine. In 2002, Yahoo! acquired Inktomi and in 2003, Yahoo! acquired Overture, which owned AlltheWeb and AltaVista. Despite owning its own search engine, Yahoo! initially kept using Google to provide its users with search results on its main web site Yahoo.com. However, in 2004, Yahoo! launched its own search engine based on the combined technologies of its acquisitions and providing a service that gave pre-eminence to the Web search engine over the directory. The most recent major search engine is MSN Search, owned by Microsoft, which previously relied on others for its search engine listings. In 2004 it debuted a beta version of its own results, powered by its own web crawler (called msnbot). In early 2005 it started showing its own results live. This was barely noticed by average users unaware of where results come from, but was a huge development for many webmasters, who seek inclusion in the major search engines. At the same time, Microsoft ceased using results from Inktomi, now owned by Yahoo!. The other large (self described) search engines tend to be Web portals that merely show the results from another company's search engine (as MSN Search used to do). The other "true" search engines (those that provide their own results), like Gigablast, have vastly less market presence than the big three. However, since site usage is proprietary information, it is often difficult to determine which sites are most popular. In February 2006, Ask Jeeves was rebranded as Ask.com. Games - The butler logo was removed and several new features including a redesigned home page, search tool box, maps (with walking directions and dynamic address generation) and more "Smart Answers" were added. Ask.com is now an algorithmic engine. While you can still ask questions, it operates using a relevance ranking. Ask.com utilizes the ranking algorithm that was originally developed for Teoma and its database continues to increase in size. Ask.com results pages offer several features generally unavailable elsewhere. They include page previews and "Zoom" that help the searcher narrow, expand, and select related names. These features are found on the right hand side of results pages where other engines place advertising. In 2005 it was reported that Ask.com did a great deal of work to reduce the number of paid advertisements (Games, Topics) on a results page. Web search engines work by storing information about a large number of web pages, which they retrieve from the WWW itself. These pages are retrieved by a Web crawler (sometimes also known as a spider) — an automated Web browser which follows every link it sees. Exclusions can be made by the use of robots.txt. The contents of each page are then analyzed to determine how it should be indexed (for example, words are extracted from the titles, headings, or special fields called meta tags). Data about Web pages is stored in an index database for use in later queries. Some search engines, such as Google, store all or part of the source page (referred to as a cache) as well as information about the web pages, whereas some store every word of every page it finds, such as AltaVista. This cached page always holds the actual search text since it is the one that was actually indexed, so it can be very useful when the content of the current page has been updated and the search terms are no longer in it. This problem might be considered to be a mild form of linkrot, and Google's handling of it increases usability by satisfying user expectations that the search terms will be on the returned Web page. This satisfies the principle of least astonishment since the user normally expects the search terms to be on the returned pages. Increased search relevance makes these cached pages very useful, even beyond the fact that they may contain data that may no longer be available elsewhere. When a user comes to the search engine and makes a query, typically by giving key words, the engine looks up the index and provides a listing of best-matching web pages according to its criteria, usually with a short summary containing the document's title and sometimes parts of the text. Most search engines support the use of the boolean terms AND, OR and NOT to further specify the search query. An advanced feature is proximity search, which allows you to define the distance between keywords. The usefulness of a search engine depends on the relevance of the result set it gives back. While there may be millions of Web pages that include a particular word or phrase, some pages may be more relevant, popular, or authoritative than others. Most search engines employ methods to rank the results to provide the "best" results first. How a search engine decides which pages are the best matches, and what order the results should be shown in, varies widely from one engine to another. The methods also change over time as Internet usage changes and new techniques evolve. Most Web search engines are commercial ventures supported by advertising revenue and, as a result, some employ the controversial practice of allowing advertisers to pay money to have their listings ranked higher in search results. Those search engines which do not accept money for their search engine results make money by running search related ads alongside the regular search engine results. The search engines make money everytime someone clicks on one of these ads. The vast majority of search engines are run by private companies using proprietary algorithms and closed databases, the most popular currently being Google, MSN Search, and Yahoo! Search. However, Open source search engine technology does exist, such as ht://Dig, Nutch, Senas, Egothor, OpenFTS, DataparkSearch and many others, like Online Spiele and Online Games.
Freitag, 1. September 2006
Wie arbeiten Suchmaschinen???
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf moeglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei koennen verschiedene Suchverfahren Anwendung finden. Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen ueber Dokumente), Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie Aufbereitung der Ergebnisse in einer moeglichst sinnvollen Form. In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmaessiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem. Arten von Suchmaschinen Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die drei nachfolgenden Merkmale sind orthogonal zueinander. Man kann beim Entwurf einer Suchmaschine also fuer eine Moeglichkeit aus jeder der drei Merkmalsgruppen entscheiden, unabhaengig von den anderen Merkmalen. Die gaengigste und meistgenutzte Kombination ist eine indexbasierte (Realisierung) Websuchmaschine (Datenquelle) auf HTML-Textdokumenten (Art der Daten), wie sie unter anderem von den drei grossen Suchmaschinenanbietern Google, Yahoo! Search und MSN Search bereitgestellt wird. Art der Daten Verschiedene Suchmaschinen koennen unterschiedliche Arten von Daten durchsuchen. Zunaechst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhaengigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird ueblicherweise ein Textfragment angezeigt, welches die Suchbegriffe enthaelt. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an. Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beitraegen nach bestimmten Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel. Je nach Datengattung ist als weitere Funktion eine Einschraenkung auf eine Untermenge aller Daten einer Gattung moeglich. Dieses wird im Allgemeinen ueber zusaetzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschliesst. Alternativ kann sich eine Suchmaschine darauf beschraenken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine fuer Weblogs (statt fuer das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitaeten verarbeiten, oder ausschliesslich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat. Datenquelle Ein weiteres Merkmal zur Kategorisierung ist die Quelle, aus der die von der Suchmaschine erfassten Daten stammen. Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle. Websuchmaschinen erfassen Dokumente aus dem World Wide Web, Usenetsuchmaschinen Beitraege aus dem weltweit verteilten Diskussionsmedium Usenet. Intranetsuchmaschinen beschraenken sich auf die Rechner des Intranets einer Firma. Als Desktopsuchmaschinen werden neuerdings Programme bezeichnet, welche den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen. Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, spricht man von einem Katalog oder Verzeichnis. In solchen Verzeichnissen wie dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert. Realisierung Dieser Abschnitt beschreibt Unterschiede in der Realisierung des Betriebs der Suchmaschine. Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen. Diese lesen passende Dokumente ein und legen einen Index an. Dabei handelt es sich um eine Datenstruktur, die bei einer spaeteren Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und Speicherung des Indexes, Vorteil ist die Beschleunigung des Suchvorgangs. Metasuchmaschinen schicken Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergibt sich die groessere Datenmenge sowie die einfachere Implementierung, da kein Index vorgehalten werden muss. Nachteil ist die relativ lange Dauer der Anfragebearbeitung. Ausserdem ist das Ranking durch reine Mehrheitsfindung von fragwuerdigem Wert. Die Qualitaet der Ergebnisse wird unter Umstaenden auf die Qualitaet der schlechtesten unterliegenden Suchmaschine reduziert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll. Weiterhin existieren Hybridformen. Diese besitzen einen eigenen, oft relativ kleinen Index, befragen aber auch andere Suchmaschinen und kombinieren schliesslich die Einzelergebnisse. Sogenannte Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualitaet der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gaengigen Suchbegriffen schlecht. Ein relativ neuer Ansatz sind verteilte Suchmaschinen. Dabei wird eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet, die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse zusammengefuehrt. Vorteil ist die hohe Ausfallsicherheit aufgrund der Dezentralisierung und – je nach Sichtweise – die fehlende Moeglichkeit, zentral zu zensieren. Schwierig zu loesen ist allerdings das Ranking, also die Sortierung der grundsaetzlich passenden Dokumente nach ihrer Relevanz fuer die Anfrage. Sortierung der Ergebnisse Die Darstellung der Suchergebnisse geschieht sortiert nach Relevanz (Ranking bzw. Suchrang), wofuer jede Suchmaschine ihre eigenen, meistens geheim gehaltenen Kriterien heranzieht. Dazu gehoeren: Die grundlegende Bedeutung eines Dokuments (bei Google der PageRank-Wert). Haeufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen Dokument. Einstufung und Anzahl der zitierten Dokumente. Haeufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis enthaltene Dokument sowie in Verweisen enthaltener Text. Einstufung der Qualitaet der verweisenden Dokumente (ein Link von einem „guten“ Dokument ist mehr wert als der Verweis von einem mittelmaessigen Dokument). Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz fuer die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme auf ihre Ausgabe zu. In den letzten Jahren hat sich allerdings bei den grossen Anbietern eine Trennung zwischen Suchergebnissen und als „bezahlte Treffer“ markierte eingeblendeter Werbung durchgesetzt, welche auf die Suchanfrage zugeschnitten ist. Geschichte Archie kann als aeltester Vorfahre der heute allseits bekannten Suchmaschinen und Webverzeichnisse angesehen werden. Der erste Vorlaeufer der heutigen Suchmaschinen war eine im Jahr 1991 an der University of Minnesota massgeblich von Paul Lidner und Mark P. McCahill entwickelte Software namens Gopher. Sie wurde als Campuswide Information System (CWIS) zur Vernetzung der dortigen Informationsserver entwickelt und basiert auf dem Client-Server-Prinzip. Die Struktur von Gopher war fuer den damaligen Zeitpunkt richtungsweisend; alle Gopher-Seiten wurden katalogisiert und konnten vom Gopher-Sucher Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) komplett durchsucht werden. Allerdings verschwand Gopher schon einige Jahre spaeter, vermutlich vor allem wegen der fehlenden Moeglichkeit, Bilder und Grafiken einzubinden. Mit der Freigabe des WWW-Standards (Webkonferenz, Telefonkonferenz) zur kostenlosen Nutzung 1993 und einer handvoll Webseiten begann die einzigartige Erfolgsgeschichte des weltweiten Datennetzes. Der erste Webcrawler namens The Wanderer wurde im selben Jahr von Mathew Gray programmiert, einem Studenten des Massachusetts Institute of Technology (MIT). The Wanderer durchsuchte und katalogisierte von 1993 bis 1996 halbjaehrlich das zu dieser Zeit noch sehr uebersichtliche Web. Im Juni 1993 wurden insgesamt 130 Websites gezaehlt. Im Oktober des gleichen Jahres wurde Aliweb (Archie-Like Indexing of the Web) entwickelt, bei dem die Betreiber von Webservern eine Beschreibung ihres Dienstes in einer Datei ablegen mussten, um so ein Teil des durchsuchbaren Index zu werden. Im Dezember 1993 gingen die Suchmaschinen Jumpstation, WorldWideWeb Worm und RBSE Spider ans Netz. Die beiden erstgenannten waren Crawler, die Webseiten nach Titel und URL indexierten. RBSE Spider war die erste Suchmaschine, die ihre Ergebnisse nach einem eigenen Ranking-System sortiert anzeigte. Keine dieser Suchmaschinen bietet heute noch ihre Dienste an. Im April 1994 ging eine weitere Suchmaschine namens WebCrawler online, die ebenfalls eine nach Ranking sortierte Trefferliste vorweisen konnte. 1995 wurde sie an AOL verkauft, ein Jahr spaeter weiter an Excite. Im Mai begann die Arbeit von Michael Mauldins an der Suchmaschine Lycos, die im Juli 1994 online ging. Neben der Worthaeufigkeit der Suchbegriffe innerhalb der Webseiten durchsuchte Lycos auch die Naehe der Suchbegriffe untereinander im Dokument. Im selben Jahr riefen David Filo und Jerry Yang, beide damals Studenten des Fachbereichs Elektrotechnik an der Stanford University, eine Sammlung ihrer besten Web-Adressen in einem online verfuegbaren Verzeichnisdienst ins Leben – die Geburtsstunde von Yahoo! (fuer Yet Another Hierarchical Officious Oracle). Das Jahr 1995 sollte eine bedeutende Trendwende fuer die erst kurze Geschichte der Suchmaschinen werden: In diesem Jahr wurden erstmals Suchmaschinen von kommerziellen Firmen entwickelt. Aus diesen Entwicklungen entstanden Infoseek, Architext (wurde spaeter in Excite umbenannt) und AltaVista. Ein Jahr spaeter wurde Inktomi Corp. gegruendet, deren gleichnamige Suchmaschine zur Grundlage von Hotbot und anderen Suchseiten wurde. Fuehrend in dieser Zeit war der Verzeichnisdienst von Yahoo, aber AltaVista (der Name bedeutet „Blick von oben“, ist aber auch ein Wortspiel den Standort Palo Alto betreffend) wurde zunehmend populaer. 1996 war das Startjahr von zwei Metasuchmaschinen. MetaCrawler erblickte in den USA das Licht der Welt und – in Deutschland – MetaGer. Bis zur Marktdurchdringung von Google galten Metasuchmaschinen als eine der interessantesten Informationsbeschaffer, da der Suchindex der Suchmaschinen ueberwiegend Teilbereiche des Internets enthielt. Metasuchmaschinen leiten die Abfragen des Nutzers parallel an mehrere Suchmaschinen weiter und fassen die Treffer formatiert zusammen. Ende 1998 veroeffentlichten Larry Page und Sergey Brin ihre innovative Suchmaschinen-Technologie in dem Artikel The Anatomy of a Large-Scale Hypertextual Web Search Engine. Diese Arbeit stellte den Startschuss fuer die bisher erfolgreichste Suchmaschine der Welt dar: Google. Im September 1999 erreichte Google Beta-Status. Die geordnete Benutzeroberflaeche, die Geschwindigkeit und die Relevanz der Suchergebnisse bildeten die Eckpfeiler auf dem Weg, die computererfahrenen Nutzer fuer sich zu gewinnen. Ihnen folgten in den naechsten Jahren bis heute Scharen von neuen Internetbenutzern. Doch Google dominiert den Suchmaschinenmarkt nicht allein, durch spektakulaere Aufkaeufe im Fruehjahr 2003 sicherte sich Yahoo! den Anschluss in diesem Marktsegment. Seit 2004 gibt es nach einigen Firmenuebernahmen nur mehr drei grosse (bezogen auf die Anzahl erfasster Dokumente) indexbasierte kommerzielle Websuchmaschinen. Neben Google sind dieses Yahoo! Search und Microsofts MSN Search. Herausforderungen Suchmaschinen muessen im Betrieb mit verschiedenartigen Probleme umgehen: Mehrdeutigkeit – Suchanfragen sind oft unpraezise. So kann die Suchmaschine nicht selbstaendig entscheiden, ob beim Begriff Gitarre nach einem Instrument oder Musik gesucht werden soll. Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch Synonyme einbeziehen, damit der Suchbegriff Rechner Linux auch Seiten findet, die statt Rechner das Wort Computer enthalten. Grammatik – Viele moegliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels Wildcards, mit denen sich dieses Problem teilweise umgehen laesst (z. B. beruecksichtigt die Suchanfrage Auto* auch den Begriff Autos oder Automatismus), allerdings muss der Nutzer die Moeglichkeit auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Woerter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach aehnlichen Wortformen moeglich (schoene Blumen findet so auch schoener Blume), ausserdem wird die Anzahl der Begriffe im Index reduziert. Eine weitere Moeglichkeit ist der Einsatz statistischer Verfahren, mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche nach Autos reparatur oder Automatismus repariert gemeint gewesen sein koennte. Datenmenge – Das Web waechst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren koennen. Dabei ist der den Suchmaschinen unbekannte Teil – das sogenannte Deep Web – noch gar nicht eingerechnet. Aktualitaet – Viele Webseiten werden haeufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht laenger als Ergebnis anzubieten. Das regelmaessige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt grosse Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers. Spam – Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu ueberlisten, um eine bessere Platzierung fuer gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden. Technik – Suchen auf sehr grossen Datenmengen so umzusetzen, dass die Verfuegbarkeit hoch ist (trotz Hardware-Ausfaellen und Netzengpaessen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt grosse Anforderungen an den Suchmaschinenbetreiber. Systeme muessen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, welches die komplette Suchmaschinenfunktionalitaet anbietet. Recht – Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Laendern stehen. Da die Gesetzgebungen der verschiedenen Laender unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschliessen. Die deutschen Internet-Suchmaschinen wollen jugendgefaehrdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen.