Der ShopWiki Crawler

ShopWiki findet Produkte mittels eines Webcrawler ähnlich anderen Suchmaschinen. Das bedeutet wir halten auf einer Domain Ausschau nach robot.txt Files, die unserem Crawler mitteilen, welche Files er durchsuchen darf. Alle Webseiten haben die Möglichkeit zu definieren, welche Teile ihrer Domain für bestimmte Robot User Agents nicht erreichbar sein sollen. ShopWiki respektiert alle Robot.txt Files und hält sich an diese.

Bitte beachten Sie, dass wir nur in periodischen Zeitabständen eine Kopie dieser Files updaten. Falls Sie unseren Bot erst kürzlich blockiert haben oder uns Zugriff auf Ihre Seite gewährt haben, dies wird nicht unmittelbar sichtbar. Bei Fragen oder Anmerkungen, senden Sie uns bitte eine Email an crawler@shopwiki.com.

robots.txt

Web Administratoren sollten die untenstehende Information verwenden, um die Robots.txt upzudaten.

Das ist unser aktueller User Agent String
ShopWiki/1.0 ( +http://www.shopwiki.com/wiki/Help:Bot )


Wenn Sie nicht wollen, dass unser Crawler Zugriff auf Ihre Seite hat, fügen Sie bitte folgendes Ihren Robots.txt hinzu:

User-agent: ShopWiki
Disallow: /

Sind Sie der Ansicht, dass unser Crawler Ihre Seite zu schnell durchsucht, fügen Sie bitte folgendes Ihren Robots.txt hinzu:

User-agent: ShopWiki
Crawl-Delay: 5

Dies verlangsamt unseren Crawler auf 1 Seite (höchstens) alle 5 Sekunden.

Sie wollen ShopWikis Crawler explizit Zugriff auf unsere Seite gewähren, fügen Sie bitte folgendes Ihren Robots.txt hinzu:

User-Agent: Shopwiki
Allow: /

Für mehr Informationen zu Robots.txt, lesen Sie hier robotstxt.org nach.

META Robots

Eine andere Methode den Zugang von Robots zu kontrollieren, ist mittels einer META robots Direktive.

Sie können Ihren Seiten folgendes hinzufügen, so dass unser Crawler diese nicht indiziert oder diesen Links folgt.

<meta name="robots" value="noindex,nofollow">

Sie können auch diese Bedingung hinzufügen, wenn Sie möchten, dass nur unser Crawler und sonst niemand Zugriff auf Ihre Webseite hat:
jsp

<%
if ( request.getHeader("User-Agent").indexOf("ShopWiki") < 0 ) {
    out.print("<meta name='robots' value='noindex,nofollow'>");
}
%>

asp/c#

<%
if ( Request.UserAgent.indexOf("ShopWiki") < 0 ) {
   Response.write("<meta name='robots' value='noindex,nofollow'>");
}
%>

Zum Lesen empfohlen