conglom-o, we own you
G’d afternoon meine Lieben.
Die Tage werden wir ein paar Threads mit unserem neuen Spider starten. Abgesehen von der “Header-Only”-Version (fragt nur die Response-Header der Startseite ab), achtet er natürlich auf die robots.txt. Möchtet Ihr nicht in unserer Statistik-Datenbank landen benutzt folgende Zeilen:
User-agent: LM-MIRINJA
Disallow: /
Mirinja interessiert sich übrigens momentan nur für .de-TLDs.
(Update, sorry. Das conglom-o Prinzip war zu verführerisch =)
Und keine Sorge, wir machen nahezu keine Serverlast. Wir machen das ja schließlich beruflich *zwinker* In den Logs tauchen wir allerdings nicht auf, denn wir verstecken uns hinter ganz normalen Browserprofilen. Vielleicht nicht die feine Art, aber valide Daten fordern schon mal ihren Tribut.
Mehr zur Robots.txt benutzung im entsprechenden RFC.



