Samstag, 20. Dezember 2025

Bots / Spider / Crawler aussperren mit .htaccess & robots.txt

Bekannte Bots und Spider automatisch ausschließen 

Dieser Post wurde innerhalb kürzester Zeit von Blogger wegen Verstößen gegen die Community Richtlinien gesperrt, wir haben den Post überarbeitet und hoffen somit sämtliche Community Wortfilter besänftigt zu haben.

Wir konnten das Programm der Webcrawler / Spider die unsere Webs belästigten, finden und hatten dadurch auch ein Hilfsmittel um die Plagegeister auszusperren. Bei der Durchforstung der Hintertürchensucher/:innen fiel uns auch eine Domain mit ca. 1.500 Anklopfer an den nicht vorhandenen Hintertürchen als einsamer Spitzenreiter auf
Sie kamen von einer im WebOfTrust ziemlich gut dank kyrilischer Bewertungen angesehenen Cyberdollarplattform ... wobei die Kundenbewertungen in den Reviews Portalen maximal 1,5 Sternchen hergaben. Da hat sich WOT leider wohl mal wieder zu sehr auf seinen prämierten Alghorithmus verlassen. Ich glaube der ist doch immer noch fehlerhaft ... quod erat demonstrandum!
Was die Cyberdollarplattform eigentlich bei uns wollte??? Mit Referrerspam hat die immer wieder kehrende Untersuchung von vermuteten Adminbereichen ja wohl eigentlich nichts zu tun. 
Und unsere paar Penunzen reichen denen nicht mal fürs Frühstück, geschweige denn fürs Vesper... aber 1.500 Mal in ca. 50 Tagen an den Admin Bereichen anklopfen und dann abgewiesen werden, weil die nicht da sind. Halt eben verkalkuliert! Soll ja manchmal bis ganz selten bei Banken und bei Börsen vorkommen...
Ein Webcrawler / Spider ist übrigens ein automatisiertes Programm oder ein Bot, der systematisch Websites durchsucht und deren Inhalte indexiert. Sie geben die Domain ein und der Crawler / Spider marschiert die Domain durch und mit einer aufbereiteten Sitemap, findet er auch etliches. So wird bei dem von uns gefunden Crawler / Spider sogar angezeigt welche Fehler in der Konfiguration der Domain gemacht wurden. Was natürlich die Erfolgschancen der Plagegeister leider enorm erhöht! 
Was wir allerdings auch genutzt haben, um die Sicherheit unserer Webs um einiges zu erhöhen...
Diesen Crawler / Spider haben wir übrigens nicht aus irgendwelchen dunklen Kanälen heruntergeladen! Das Programm ist Freeware und kann über eine seit Jahrzehnten alt eingessesene seriöse amerikanische Plattform, die sogar hier auf diesem Blog verewigt wurde, auch von Ihnen heruntergeladen werden... (Als Brotkrummen Hinweis >> rechts unten ...)
Crawler / Spider werden normalerweise hauptsächlich zur Indexierung von Seiten für Suchmaschinen eingesetzt, finden aber auch Anwendung in Coupon- und Preisvergleichs-Apps sowie bei SEO, RSS und sämtlichen anderen Aggregations-Aufgaben.
Die Anwendungsvielfalt ist eigentlich beeindruckend, leider haben auch andere die Möglichkeiten entdeckt, die nichts Gutes im Sinne haben... wobei wir immer noch nicht wissen, was die bei uns wollten! Wir wissen nur daß Sie es gemacht haben!

Für die Hintertürchen Spam-Referrer bewirken folgende Einträge, daß sie unsere Seiten nicht mehr erreichen können 

Die folgenden Einstellungen in den .htaccess und den robots.txt Dateien sind recht einfach für Sie zu handeln, weil Sie eigentlich nur kopiert und angepasst werden müssen. Dennoch weisen wir darauf hin, daß beide Dateien nur von erfahrenen Personen bearbeitet werden sollten. Denn schon mit ganz kleinen Fehlern können Sie dafür sorgen, dass Ihre komplette Domain sehr lange nicht mehr erreichbar ist. Diese Code Snippets haben bei uns gewirkt, etliche andere die wir im Netz fanden, wirkten nicht die Bohne...

Ausschluss über die .htaccess Datei

# .htaccess Datei

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} xx-xxxx-xxxxxx [NC]
RewriteRule .* - [F,L]

RewriteEngine on
RewriteCond %{HTTP_REFERER} xxxxxxx\.xxx/ [NC]
RewriteRule .* - [F,L]

RewriteEngine on
RewriteCond %{HTTP_REFERER} xxxxxxx
RewriteRule .* - [forbidden,last]

Ausschluss über die Robots.txt Datei

# Robots.txt

User-agent: xx-xxxx-xxxxxx
Disallow: / 

Wenn Sie in Ihr zukünftiges Online Auktionshaus Google Analytics integrieren

Wenn Sie in Ihr Online Auktionshaus Google Analytics integrieren, was wir als äußerst empfehlenswert ansehen, sofern Sie Ihr Online Auktions Haus nicht nur einem kleinen Personenkreis anbieten möchten, können Sie als weitere Unterstützung die Einstellung „bekannte Bots und Spider automatisch filtern“ in Google Analytics nützen. Manche Quellen berichten von Erfolg, wobei in anderen Tests das Google Feature leider gegen die größeren Spam-Referrer auch versagte.
Tja die sind schon hartnäckig diese elektronischen Viecher und Google ist im Zweifelsfalle halt doch eher gewinnorientiert, hat aber auch etliche gute Features, die andere nicht anbieten...

Folgende Spider wurden auf diversen Webpräsenzen als nicht vertrauenswürdig eingestuft:

Die Liste haben wir hier in diesem Blog komplett gelöscht (s.o.), wenn Sie die Liste einsehen wollen, schauen Sie bitte in unserem Hausflohmarktweb vorbei... Bis Denne! 🙋‍♂️
Es wurden bereits 143 ungewünschte Spider bisher von uns gesammelt...also ist die Lösung unseres Spider Problems leider nur temporär gelöst. Wobei wir selbst nur die Crawler / Spider gesperrt haben, die andauernd an unsere imaginären Hintertürchen anklopfen.... Und insgesamt gibt es wohl weit über 300 diverse Spider / Crawler, die auch gerne von Websites eingeladen werden...

Eine klasse Fußnote für die Dateien .htaccess und robots.txt

Folgende Fußnote in den Dateien  .htaccess und robots.txt haben wir bei unserer Spider Sightseeing Tour in den Tiefen des Internets gefunden. Sie gefiel uns so gut, daß wir Sie in unsere eigenen .htaccess und robots.txt Dateien übernommen haben.

# Legal notice: We expressly reserve the right to use our content for commercial text and data mining (§ 44 b UrhG)
# The use of robots or other automated means to access our sites or collect or mine data without our express permission is strictly prohibited.
# If you would like to apply for permission to crawl our site, collect or use data, please contact us using https://www.example.com/kontakt



social icon social icon social icon social icon





Keine Kommentare:

Kommentar veröffentlichen

Es schmerzt uns selbst sehr, aber wir mußten leider auf Grund häslicher Spam Kommentare eine Moderation der Kommentare einfügen. Nach der Moderation wird Ihr Kommentar veröffentlicht.
Danke für Ihr Verständnis!