Spider-Liste

  • Ich plane, mich bald mit einer Spider-Verwaltung für das WoltLab Community Framework 2 auseinander zu setzen. Zu diesem Zweck möchte ich vorab schon einmal (ungeachtet der bereits existierenden Spider-Liste von WoltLab) eine Sammlung bekannter Spider und Suchmaschinen-Roboter aufstellen.



    Ihr könnt mich dabei gerne unterstützen, indem ihr hier Spider und Suchmaschinen-Roboter postet, die bei euch zwar unterwegs sind/waren, jedoch nicht als Suchmaschinen-Roboter oder Spider erkannt wurden. Führt dazu einfach die nachfolgende Liste nach Belieben fort:



  • Ich habe nun ein editierbares Excel-Sheet eingebunden. Das dürfte die Sache stark vereinfachen.

  • Das Excel-Sheet kann ignoriert werden. Ich habe mir aus rund 250.000 IP-Adressen nun 4.357 Bots/Spider rausgesucht (inkl. der 128.497 dazugehörigen IP-Adressen). Muss die am Ende nur noch irgendwie einpflegen :D Je nachdem wie gut das läuft, kann ich einen eigenen Cronjob daran binden, der die Liste vollautomatisch erweitert.


    Zum Vergleich: Das WCF kennt aktuell 421 Bots/Spider, die Liste wurde seit einem Jahr nicht mehr aktualisiert. Die zuvor genannten Zahlen stammen wiederum aus einer Auswertung von heute.

  • Zum Vergleich: Das WCF kennt aktuell 421 Bots/Spider, die Liste wurde seit einem Jahr nicht mehr aktualisiert. Die zuvor genannten Zahlen stammen wiederum aus einer Auswertung von heute.

    Na dann bin ich mal gespannt ob WL deine Mühen auch mal anerkennt und annimmt. Und ggf im Core auch einbaut bzw. umsetzt

  • Muss die am Ende nur noch irgendwie einpflegen Je nachdem wie gut das läuft, kann ich einen eigenen Cronjob daran binden, der die Liste vollautomatisch erweitert.

    Ich habe daran heute auch mal experimentiert nachdem mich die letzten Tage ein Spider mit Sessions zugemüllt hat. Falls du mal schauen willst, das Projekt liegt auf GitHub.

  • Hallo,



    ja super! Ich würde mich sehr über das Plugin freuen. Gibt es da schon Neuigkeiten?


    Code
    1. Mozilla/5.0 (compatible; SemrushBot/1.1~bl; +http://www.semrush.com/bot.html)
    2. Mozilla/5.0 (compatible; Qwantify/2.2w; +https://www.qwant.com/)/*




    Viele Grüße!

    Einmal editiert, zuletzt von nim ()

  • Mozilla/5.0 (compatible; SemrushBot/1.1~bl; +http://www.semrush.com/bot.html)

    Das doofe teil hat immer mein 3.1 forum abschmieren lassen, das hat so dermaßen viele sessions generiert dass selbst meine großzügig bemessenen einstellungen für MySQL Memory Tables schnell ausgereits zwaren...
    Also gleich mal gesperrt, braucht keiner das Teil und der Hinweis dass es bis zu 14 Tage dauern kann bis ne geänderte robots.txt erkannt und genutzt wird war auch nicht sehr hilfreich :P

  • Suchmaschinen-Roboter und "normale" Spider werden anhand ihrer User-Agents identifiziert. In deinem Falle würde ich darauf tippen, dass das irgendein privater Crawler ist, der einen gefälschten User-Agent nutzt und allein aus dem Grund schon gesperrt werden sollte.