Visualizzazione risultati 1 fino 9 di 9

Discussione: GoogleBot bloccato?

  1. #1
    adw
    adw non è connesso Neofita
    Data registrazione
    10-06-2006
    Messaggi
    7

    Predefinito GoogleBot bloccato?

    Nella sezione degli "strumenti per webmaster" offerta da google da un po' di tempo rilevo che GoogleBot non riesce più a recuperare la sitemap del sito adw.altervista.org

    Ogni volta che google prova a riscaricare la sitemap, l'errore ricevuto è di tipo
    "Errore HTTP generale: Errore HTTP 403 (Non consentito)".

    Il file che GoogleBot cerca di acquisire è http://adw.altervista.org/sitemap.txt


    Verso la fine di febbraio il sito è stato oggetto di attacchi con uno script che utilizzava l'IP del GoogleBot (probabilmente mediante spoof, non ho approfondito l'argomento. Purtroppo il Nuke Sentinel ha bannato automaticamente l'IP, impedendo al crawler di visitare le pagine nei giorni seguenti).

    Ho rimosso il ban da Nuke Sentinel da una settimana, gli IP di google hanno la possibilità di accedere liberamente, ma tutt'ora GoogleBot da errore 403 (accedendo al file di testo che non dipende comunque da Nuke).

    L'ultima volta che ha provato è stata circa mezz'ora fa, nel tentativo di accedere al file sitemap.txt (Fino a qualche mese fa accedeva liberamente a quel file).



    Ho fatto qualche ricerca e ho scoperto che anche altre persone hanno avuto un problema simile, e quelli che lo hanno risolto il sono coloro che hanno notato un blacklisting di quel determinato IP da parte del servizio di hosting. I loro hosting in quel caso avevano rilevato un comportamento troppo aggressivo/potenzialmente pericoloso.

    Potreste verificare per cortesia se è questa la situazione?

    @Mytecnology:
    Grazie per i suggerimenti.
    Per quanto riguarda l'indicizzazione delle pagine, so che non ha ancora visitato il sito, la copia cache di google è del 3 marzo e mostra ancora la pagina di blocco di phpnuke
    http://209.85.129.132/search?hl=it&q...meta=&aq=f&oq=

    Ma lo spider "GoogleAds" era pochi minuti fa tra i post del forum.
    Il ban dell'IP è stato rimosso la settimana scorsa, e nell'interfaccia web di google dice che il tentativo di accesso è stato rieffettuato circa un'ora fa.

    Ho provato sia con il file con permessi 664 che 775, editandoli mediante filezilla, ma nulla da fare.

    Ulteriori informazioni:
    Ho rimosso per sicurezza anche tutti gli IP bloccati dal sentinel che erano stati inseriti nel file .htaccess
    anche questa soluzione sembra non sortire effetti.
    Ultima modifica di adw : 11-03-2009 alle ore 16.54.09 Motivo: Aggiunta risposta.

  2. #2
    Guest

    Predefinito

    prova ad aspettare forse google bot non ha anora visitato la tua pagina da quando hai levato il ban all'ip,
    hai impostato i permessi in modo corretto?

  3. #3
    Guest

    Predefinito

    ma una sitemap non dovrebbe essere in xml?
    usa il generatore di sitemap di google
    http://code.google.com/p/googlesitemapgenerator/
    e carica la sitemap sul sito.
    se poi vuoi essere sicuro che googlebot la legga aggiungi un link alla sitemap nella homepage.

  4. #4
    adw
    adw non è connesso Neofita
    Data registrazione
    10-06-2006
    Messaggi
    7

    Predefinito

    Citazione Originalmente inviato da fortunecat Visualizza messaggio
    ma una sitemap non dovrebbe essere in xml?
    usa il generatore di sitemap di google
    http://code.google.com/p/googlesitemapgenerator/
    e carica la sitemap sul sito.
    se poi vuoi essere sicuro che googlebot la legga aggiungi un link alla sitemap nella homepage.
    Grazie anche a te per il suggerimento.

    Non necessariamente una sitemap deve essere in xml.

    Ho provato il generatore di google tempo fa, ma nuke faceva i capricci ed usciva una sitemap pasticciata.
    Piuttosto che perdere tempo con script e smanettamenti vari ho optato per l'opzione suggerita da google che è quella di fare un file .txt con un link per riga.
    Non so se negli ultimi tempi la situazione è cambiata, ma quel file è più che sufficiente per ciò di cui ho bisogno.

    (Ne ho comunque anche una in xml oltre a quella txt, ma è meno aggiornata e comunque il tool di google ha problemi a recuperarla)

    La "Site Map" inclusa in nuke (e collegata alle pagine del sito) http://adw.altervista.org/modules.php?name=Site_Map è stata indicizzata tempo fa.

    Il problema non è l'indicizzazione nè il fatto che il crawler passi, quello che mi risulta strano e che vorrei risolvere è che il tool che dovrebbe leggere la sitemap, quello di "Strumenti per i Webmaster" dell'account google, viene respinto (Errore 403), quando questo non dovrebbe accadere.

    Nel dubbio continuerò ad aspettare,
    comunque rinnovo i ringraziamenti ad entrambi per i vostri consigli.

  5. #5
    L'avatar di Gianluca
    Gianluca non è connesso Amministratore
    Data registrazione
    15-02-2001
    Messaggi
    18,035

    Predefinito

    Il file pare accessibile normalmente, quindi i permessi sembrano corretti.

    Il medesimo ip che da te viene bloccato riesce tranquillamente a prelevare le sitemap da altri siti, dovresti verificare se 66.249.70.188 è in qualche tua blacklist.
    Gianluca

  6. #6
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Verifica con google webmasters se la sitemaps è caricata correttamente:
    https://www.google.com/webmasters/tools/dashboard?hl=it

    C'è una sezione che ti permette di assegnare al sito il sitemaps o verificare che sia stato caricato correttamente.

    Un ultima cosa
    Il sitemaps è XML e risponde ad un preciso standard.
    I sitemaps non aiutano l'indicizzazione, ma permettono di migliorarla.
    Sono utili se ci sono delle pagine raggiungibili solo attraverso percorsi tortuosi o per selezionare i tempi di controllo.
    Nel mio caso ad esempio sarebbe utile fare un sitemaps per limitare il controllo dei vecchi post che sono sempre invariati per concentrarsi sulle nuove pagine.
    Esistono poi dei sitemaps personalizzati di google per alcuni casi speciali.
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  7. #7
    adw
    adw non è connesso Neofita
    Data registrazione
    10-06-2006
    Messaggi
    7

    Predefinito

    Citazione Originalmente inviato da Gianluca Visualizza messaggio
    Il file pare accessibile normalmente, quindi i permessi sembrano corretti.

    Il medesimo ip che da te viene bloccato riesce tranquillamente a prelevare le sitemap da altri siti, dovresti verificare se 66.249.70.188 è in qualche tua blacklist.
    Ho rifatto una verifica per essere sicuro di non aver tralasciato nulla. L'unico tool di blacklisting è il "nuke sentinel", ma l'IP lì non compare (son stati già rimossi tutti in precedenza sia dal database che dal .htaccess e non ne sono stati inseriti di nuovi).

    La cosa strana è che nel pannello del mio sito vedo che googlebot con quell'IP gironzola senza problemi (=accede tranquillamente alle le pagine del sito).

    Citazione Originalmente inviato da binarysun
    Verifica con google webmasters se la sitemaps è caricata correttamente:
    https://www.google.com/webmasters/tools/dashboard?hl=it

    C'è una sezione che ti permette di assegnare al sito il sitemaps o verificare che sia stato caricato correttamente.
    Come ho scritto nel post di apertura, è proprio in quella sezione che rilevo l'errore.
    In realtà se non fosse per quel messaggio, non noterei alcun cambiamento nel comportamento di GoogleBot, anzi, è sempre lo stesso: ogni volta che qualcuno visita un topic vecchio, il bot se ne fa una ripassata.
    Questo screenshot fatto pochi istanti della barra laterale destra del sito mostra uno scenario abbastanza comune:

    (Gli IP sono visibili solo agli amministratori.)

    In realtà se non fosse per quel messaggio di errore nel pannello del webmaster tool, non noterei nulla di particolare.
    Proverò a chiedere al supporto di Google se sanno darmi qualche informazione in merito.
    In ogni caso, vi ringrazio per l'aiuto.

    EDIT: Comunque ora grazie a Gianluca so con certezza che il bot non è bloccato da Altervista, quindi il problema è da ricercare altrove.
    Ultima modifica di adw : 12-03-2009 alle ore 00.51.30

  8. #8
    Guest

    Predefinito

    oltre a quello di google esistono altri strumenti per creare sitemap.
    nel footer della pagina ti converrebbe mettere il link alla sitemap in txt o meglio in xml anzichè quella in html http://adw.altervista.org/modules.php?name=Site_Map.

  9. #9
    adw
    adw non è connesso Neofita
    Data registrazione
    10-06-2006
    Messaggi
    7

    Predefinito

    Il problema si è risolto.
    Solo che non si sa nè come, nè perchè.

    Qualche giorno fa ho mandato una email al supporto di google, e ho ricevuto il classico messaggio automatico "Grazie per averci contattato, bla bla bla..."

    In ogni caso, nel pannello degli strumenti per webmaster ora l'errore è scomparso e mi dice che l'ultimo accesso alla sitemap avvenuto con successo è stato effettuato sabato mattina.

    Citazione Originalmente inviato da fortunecat
    oltre a quello di google esistono altri strumenti per creare sitemap.
    Provati anche altri generatori stesso risultato.
    Ho intenzione di sostituire nuke con qualcosa di meglio quando avrò un po' di tempo.

    Citazione Originalmente inviato da fortunecat
    nel footer della pagina ti converrebbe mettere il link alla sitemap in txt o meglio in xml anzichè quella in html http://adw.altervista.org/modules.php?name=Site_Map.
    Il problema non era quello di far indicizzare le pagine ma, come spiegato nel post di apertura, quello di capire perchè lo strumento per webmaster dava "errore 403".

    Comunque,
    grazie a tutti per i suggerimenti.

Regole di scrittura

  • Non puoi creare nuove discussioni
  • Non puoi rispondere ai messaggi
  • Non puoi inserire allegati.
  • Non puoi modificare i tuoi messaggi
  •