Visualizzazione risultati 1 fino 17 di 17

Discussione: Googlebot "pesante"

  1. #1
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito Googlebot "pesante"

    Salve a tutti.
    Lo scorso febbraio ho aperto un sito su hosting web a pagamento.
    Bene....il sito (un forum) ha generato un certo traffico, più o meno intenso durante l'anno, ma ultimamente abbastanza stabile....quello di cui mi sono accorto è che però col tempo googlebot mi sta "saturando" tutta la banda a mia disposizione.

    Nello specifico:

    Febbraio: 200kb (forum partito a fine mese)
    Marzo: 17mb
    Aprile: 64mb
    Maggio: 1.88gb
    Giugno: 825mb
    Luglio: 904mb
    Agosto: 1.35gb
    Settembre: 670mb
    Ottobre: 4.14gb
    Novembre: 9.21gb
    Dicembre: 12.25 (ad oggi)

    Come potete ben vedere, a fronte di 15gb di banda mensile disponibile, ed a fronte di un traffico sul forum mediamente stabile, i valori sono schizzati a dismisura negli ultimi periodi. Che faccio?

  2. #2
    L'avatar di heracleum
    heracleum non è connesso Utente storico
    Data registrazione
    21-01-2004
    Messaggi
    3,333

    Predefinito

    1) ma sei sicuro che sia principalmente il googlebot a succhiarti tutta la banda??? non penso proprio. Hai SOLO il forum? o saranno piuttosto risorse come tuoi filmati, audio, immagini che vengono linkati e usati esternamente in altri siti (leeching).
    2) cambia hosting per es. con quello mio potrei andare oltre 2000GB al mese (e non ho scritto male) e stai in pace.
    Avvertimento: richiedere in privato questioni tecniche produrrà inevitabilmente una supercazzola prematurata come risposta. (5 served)

  3. #3
    Guest

    Predefinito

    Citazione Originalmente inviato da heracleum
    2) cambia hosting per es. con quello mio potrei andare oltre 2000GB al mese (e non ho scritto male) e stai in pace.
    ehm che hosting hai?

    cià!

  4. #4
    Ospite Guest

    Predefinito

    Hera posta l'hosting su...

  5. #5
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    Citazione Originalmente inviato da heracleum
    1) ma sei sicuro che sia principalmente il googlebot a succhiarti tutta la banda??? non penso proprio. Hai SOLO il forum? o saranno piuttosto risorse come tuoi filmati, audio, immagini che vengono linkati e usati esternamente in altri siti (leeching).
    si, sono sicurissimo.
    Il forum è solo forum, non ci sono video, audio e robe che possano prendere tutta sta banda.
    Ho cancellato il sitemap, giusto per togliermi il dubbio.
    Che posso fare?

  6. #6
    Guest

    Predefinito

    La mia opinione francamente è che sia impossibile che googlebot ti saturi la banda o che occupi tutta questa banda... dato che al massimo fa capolino sulla pagina , da una occhiata e se ne va...

    Sei sicuro invece che qualcuno non si sia intrufolato nel tuo server, gli abbia messo su un bell'ftp e lo stia usando per motivi illegali? (E' una ipotesi..)

  7. #7
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    ti dico con sicurezza che è googlebot.
    Dalle statistiche c'è il report di tutti gli spider che vengono a trovarmi, e se gli altri (yahoo, msn ecc) sono molto discreti e non superano un certo minimo di mb al mese, googlebot mese per mese ha subito questi assurdi incrementi che non capisco. Per conferma ogni volta vado a vedere l'ip dello spider e corrisponde a quello di googlebot (ulteriore conferma poi dalle stats). Aggiungo che è solo forum, non c'è audio, nè video, nè altro che possa prendere banca nel traffico del forum. Come se non bastasse, anche l'ip dello spider corrisponde a quello di google.

    Dite che se metto un file robots.txt con scritto questo (leggevo alcune cose sul web), posso risolvere, almeno momentaneamente?

    User-agent: googlebot
    Disallow: /

  8. #8
    Guest

    Predefinito

    Il mio sito pure è strabersagliato da googlebot... Nonostante non abbia un gran giro di utenti..

    Hai potuto monitorare quanta banda ti occupa ogni connessione?..

    Si comunque puoi provare la strada del disallow mediante robot.txt

    Inoltre imposta un lungo tempo di latenza in termini di giorni per il passaggio di googlebot (c'è un apposito metatag "REVISIT AFTER") cerca su google non ricordo i dettagli al riguardo..

    Però non so fino a che punto abbia senso cercare di tenere lontano googlebot dal momento che piu si diverte a fare i giri nelle tue pagine piu è facile che ti indicizzi..

    Quante connessioni al giorno ti fa googlebot? A me googlebot e spider vari fanno oltre 150 connessioni al giorno (piu degli stessi visitatori del sito ) e credimi occupo pochissima banda..

    Altra alternativa: Il tuo sito è in php? bene.. Fai in modo che se l'utente che si connette al tuo sito è googlebot allora fai in modo di limitarne l'accesso in qualche modo, tipo dirottarlo da un'altra pagina con un bell'header

  9. #9
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    purtroppo non sono praticissimo di queste cose, ma prima di studiare le alternative senza rinunciare a google, intanto vorrei fermarlo, in modo semplice e concreto.
    Ho appena uploadato un robot.txt ......ma a distanza di 20 minuti ancora google è scatenato e sembra "fregarsene"....

  10. #10
    Guest

    Predefinito

    Ma la pagina è php?.. Se è php allora si può discutere se filtrarlo mediante php o meno..

  11. #11
    L'avatar di heracleum
    heracleum non è connesso Utente storico
    Data registrazione
    21-01-2004
    Messaggi
    3,333

    Predefinito

    @ccardello:
    "sicurissimo" come?
    ad ogni modo, la prima cosa che mi viene in mente in caso di emergenza, metti nella root del sito il solito file robots.txt con il disallow per i bot (cerca su google o qui nel forum non mi ricordo di preciso la sintassi)
    così blocchi sicuramente i bot "BUONI" (quelli rispettosi delle tue direttive, non i crawler selvaggi) come i bot di google e altri mdr.
    Vedi se si riduce.. ma qualcosa mi dice che hai già vagliato l'ipotesi scartandola (?).

    @sitoutile+rock:
    l'hosting è servage già se n'era parlato, allora erano disponibili "solo" 512GB/m poi hanno guadualmente aumentato fino a quadruplicare visto che gli affari andavano bene.
    Avvertimento: richiedere in privato questioni tecniche produrrà inevitabilmente una supercazzola prematurata come risposta. (5 served)

  12. #12
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    è un forum phpbb, quindi si, tutto php...

  13. #13
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    @heracleum:
    User-agent: googlebot
    Disallow: /

    ho messo questo robot.txt ma a distanza di 30 minuti nulla è cambiato, lo spider è sempre li che fa quel che vuole.
    Come detto al momento mi interessa bloccarlo e basta, penserò dopo a come "mantenere senza sprechi" google nel mio forum......
    Sicurissimo? si, qui ne hai le prove, mese di dicembre: http://img413.imageshack.us/my.php?i...board01yt8.jpg (oltretutto anche l'ip dello spider corrisponde realmente a quello di googlebot).

  14. #14
    Guest

    Predefinito

    C'è altra gente che ha avuto il tuo stesso problema:

    http://forums.digitalpoint.com/showthread.php?t=26192

    e leggi qui, c'è anche un modo per risolvere il problema:

    http://en.wikipedia.org/wiki/Googlebot

    A problem which webmasters have often noted with the Googlebot is that it takes up an enormous amount of bandwidth. This can cause websites to exceed their bandwidth limit and be taken down temporarily. This is especially troublesome for mirror sites which host many gigabytes of data.

    If, as a webmaster, you register your website on Google Webmaster Tools you can somewhat hint the Googlebot about what pages are to index and what are the priorities of each. You can also configure the bot to crawl your website less frequently. All this is subject to creating a Google Account
    Fai una ricerca su google con le parole "google bandwidth"

  15. #15
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    grazie per l'aiuto, do un occhio ai link, il problema è l'inglese visto che non sono molto ferrato...vediamo un pò...

  16. #16
    ccardello non è connesso Utente
    Data registrazione
    05-11-2003
    Messaggi
    162

    Predefinito

    in realtà a quanto ho capito non è tanto un modo per risolvere il problema ma per tamponarlo....la cosa più strana, e che non capisco, è che non mi spiego come mai robots.txt (attivo da poco meno di 1 ora) sia del tutto inutile dato che lo spider continua a fare quel che vuole....ci vuole del tempo o in teoria dovrebbe agire da subito?

    EDIT:
    Per limitare l'uso di larghezza di banda, Googlebot scarica il file robots.txt solo una volta al giorno o nel caso in cui siano state acquisite molte pagine dal server. Per questo motivo, la rilevazione delle modifiche apportate al file robots.txt può non essere immediata
    il link è questo: http://www.google.it/support/webmast...575&topic=8460

    in sostanza aspetto 24 ore e poi vedo...dite posso star tranquillo?

    ps: intanto, ore 17.50, nessun risultato degno di nota...
    Ultima modifica di ccardello : 29-12-2006 alle ore 18.48.48

  17. #17
    L'avatar di NoWhere
    NoWhere non è connesso Moderatore
    Data registrazione
    14-02-2003
    Residenza
    New Balarm
    Messaggi
    4,118

    Predefinito

    ccardello, smettila di fare post consecutivi ed utilizza invece il tasto EDITA!!

Regole di scrittura

  • Non puoi creare nuove discussioni
  • Non puoi rispondere ai messaggi
  • Non puoi inserire allegati.
  • Non puoi modificare i tuoi messaggi
  •