Visualizzazione risultati 1 fino 23 di 23

Discussione: Vietare Indicizzazione di pagine con parametri casuali non esistenti

  1. #1
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito Vietare Indicizzazione di pagine con parametri casuali non esistenti

    ho un problema con le url.
    Per qualche motivo ogni parametro che passo viene accettato.
    Mi spiego.

    una pagina http://binarysun.net/archivio.php
    Se scrivo http://binarysun.net/archivio.php/cicciapelosa/bastonenodoso/
    Funziona lo stesso.

    La cosa non mi disturbava molto fino a quando mi sono accorto che google mi sta indicizzando usando parametri altamente casuali.

    Si può bloccare questa cosa da htaccess?

    [seneca] Almeno tu, uno sforzo a scrivere titolo più espliciti...
    Ultima modifica di seneca : 14-02-2009 alle ore 14.43.06
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  2. #2
    L'avatar di miki92
    miki92 non è connesso AlterGuru 2500
    Data registrazione
    21-04-2007
    Residenza
    Procida (NA)
    Messaggi
    4,233

    Predefinito

    Più che altro penso che puoi bloccare questa cosa con il file robots.txt
    Apprezzi l'aiuto? Offrimi un caffè!

  3. #3
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    Se google indicizza pagine con nomi strani, e' perche' questi nomi strani esistono da qualche parte: sono sul tuo sito, o fuori? Cio' che puoi fare e' dare dei 404 quando i parametri sono sbagliati, oppure redirezionare ad un livello piu' in alto nel sito.

  4. #4
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Da htaccess è sicuramente possibile, ma non so farlo.
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  5. #5
    Guest

    Predefinito

    A questo punto non è meglio impostare tramite htaccess un error document 404 se la pagina non esiste?

  6. #6
    Guest

    Predefinito

    Come ha detto lbz3d sarebbe la soluzione migliore,anche se dreadnaut lo ha detto fin dall'inizio, scrivendo questo nell'htaccess:

    Codice:
    ErrorDocument 404 http://binarysun.net/pagina-da-visualizzare-se-questa-non-esiste
    Ultima modifica di nokiagames : 13-02-2009 alle ore 17.46.02

  7. #7
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    ma il mio problema è che queste pagine sono molte!
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  8. #8
    Guest

    Predefinito

    In google webmaster ti dice anche da dove arrivano se sei iscritto.

    In ogni caso il 404 via htaccess è la cosa migliore. Google non le indicizza se gli viene restituito

  9. #9
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Il problema è che le visite provengono da loro stessi!
    Cioè i link sono relativi, e quindi se la pagina in cui legge google è pippo.php/ciao/
    tutti i link all'interno punteranno a pippo.php/ciao/pagina.php aggravando il problema
    E' qualcosa che si autoalimenta

    EDIT:
    Per ora ho risolto aggirando il problema.
    La cosa accade solo su uno script e quindi ho bloccato via htaccess solo quelllo script aggiungendo un
    RewriteRule ^archivio.php/(.*) [R=404]

    Ogni volta che verrà richiamato archivio.php/ verrà bloccato tutto, così trovo la fonte di tutti i mali.
    Ultima modifica di seneca : 14-02-2009 alle ore 21.22.24
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  10. #10
    Guest

    Predefinito

    Si alimenta per il smeplice fatto che se tu scrivi:
    Codice HTML:
    <a href="pagina.php">Link</a>
    è ovvio che il link viene genrato in base alla directory in cui si sta visualizzando. Anche utilizzando il mod_rewrite quella viene considerata tale.

    Quindi dovresti scrivere così se le pagina sono archivio.php/ciao/:
    Codice HTML:
    <a href="./pagina.php">Link</a>
    Così ti riporterà a archivio.php/ciao/pagina.php

  11. #11
    Guest

    Predefinito

    Citazione Originalmente inviato da binarysun Visualizza messaggio
    ma il mio problema è che queste pagine sono molte!
    Ma se imposti l'errore 404 gestisce tutto da solo
    Ad esempio se vai in /cicciapelosa/pagina.php,in automatico andrà nel file che hai impostato tramite htaccess cioè in una pagina di errore

  12. #12
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Citazione Originalmente inviato da biccheddu Visualizza messaggio
    Si alimenta per il semplice fatto che se tu scrivi:
    Codice HTML:
    <a href="pagina.php">Link</a>
    è ovvio che il link viene generato in base alla directory in cui si sta visualizzando. Anche utilizzando il mod_rewrite quella viene considerata tale.

    Quindi dovresti scrivere così se le pagina sono archivio.php/ciao/:
    Codice HTML:
    <a href="./pagina.php">Link</a>
    Così ti riporterà a archivio.php/ciao/pagina.php
    Forse non capite che i link errati vengono dagli utenti, a volte li controllo ma non sempre.
    Le soluzione sarebbe mettere sempre link assoluti, ma non voglio per varie ragioni di portabilità.

    PS
    Grazie a seneca per aver cambiato il titolo del 3D
    ....ma quello non è un titolo, è un post!
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  13. #13
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    Citazione Originalmente inviato da binarysun Visualizza messaggio
    Il problema è che le visite provengono da loro stessi!
    Cioè i link sono relativi, e quindi se la pagina in cui legge google è pippo.php/ciao/
    tutti i link all'interno punteranno a pippo.php/ciao/pagina.php aggravando il problema
    E' qualcosa che si autoalimenta
    Link assoluti, fine. Non riesco a pensare ad un motivo tanto buono che ti spinga a non usarli, creando il circolo vizioso e costringendoti a vietare forzatamente pagine che esistono ma non vorresti esistessero.

    Se ti trovi in una situazione simile, forse devi ripensare il modo in cui crei quelle pagine

  14. #14
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Il motivo? semplice, il giorno che passerai da tuonome.altervista.org a tuonome.it lo scoprirai, oppure quando deciderai di cambiare livelli.
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  15. #15
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    Bla bla bla. fatti concreti, oppure è solo un caso di pigrizia implementativa?

    se cambi dominio o livelli, puoi cambiare tutto, vista che il motore di ricerca ripartirà da zero. A livello di codice, non vedo perché tu non possa mantenere in un file di configurazione informazioni sul path delle varie sezioni, in modo da cambiarle in un solo punto...
    Ultima modifica di dreadnaut : 15-02-2009 alle ore 14.19.27

  16. #16
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Non voglio modificare tutti i link a runtime.
    Questo rallenta l'esecuzione delle pagine.
    Su una macchina mia lo potrei fare, ma sugli hosting a basso costo questo potrebbe rallentarmi molto.
    Una soluzione sarebbe quella di utilizzare le baseurl.
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  17. #17
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    e secondo te rallenta più la concatenazione di 20-40 stringhe in alcune pagine, o la compilazione ed esecuzione di più espressioni regolari per ogni richiesta ?

    btw, cache, se è un problema così grande

  18. #18
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    La concatenazione viene fatta lato client dal browser, non lato server.
    Pensala come vuoi, ma i path relativi non sono certo una mia invenzione.
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  19. #19
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    no, io stavo parlando di configurazione + modificare i link a runtime, cosa che avviene lato server (è php) ma che dici di non voler fare, versus non risolvere il problema ma aggiustarlo dopo via htaccess, anch'esso lato server. E concatenare delle stringhe in php è meno costoso di eseguire regexp per ogni richiesta di file.

    I path relativi non sono un problema in sè, li uso anch'io qua e la, ma evito il problema della ciclicità mettendo path assoluti la dove il ciclo potrebbe aver inizio. E se un giorno dovrò spostare il mio sito da un'altra parte, o cambiare posizione di qualche directory, farò un "cerca... sostituisci" e via. Decisamente più sensato di vietare url via htaccess, oppure no?

  20. #20
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Forse non ho capito.
    Modificare lato htaccess significa semplicemente redirigere la pagina se l'url non è come diciamo noi, non è pesante, dato che è un semplice "if" (la stessa cosa la fa questo forum).
    La tua soluzione comporta la ricerca di tutti i link presenti in un post con regex e sostituzione, la cosa è fattibile ma viene fatta ad ogni ricerca, è pesante in caso di intense richieste (vedi spammer), le pagine si potrebbero rallentare.

    Per quanto riguarda il cerca e sostituisci... ho più di 4000 pagine... dovrei farmi un programma che lo fa per me, dovrei perderci tempo, con il rischio di non trovare alcuni link perché magari scritti male o con un link, etc.
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  21. #21
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    o forse non avevo capito io ma forse inizia a vedersi la luce: i link di cui stiamo parlando non sono link di struttura/a sezioni/tag/gruppi/gallerie, ma sono proprio link all'interno del testo di queste pagine? tu recuperi le pagine da file/database/cache e le butti fuori così come sono senza nessuna elaborazione?

    se questo è il caso, allora la "riconfigurazione" non è così semplice, hai perfettamente ragione. Ti toccherebbe passare tutto attraverso sed o l'equivalente di sed per i database e convertire i link, oppure farlo a runtime e sarebbe si costoso.

    Io mi immaginavo link a diverse sezioni, che disegnavano l'albero del sito, ma che erano fissi o relativi a classi di contenuto, e quindi venivano elaborati prima di diventare html. A quel punto, aggiungere i path nell'elaborazione era meno costoso dell'aggiungere regexp via htaccess. La rewrite engine di per se è quasi un if, ma elaborando espressioni regolari è abbastanza costosa. Se conti che l'elaborazione avverrebbe ad ogni richiesta, allora sommare stringhe in php è più leggero. Questo nel mio modello semplicistico che mi ero fatto del tuo sito

  22. #22
    L'avatar di binarysun
    binarysun non è connesso Utente storico
    Data registrazione
    02-07-2004
    Messaggi
    2,017

    Predefinito

    Esatto non ci eravamo capiti, il mio è un blog, ed il problema dei link l'ho nei post.

    Cmq i vari motori di ricerca dopo aver letto il mio post, IERI, hanno deciso di implementare le canonical url.
    http://googlewebmastercentral.blogsp...canonical.html
    Cosa farebbe google senza di me!
    "L'intelligenza è una pianta che va curata continuamente.
    Dovreste vedere com'è bello, il mio bonsai."
    Rat-man®

    [Gradient Text]
    [Su che server sei?]
    ->flickr

  23. #23
    L'avatar di dreadnaut
    dreadnaut non è connesso Super Moderatore
    Data registrazione
    22-02-2004
    Messaggi
    6,306

    Predefinito

    Citazione Originalmente inviato da binarysun Visualizza messaggio
    Esatto non ci eravamo capiti, il mio è un blog, ed il problema dei link l'ho nei post.
    anch'io ho un blog, ma "compilo" i post prima di visualizzarli e i link interni presenti nei post sono codificati tipo blog:data o foto:titolo. Aggiungi un po' di cache per le pagine, e posso cambiare la struttura in una sola passata.

    Citazione Originalmente inviato da binarysun Visualizza messaggio
    Cmq i vari motori di ricerca dopo aver letto il mio post, IERI, hanno deciso di implementare le canonical url.
    http://googlewebmastercentral.blogsp...canonical.html
    Cosa farebbe google senza di me!
    meraviglioso tempismo nonche' utilerrimo, grazie della segnalazione

Regole di scrittura

  • Non puoi creare nuove discussioni
  • Non puoi rispondere ai messaggi
  • Non puoi inserire allegati.
  • Non puoi modificare i tuoi messaggi
  •