Limitazioni a file_get_contents e whitelist

29-01-2013, 22.49.56

Salve a tutti,

premetto che ho provato a googlare un po' per trovare da solo la risposta, ma ho trovato spunti anche troppo tecnici.

avrei una domanda, e spero non sia la 500esima volta che viene affrontata.

Se ho ben capito, tramite il comando "file_get_contents" è possibile reperire il sorgente delle pagine web a patto che esse figurino nella whitelist, come nel caso di wikipedia ad esempio...

Quello che non mi è chiaro è il motivo per il quale solo alcuni "siti" compaiano su questa whitelist.

Mi spiego: se io volessi recuperare il sorgente di una determinata pagina con il comando file_get_contents, in alcuni casi come detto non lo potrei fare, però se da browser chiedessi di visualizzare il sorgente della stessa pagina, riuscirei poi ad ottenere quello di cui ho bisogno (magari con copia e incolla, salvandolo su un file).

A parte doverlo fare a mano, il risultato non è comunque lo stesso?

E' questo che non riesco a capire; non è che lo ritenga ingiusto, è che proprio ve lo chiedo. :)

E' per caso vietato prelevare parti di HTML da altri siti? se così fosse non mi spiegherei la possibilità di poter visualizzare il sorgente da browser.

Spero di essere stato chiaro, come spero sia chiara la mia ignoranza in materia ;)

Grazie per la lettura

**dreadnaut** · 29-01-2013, 23.06.13

Via pannello puoi sbloccare le connessioni server-2-server e a quel punto non sei più limitato ai siti della whitelist.

Questa esiste come livello di sicurezza aggiuntivo: siccome con le connessioni server-2-server si potrebbero creare problemi ad altri, è necessario sbloccarle volontariamente; così è meno probabile che vengano sfruttate da malware.

29-01-2013, 23.28.46

Originalmente inviato da dreadnaut

Via pannello puoi sbloccare le connessioni server-2-server e a quel punto non sei più limitato ai siti della whitelist.

Questa esiste come livello di sicurezza aggiuntivo: siccome con le connessioni server-2-server si potrebbero creare problemi ad altri, è necessario sbloccarle volontariamente; così è meno probabile che vengano sfruttate da malware.

Intanto, grazie dreadnaut per la risposta immediata ed esaustiva.

Quindi in sostanza, se io volessi fare il "fotocopiatore" di HTML di un altro sito (passami il termine rozzo ma che credo renda l'idea) mediante il comando file_get_contents, postandolo eventualmente su un mio spazio, non ci sarebbero problemi?

E' ovvio che il mio intento non è questo, però avrei necessità di recuperare quotidianamente dei dati pubblicati da un sito per potermi di fatto costruire un mio database personale a partire appunto da tali sorgenti...

Mi domandavo quindi se ci fosse qualche tipo di "politica globale" che impedisse di farlo e che da questa fosse appunto scaturita l'idea delle white list...

Il punto è che non vorrei mettermi a fare qualcosa, investendo tempo, senza sapere che magari sto facendo qualcosa di non consentito... il che mi sembrerebbe 1) stupido e 2) fuori luogo

**javascripter** · 29-01-2013, 23.36.50

Nel momento in cui "sblocchi" la white list, ovvero attivi le connessioni server2server senza limitazioni, altervista può controllare le richieste che effettui e qualora ci fosse qualcosa di sospetto credo che potrebbe anche prendere dei provvedimenti (non so di che genere).

Però c'è da dire che non è vietato prelevare HTML da altri siti, in generale no.
Un browser prevela l'HTML dai siti e lo interpreta.

Dipende da cosa farai del contenuto, a quel punto, io credo che dovrai chiedere all'amministratore del sito il permesso di prelevare i dati che ti servono e farne ciò che vuoi.

29-01-2013, 23.56.44

è questo il punto javascripter, hai centrato il bersaglio: non so quali sono i confini, ammesso che ci siano...

nel mio caso, mi piacerebbe costruire un database a partire dai riepiloghi di eventi sportivi che vengono pubblicati da espn (ma anche dalla gazzetta dello sport, per capirci); loro pubblicano il referto delle gare (in maniera tabellare tipicamente) e io a partire dall'HTML andrei a riempire il mio DB articolato in base alle mie esigenze...

detta così, nella mia ingenuità (o buona fede), mi pare del tutto lecito visto che ci sono decine e decine di siti che pubblicano quotidianamente gli stessi dati differendo solo per il layout... il punto è che io questi dati non ce li ho e vorrei recuperarli in qualche modo...

però non mi ci vedo molto a scrivere al "signor ESPN" per chiedere il permesso a "get"are i suoi dati :-D

intanto, grazie per le riposte ragazzi; fa piacere confrontarsi con moderatori gentili e non spocchiosi!

**dreadnaut** · 30-01-2013, 17.10.39

Direi che la cosa migliore è investigare: cercando nba data api si trovano diverse discussioni e risorse che potrebbero esserti utili. Guardati magari le prime pagine di risultati.

Che mi sono saltate all'occhio:
http://riccomini.name/posts/game-tim...res-stats-api/
http://developer.sportsdatallc.com/docs/NBA_API

Discussione: Limitazioni a file_get_contents e whitelist

LinkBack

Strumenti discussione

Display

Limitazioni a file_get_contents e whitelist

Regole di scrittura