Visualizzazione risultati 1 fino 5 di 5

Discussione: Web Scraping

  1. #1
    efullmanualsoccer non è connesso Utente Blog
    Data registrazione
    29-10-2023
    Messaggi
    5

    Predefinito Web Scraping

    Ciao a tutti,
    Ho una sito per la gestione di un torneo, in particolare una pagina fa web scraping dal sito di Transfemarket.com e Fatantacalcio.it per ottenere alcuni valori e immagini.
    Improvvisamente da ieri ha smesso di funzionare


    Per il webscraping uso include('simple_html_dom.php');

    Riporto una parte del codice

    $urlfantacalcio = 'https://www.fantacalcio.it/serie-a/squadre/'.$row_playerData['team_real'].'/'.$playerAlias.'/'. $fantaID;

    include('simple_html_dom.php');


    // Fetch HTML content
    $htmlfantacalcio = file_get_html($urlfantacalcio);


    // Fetch player fantacalcio name
    $FCplayerName = $htmlfantacalcio->find('#meta-player > header > h1', 0)->plaintext;


    Qualcuno sa darmi una mano a risolvere?

    Grazie

  2. #2
    GraphOGLRisorse non è connesso AlterGuru 2500
    Data registrazione
    14-02-2015
    Messaggi
    4,420

    Predefinito

    Salve,
    è probabile che siano state bloccate le chiamate. Se lo si fa con un sito proprio (e se l'hosting dove risiede lo consente) non c'è problema, ma con siti che chiaramente sono di altri titolari, non sta bene e non è corretto farlo.

    Ci sono ben altre vie, che normalmente si usano per passare dei dati tra siti. Lo scraping non è una buona pratica per ricavare dei dati. In generle, si usano delle API apposite per gestire lo scambio di informazioni tra siti diversi o in alternativa, script ad esempio per i feed RSS.

    Azichè consumare a scrcrocco la banda di quei siti (es. con le immagini), dovrebbe informarsi se forniscono loro dei mezzi regolari da implementare sul sito per fare ciò che le serve.

    Poi anche per le immagini, dubito che quelle prelavate da quei siti siano di pubblico dominio. Quindi attenzione ad usarle senza i permessi (intendo da parte dei siti coinvolti).

    PS.
    Una domanda, così, solo per mia curiosità.

    A lei starebbe bene se qualcuno da un'altro sito, decidesse senza il suo permesso, di consumare la banda del suo sito per fare azioni di scraping?

    Non è obbligato a rispondere, se non vuole farlo, anche se non mi dispiacerebbe avere una sua risposta in merito.

    Cordiali saluti.
    Ultima modifica di GraphOGLRisorse : 06-02-2025 alle ore 05.02.08

  3. #3
    efullmanualsoccer non è connesso Utente Blog
    Data registrazione
    29-10-2023
    Messaggi
    5

    Predefinito

    Gentilissimo, grazie per la risposta e tutte le delucidazioni.

    Sono d'accordo con lei, non sarei felice se qualcuno lo facesse a me. Ma sono onesto, non ero a conoscenza di quanto descritto.

    Quello che non capisco è l'improvviso mal funzionamento

    In ogni caso, dove posso trovare qualche guida sull'utiilizzo di qualche API o altre alternative?

    Grazie
    Ultima modifica di efullmanualsoccer : 06-02-2025 alle ore 08.41.13

  4. #4
    GraphOGLRisorse non è connesso AlterGuru 2500
    Data registrazione
    14-02-2015
    Messaggi
    4,420

    Predefinito

    Citazione Originalmente inviato da efullmanualsoccer Visualizza messaggio
    Quello che non capisco è l'improvviso mal funzionamento
    Come ho già accennato, non penso si tratti di un mal funzionamento ma di un blocco delle chiamte. Se il blocco è simultaneo per entrambi i siti esterni, probabilmente è stato eseguito lato AlterVista. Per eventuali riscontri bisgnerebbe sentire i tecnici. In goni caso, avere la conferma su chi blocca le chiamate non cambia la situazione.

    Citazione Originalmente inviato da efullmanualsoccer Visualizza messaggio
    In ogni caso, dove posso trovare qualche guida sull'utiilizzo di qualche API o altre alternative?
    L'uso di API o alternave di terzi, se usati in modo analogo allo scaping, la stuazione non cambia. Perchè sia lecito, deve usare eventuali risorse che i rispettivi siti mettono a disposizione per fare ciò che le serve. Se quei siti non hanno mezzi, fornisicono mezzi loro, non ci sono molte possiblità.

    Può sempre tentare di risolvere sbloccando le Connessioni Server To Server, ma non cambia la questione di non avere l'autorizzazione sul materiale (immagini) dei rispettivi siti. Fronzando la mano però, secondo me rischia (Un esempio).

    L'unica soluzione che mi sembra valida, è quella di contattare lo staff di entrambi siti e sentire se sono dsiposti a condividere il loro materiale col suo sito.

    Cordiali saluti.
    Ultima modifica di GraphOGLRisorse : 06-02-2025 alle ore 14.55.39

  5. #5
    L'avatar di alemoppo
    alemoppo non è connesso Staff AV
    Data registrazione
    24-08-2008
    Residenza
    PU / BO
    Messaggi
    22,905

    Predefinito

    Non credo sia stato bloccato lato AlterVista, però posso chiedere. Piuttosto è probabile che i siti coinvolti hanno bloccato le richieste dei tuoi siti.
    Posso avere una URL di prova? Quelle fornite nel primo messaggio hanno variabili PHP da sostituire.

    Ciao!

Regole di scrittura

  • Non puoi creare nuove discussioni
  • Non puoi rispondere ai messaggi
  • Non puoi inserire allegati.
  • Non puoi modificare i tuoi messaggi
  •