Visualizzazione risultati 1 fino 5 di 5

Discussione: buona sera, motore di ricerca inserire siti

  1. #1
    Guest

    Unhappy buona sera, motore di ricerca inserire siti

    salve sto progettando un motore di ricerca per il web mi dite come posso inseire i siti nel mio database...?
    ma li devo inserire manualmente?....

  2. #2
    L'avatar di darkwolf
    darkwolf non è connesso Salvatore Noschese
    Data registrazione
    18-04-2007
    Residenza
    Reggiolo (RE)
    Messaggi
    6,558

    Predefinito

    Cioè stai progettando un motore di ricerca senza sapere come funzionano i motori di ricerca?
    Allora: o ti organizzi una struttura a mo di directory (gli utenti segnaleranno i siti e eventuali editor li inseriranno in apposite categorie) o vedi di realizzare un crawler che inizi ad indicizzare il web (mi sa che non sarà facile).

  3. #3
    Guest

    Predefinito

    scusa la mia ignoranza ma mi spiegli meglio come funzionano..
    il crawler come funziona? lui aggiunge i siti automaticamente? e invece la directory li fa aggiungere a gli utenti?

  4. #4
    L'avatar di darkwolf
    darkwolf non è connesso Salvatore Noschese
    Data registrazione
    18-04-2007
    Residenza
    Reggiolo (RE)
    Messaggi
    6,558

    Predefinito

    Qui troverai molte info utili su cos'è un motore di ricerca: http://it.wikipedia.org/wiki/Motore_di_ricerca

  5. #5
    Guest

    Exclamation

    grazie già avevo dato un occhiata ma non mi e chiaro questo concetto

    Per analizzare il web i motori di ricerca utilizzano dei programmi detti crawler (o spider o robot), che si occupano di visitare automaticamente gli URI contenuti nel database e seguire i successivi URI che trovano all'interno dei documenti analizzati, inserendo di volta in volta nel database tutte le informazioni "sensibili" della pagina (il contenuto testuale, varie informazioni su di essa come la data di ultimo aggiornamento, e altro).

    cioe questo robot inserisce automaticamnete le pagine nel mio databse?

    PS non so se puo servire ma nella root di goole ho trovato questo


    User-agent: *
    Allow: /searchhistory/
    Disallow: /search
    Disallow: /groups
    Disallow: /images
    Disallow: /catalogs
    Disallow: /catalogues
    Disallow: /news
    Disallow: /nwshp
    Allow: /news?btcid=
    Disallow: /news?btcid=*&
    Allow: /news?btaid=
    Disallow: /news?btaid=*&
    Disallow: /setnewsprefs?
    Disallow: /index.html?
    Disallow: /?
    Disallow: /addurl/image?
    Disallow: /pagead/
    Disallow: /relpage/
    Disallow: /relcontent
    Disallow: /imgres
    Disallow: /keyword/
    Disallow: /u/
    Disallow: /univ/
    Disallow: /cobrand
    Disallow: /custom
    Disallow: /advanced_group_search
    Disallow: /googlesite
    Disallow: /preferences
    Disallow: /setprefs
    Disallow: /swr
    Disallow: /url
    Disallow: /default
    Disallow: /m?
    Disallow: /m/?
    Disallow: /m/ig
    Disallow: /m/images?
    Disallow: /m/lcb
    Disallow: /m/news?
    Disallow: /m/news/i?
    Disallow: /m/setnewsprefs?
    Disallow: /m/search?
    Disallow: /m/trends
    Disallow: /wml?
    Disallow: /wml/?
    Disallow: /wml/search?
    Disallow: /xhtml?
    Disallow: /xhtml/?
    Disallow: /xhtml/search?
    Disallow: /xml?
    Disallow: /imode?
    Disallow: /imode/?
    Disallow: /imode/search?
    Disallow: /jsky?
    Disallow: /jsky/?
    Disallow: /jsky/search?
    Disallow: /pda?
    Disallow: /pda/?
    Disallow: /pda/search?
    Disallow: /sprint_xhtml
    Disallow: /sprint_wml
    Disallow: /pqa
    Disallow: /palm
    Disallow: /gwt/
    Disallow: /purchases
    Disallow: /hws
    Disallow: /bsd?
    Disallow: /linux?
    Disallow: /mac?
    Disallow: /microsoft?
    Disallow: /unclesam?
    Disallow: /answers/search?q=
    Disallow: /local?
    Disallow: /local_url
    Disallow: /froogle?
    Disallow: /products?
    Disallow: /froogle_
    Disallow: /product_
    Disallow: /products_
    Disallow: /print
    Disallow: /books
    Allow: /booksrightsholders
    Disallow: /patents?
    Disallow: /scholar?
    Disallow: /complete
    Disallow: /sponsoredlinks
    Disallow: /videosearch?
    Disallow: /videopreview?
    Disallow: /videoprograminfo?
    Disallow: /maps?
    Disallow: /mapstt?
    Disallow: /mapslt?
    Disallow: /maps/stk/
    Disallow: /maps/br?
    Disallow: /mapabcpoi?
    Disallow: /center
    Disallow: /ie?
    Disallow: /sms/demo?
    Disallow: /katrina?
    Disallow: /blogsearch?
    Disallow: /blogsearch/
    Disallow: /blogsearch_feeds
    Disallow: /advanced_blog_search
    Disallow: /reader/
    Disallow: /uds/
    Disallow: /chart?
    Disallow: /transit?
    Disallow: /mbd?
    Disallow: /extern_js/
    Disallow: /calendar/feeds/
    Disallow: /calendar/ical/
    Disallow: /cl2/feeds/
    Disallow: /cl2/ical/
    Disallow: /coop/directory
    Disallow: /coop/manage
    Disallow: /trends?
    Disallow: /trends/music?
    Disallow: /notebook/search?
    Disallow: /musica
    Disallow: /musicad
    Disallow: /musicas
    Disallow: /musicl
    Disallow: /musics
    Disallow: /musicsearch
    Disallow: /musicsp
    Disallow: /musiclp
    Disallow: /browsersync
    Disallow: /call
    Disallow: /archivesearch?
    Disallow: /archivesearch/url
    Disallow: /archivesearch/advanced_search
    Disallow: /base/search?
    Disallow: /base/reportbadoffer
    Disallow: /base/s2
    Disallow: /urchin_test/
    Disallow: /movies?
    Disallow: /codesearch?
    Disallow: /codesearch/feeds/search?
    Disallow: /wapsearch?
    Disallow: /safebrowsing
    Allow: /safebrowsing/diagnostic
    Disallow: /reviews/search?
    Disallow: /orkut/albums
    Disallow: /jsapi
    Disallow: /views?
    Disallow: /c/
    Disallow: /cbk
    Disallow: /recharge/dashboard/car
    Disallow: /recharge/dashboard/static/
    Disallow: /translate_c
    Disallow: /translate_f
    Disallow: /translate_suggestion
    Disallow: /profiles/me
    Allow: /profiles
    Disallow: /s2/profiles/me
    Allow: /s2/profiles
    Disallow: /s2
    Disallow: /transconsole/portal/
    Disallow: /gcc/
    Disallow: /aclk
    Disallow: /cse?
    Disallow: /tbproxy/
    Disallow: /MerchantSearchBeta/
    Disallow: /imesync/
    Disallow: /websites?
    Disallow: /shenghuo/search?
    Disallow: /support/forum/search?
    Disallow: /reviews/polls/
    Disallow: /hosted/images/
    Disallow: /hosted/life/
    Disallow: /ppob/?
    Disallow: /ppob?
    Disallow: /ig/add?
    Disallow: /adwordsresellers
    Disallow: /accounts/o8
    Allow: /accounts/o8/id
    Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
    Sitemap: http://www.google.com/hostednews/sitemap_index.xml
    Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
    Sitemap: http://www.google.com/sitemaps_webmasters.xml
    Ultima modifica di zomer : 24-04-2009 alle ore 22.02.53

Regole di scrittura

  • Non puoi creare nuove discussioni
  • Non puoi rispondere ai messaggi
  • Non puoi inserire allegati.
  • Non puoi modificare i tuoi messaggi
  •