Il web ignoto, deep web
Viene definito deep web, la parte più profonda del web, la parte in cui nemmeno google arriva.Sembra difficile che oltre i trilioni di pagine web indicizzate dall'algoritmo di google esista un universo di siti, indirizzi web, informazioni che non sono ancora catalogati e portati in superficie.
Per trovare i contenuti in rete, i motori di ricerca utilizzano dei software che seguono i link, e passando da uno all'altro, creano una copia testuale del documento visitato, e lo inseriscono nei data base del motore di ricerca, Però questi strumenti, non riescono ad interrogare, per esempio, un data base di una pagina dinamica, in sostanza non riescono a scovare le risorse del deep web, ma solamente l'1% della rete.
Secondo Brightt, società statunitense specializzata nell'indicizzazione di contenuti dinamici, questo difetto avrebbe permesso agli attuali motori di catalogare poco meno dell'1% dei contenuti presenti su internet.
Stanno nascendo molte start up che promettono di sondare il deep web, cercando nei file, nei contenuti multimediali e nelle banche dati. Attualmente il problema dei motori di ricerca sta' nella poca completezza della ricerca, è possibile trovare termini o piccole concatenazioni di frasi, ma non è possibile interrogare il motore di ricerca come una persona, chiedere quale sia il gusto preferito del gelato di una nazione, dove si trova l'ospedale con più chirurghi, o altre domande complesse, in altri termini la moderna tecnologia non riesce a ragionare come un essere umano.
Non è possibile per un motore di ricerca filtrare i contenuti in maniera intelligente, molte volte nella ricerca di un termine si trovano spesso 10 o più contenuti duplicati articoli interi o tutorial completi che sono copiati da un sito all'altro, questo a mio parere rende frustrante la ricerca, trovare lo stesso contenuto spalmato su 10 pagine
Mi rendo conto che nella media molte persone copiano articoli di sana pianta, magari senza nemmeno cambiare una virgola ne citando l'autore, e molti duplicano i propri contenuti per aumentare l'indicizzazione, ma sarebbe bello che si riuscisse a filtrare con una sorta di diritto d'autore i vari contenuti.
Per ovviare al duplicato dei contenuti e la dispersione di pagerank, Google, Live e Yahoo hanno annunciato la nascita di un nuovo meta tag capace di dire al motore di ricerca qual'é la url a cui associare la pagina, ovvero:
<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />
maggiori informazioni sul blog ufficiale di google
- Etichette:
- / web /
- / google /