Come Funziona un Motore di Ricerca

23 Maggio 2007 di Daniele Frulla

Da sempre l’uomo ha organizzato le informazioni in maniera da renderle facilmente accessibili ed il modo di divulgarle si è evoluto cambiando forma numerose volte, dall’invenzione della scrittura fino alla comparsa di Internet, capace di mettere a disposizione Terabytes di dati, ma che senza i Motori di Ricerca nessuno sarebbe in grado di utilizzarli, perché avere una quantità esorbitante di informazioni equivale a non possedere nessuna informazione.

Proviamo a capire il perché attraverso due esempi:

Nella Biblioteca di Babele, nata dalla fantasia di Jorge Luis Borges, trovano posto, oltre ai libri che sono stati scritti in tutte le lingue, anche quelli che devono essere scritti, quindi la Biblioteca è infinita. Dato un libro, la Biblioteca sicuramente lo contiene, ma questa certezza non è di nessuna utilità, perché il tempo per trovarlo sarebbe infinito.
Nel 1911 il professor Lane Cooper predispose il primo embrione di motore di ricerca per le poesie di William Woldsworth e pubblicò una lista di “concordanze” per offrire ai suoi studenti la possibilità di localizzare i passi in cui comparivano le parole che loro volevano conoscere. Questo elenco occupava un tomo di 1.136 pagine contenenti le 210.000 parole ed il tempo impiegato fu di 7 mesi e fu completato da 67 persone, 3 delle quali morirono durante la realizzazione dell’opera. Negli anni ‘60 e ‘70 questo tipo di lavoro venne ripreso con l’avvento dei nuovi calcolatori, che permisero di svolgere lo stesso lavoro in 2 o 3 giorni ed erano conosciuti come Sistemi per il Recupero delle Informazioni (Information Retrieval System), gli antenati dei Motori di Ricerca.

Struttura di un motore di ricerca

Funzionamento

Un motore di ricerca raccoglie e memorizza le pagine ipertestuali e permette di effettuare ricerche all’interno dei propri archivi. Un motore di ricerca è un’applicazione complessa e la sua comprensione, progettazione ed implementazione richiedono la conoscenza di nozioni di matematica, basi di dati e algoritmi. I suoi componenti sono:

Web Crawler: scarica il maggior numero di pagine possibili e le memorizza negli archivi preposti; Web Pages e Links

Indicizzatore: prende gli archivi preposti e li trasforma nei vari indici; Testuale, Multimediale e Fancy Index (termini rilevanti)

Categorizzatore: arricchisce gli indici inserendo informazioni sulle categorie a cui appartengono

Link Analyzer: valuta l’importanza di un documento sulla base della struttura dei collegamenti ipertestuali che lo circondano

Profiling System: componente che raccoglie informazioni sui gusti personali e i risultati delle ricerche sono preconfezionate sulla base di queste informazioni

Query Analyzer: rappresenta l’interfaccia con l’utente ed è parte integrante del Web Server che gestisce i motori di ricerca.

Fonte: www.newstechnology.eu