Mar 22, 2012

Come funziona Google? Quali segreti dietro il motore di ricerca?


Ecco che a distanza di quasi due anni, il mio lavoro rimasto accantonato per diverso tempo, ve lo ripropongo così, senza nemmeno rileggerlo perchè il tempo, qua, è sempre meno.
Si tratta di una serie di considerazioni sul funzionamento degli algoritmi di Google che fanno di esso il motore di ricerca leader nel mondo. Vero è che si tratta di assunzioni di quasi due anni fa, e scusatele se sono un po' superate...forse...




L’ombelico del Web e la ricerca Euristica
Perché oggigiorno, con Internet si diventa milionari nottetempo?

Scritto da Nicola Mancini nell'anno 2009

Parte Prima
La parola "Google" riporta alla memoria "Googol", inventata da Milton Sirotta, nipote del matematico Edward Kasner, per descrivere il numero 1 seguito da 100 zeri. Un googol è un numero molto grande. L’uso della parola Googol è dunque appropriata nella trattazioni di argomenti di grandi cifre, come stelle, particelle o atomi. Google in un certo senso, richiama l’impegno che il motore di ricerca ideato, si fosse preso, ovvero l’organizzazione di grandi numeri di documenti: le pagine web. Io personalmente già dai primi tempi in cui l’avevo visto, ho subito pensato che fosse usato come termine metaforico legato agli “occhiali” per vedere meglio e trovare quel che altrimenti non si vede…ma forse mi sbagliavo, ero solo uno studente universitario alquanto pigro, proprio come la mia vista…
Google nasce dall’intuito e impegno di due brillanti ragazzi americani; entra on line nel 1999 ed oggi è il motore di ricerca numero uno al mondo. Sono Larry Page e Sergey Brin i creatori di Google. Laureati rispettivamente in "Scienze ed Ingegneria Matematica" e "Scienze Informatiche”. Insieme nell’ambito dell’università di Stanfsford danno origine a quello che oggi è diventato il più grande colosso del web. Dagli inizi del 1998 studiano un metodo avanzato per la ricerca di informazioni su internet. Si basano sui risultati di anni ed anni di ricerca, e sull’elaborazione dei dati dal web. Con Google, si cerca di dare vita all’apprezzamento della qualità dei siti web, su base quantitativa, con algoritmi matematici che permetteranno a Google, di stabilire se un sito web è più rilevante di un altro, in base agli argomenti trattati. Sono arrivati dopo 3 principali motori di ricerca, e negli anni li hanno battutti tutti, stiamo parlando di: Yahoo, Lycos, Excite.
“A giugno 2000 Google annuncia di aver censito oltre 1 miliardo di pagine web di cui 560 milioni acquisite per intero e 500 milioni segnalate solo in base al loro indirizzo web ma non ancora analizzate nel dettaglio.” Dunque non si vorrebbe pensare ad un consolidato luogo comune nel dire che Google oggi è il primo motore di ricerca al mondo.. Il business on line è determinato dalla visibilità di un sito web: essere tra i primi su Google è sinonimo di successo. Se da una ricerca, il sito web risulta tra i primi, esclusi quelli sponsorizzati, transitivamente, questo sito web avrà un elevato traffico. Dal momento che nel business on line, se legato alla vendita di prodotti o dalla pubblicità, più visitatori equivale a più soldi, il segreto del successo e della ricchezza dal punto di vista on line è determinato da Google.Quindi si può dire che Google è l’unico mezzo al mondo oggi, in grado di fornire il successo di un sito web.Al giorno d’oggi, le scuole e le teorie per l’ottimizzazione sui motori di ricerca ( SEO ) fanno a gara tra loro per vendere prodotti e servizi per il posizionamento dei siti web su Google. Una forma di business, in questo senso, si è sviluppata parallelamente a quella che viene ricercata come primaria: in che senso?
Parte Seconda

Si cerca di fare soldi con un sito web. Si cerca di vendere prodotti on line con un sito web. Si cerca traffico nel proprio sito web.

Sono nate agenzie specializzate in SEO per aiutare i possessori di siti web in questo.

Quindi, nel mondo di internet, gli investimenti sono alla base dello sviluppo e dei risultati. Tuttavia, sappiamo bene che in un argomenti in cui vi è elevata concorrenza su scala mondiale, è sempre più difficile risultare tra i primi su Google. E per avere successo e un elevato numero di traffico, è necessario agire su scala mondiale.

Che cosa succede se non si hanno le risorse per investire in un’agenzia di SEO ?

Bisogna aspettarsi di non avere un sito web di successo?

La risposto è no.

Infatti è importante definire un concetto fondamentale: nessun ricercatore in SEO e agenzia in SEO è in grado di affermare, in maniera assoluta, di conoscere gli algoritmi che Google usa per posizionare i siti web. Si tratta, nella totalità dei casi, di tentativi rivolti alla stima dei risultati, secondo ricerche, più o meno approfondite. Nel mondo vengono venduti software e manuali per il posizionamento dei siti web su Google. Tuttavia, vi è sempre un grado di incertezza che contempla l’eventualità che gli sforzi non diano i risultati sperati. E questo è dovuto dal fatto che ogni giorno nel mondo, milioni di siti web vengono aggiornati, nella maggior parte dei casi, tutti secondo tecniche simili per renderli visibili e primi su Google.

Se vogliamo usare una metafora, è un po’ come se si volesse determinare l’esatta posizione e l’altezza di una onda nel mare. Si muove in continuazione…

Tuttavia, esiste una ragionevole probabilità che molti degli sforzi e dei soldi che vengono investiti ogni giorno nel SEO, siano soldi sprecati, o comunque non realmente spesi per i risultati sperati. Questo significa che preso un manuale, applicate tutte le norme e consigli che il manuale contiene, a distanza di qualche settimana, il mio sito web potrebbe non avere i risultati che mi aspetto.

La chiave di lettura va ricercata nel fatto che molti siti web non offrono quello che dovrebbero. Infatti, il web è intasato da milioni di siti internet che non contengono le informazioni per cui si propongono. Sono creati appositamente per vendere pubblicità, per dare spazio agli advertisers e guadagnare in automatico.

Se nel mondo del web venissero aboliti tutti i siti come questi descritti, il sito del piccolo sviluppatore, che contiene reale materiale per la vendita, sarebbe ragionevolmente tra i primi su Google.

Questo non è possibile purtroppo.

Il fatto è che su Google è necessario tenere conto di alcuni fattori che determinano il successo di un sito web, e in secondo luogo, ma non di minore importanza, viene il metodo con cui Google gli sceglie per metterli tra i primi.

Parte Terza

Tra i fattori che Google considera per deterimare il successo di un sito web, viene la legge universale che dice: “non arrivare tardi”.

Secondo questo concetto infatti, Google censisce i siti web ogni giorno. Indicizza le pagine di ogni sito web, e le memorizza. Se domani si verificherà un evento straordinario e non previsto, e un sito web sarà il primo a parlarne, questo godrà di sommi privilegi nel ranking di Google. Infatti, se Google censisce il nuovo argomento sul tuo sito web come primo, considererà i successivi siti che trattano lo stesso argomento, come leggermente inferiori rispetto al tuo sito. Questo allo scopo di classificare, in relazione al nuovo argomento, i siti web che ne parleranno. Successivamente, se del nuovo argomento non se ne parlerà più, il tuo sito web che è arrivato per primo, rimarrà primo, perché nel contesto globale, non vi saranno più siti che competono con il tuo. Se invece l’argomento trattato, da modo di sviluppare nuove discussioni e recensioni, allora sarà necessario soddisfare Google sotto il punto di vista dell’aggiornamento: se dopo la prima notizia data, il tuo sito web non presenterà più argomentazioni, mentre i concorrenti si, allora piano piano, subirà una penalizzazione, che lentamente posizionerà il tuo sito web primo, sull’argomento di origine, mentre più in basso nel ranking degli argomenti correlati successivi.

Questo spiega a grandi linee il concetto fondamentale secondo cui Google interpreta i contenuti di un argomento innovativo.

Quindi, uno dei segreti del successo sul web è senza dubbio la tempestività con cui un argomento viene divulgato. Se ad esempio prendiamo in considerazione lo Tsunami che si è abbattuto nelle Isole del sud Pacifico nel 29 settembre 2009, il primo a trattare l’argomento è stato nello stesso 29 settembre un organo di stampa. Risulta primo come Google News. L’argomento è stato poi modificato il giorno successivo, con l’arrivo di documenti e informazioni. Tuttavia, essere stato censito da Google come primo, gli conferisce un privilegio nei confronti della concorrenza. Con il passare delle ore però, il grande numero di informazioni che questo evento catastrofico sta portando, richiede un elevato impegno, da parte degli autori del sito web, nell’aggiornamento di questo argomento; pena: declassazione del sito web nel ranking dei risultati.

Questo deve ragionevolmente far capire, che arrivare dopo altri mille, a trattare un argomento, già consolidato e trattato da altri mille autori, significa combattere una dura guerra contro la concorrenza. Ma Google però da una mano in questo: utilizza algoritmi segreti sempre più raffinati nella ricerca, che permettono a chi sviluppa argomentazioni di qualità, di salire la scalata verso i primi posti. Questo richiede tempo, perché l’indicizzazione delle pagine viene fatta quasi quotidianamente e se pur velocemente, richiede del tempo.

Nella vendita on line per esempio, consideriamo la vendita di CD musicali. Se cerchiamo infatti “Vendita CD”, troveremo una compagnia inglese, che detiene il dominio da dieci anni. Ora se andiamo a pensare nel 1999 quanti di noi cercavano musica su CD via internet, per comprarli via internet, avremo scarsi risultati. Quello che si vuole dire, è che questa compagnia ha avuto la lungimiranza di pensare che un domani, la vendita dei CD on line avrebbe avuto un notevole sviluppo. Unitamente ai sistemi di pagamento elettronico, allo sviluppo dei sistemi di consegna internazionale con corrieri, infatti, la vendita dei CD on line, determina un business milionario ogni giorno. Essere stati censiti da Google in questo campo, ha determinato il successo di questo dominio, unitamente ai contenuti che propone ( crescenti con il crescere del business). Il discorso dell’inserimento di argomentazioni nuove ( in questo caso, l’aggiornamento dei prodotti in vendita, offerte speciali e novità) determina quello che nel continuo mutamento del ranking dei siti web concorrenti nella vendita di CD musicali on line, rappresenta il primato della compagnia che tra i primi ha registrato il dominio e argomentazione.

Questa corsa alla registrazione di un dominio, ha sviluppato come nel caso della vendita di manuali per SEO, un business parallelo: la registrazione di domini, per siti web in attesa di vendita: ovvero, chiunque può registrare un dominio, qualora fosse possibile e libero, e aspettare che qualcuno lo voglia acquistare. Nel mondo delle celebrità infatti si sono verificati innumerevoli casi in cui prima ancora che lo sviluppo della rete avesse un carattere globale, si fa riferimento alla metà degli anni ’90, si è avuta da parte di molti la tendenza a registrare domini come “nomepersonaggiofamoso.com” nella speranza che nel momento in cui il personaggio famoso o chi per lui avesse deciso di creare un sito web con quel dominio, si rivolgesse al depositario della registrazione con un assegno per l’acquisto. In certi casi eclatanti, questo ha avuto luogo; si sono infatti verificati casi in cui un personaggio famoso, ha voluto acquistare il dominio da un’illustre sconosciuto che prima di lui, ha provveduto alla registrazione. Consideriamo un altro esempio che osserva un’altra keyword molto ricercata sul web: “special offers”.

Il primo sito restituito dalla ricerca è stato registrato nel 1996. Anche qui abbiamo la dimostrazione del fatto che in tempi in cui in Italia la connessione Internet veniva offerta in analogico, con provider privati e a pagamento, in altre zone (più sviluppate in questo senso) del monto, si pensava al business che internet (questo grande sconosciuto in Italia nel 1996) poteva generare in futuro.

Parte Quarta

Ritornando brevemente alla formula di business parallelo che si è sviluppata nella registrazionedei domini destinata alla vendita, basti considerare che un ottimo dominio connesso al famoso “special offers” che ha ottima considerazione da parte di Google essendo “Netspecialoffers” è in vendita per 30 mila dollari!

Ebbene, se andiamo in effetti a considerare che lo sviluppo della rete ha avuto luogo in paesi anglosassoni, non dobbiamo stupirci se nel campo della concorrenza su Google questi hanno la meglio in quasi la totalità delle ricerche. Da un punto di vista di lingua, senza dubbio, godono del privilegio. Da un punto di vista dei tempi, godono di un altro privilegio. In altre parole, esistono centinaia di paesi in tutto il mondo, che pagano, ora, lo svantaggio di non essere arrivati tra i primi su internet. E in questo, in un certo senso, ha avuto la sua parte, lo svantaggio dal punto di vista tecnologico e di investimenti relativi alla digitalizzazione, l’implementazione di fibre ottiche, alla larghezza di banda insomma, che molti paesi, esclusi quelli anglosassoni, hanno avuto nel corso degli ultimi 15 anni.

Dunque, ritornando al concetto, del non arrivare mai secondo, per essere primi, essere considerati primi da Google, è necessario aver pensato per primi all’argomento da mettere sul piatto del web. Il primo passo che fa, chi pensa per primo ad un argomento da mettere su Google, è senza dubbio, appunto, la registrazione del dominio. E il tutto torna: i primi che hanno registrato un dominio, sono i primi ad aver trattato l’argomento. Si parla però come esposto poco fa, a questioni legate a una quindicina di anni fa ormai. L’intuito e la bella idea infatti, andava presa anni or sono. Così come quella che i brillanti Larry Page e Sergey Brin hanno avuto nel creare quello che a distanza di qualche lustro, è diventato il più grande motore di ricerca del mondo, facendo di loro, due tra gli uomini più ricchi d’America.

Parte Quinta

I meta tag

Ai tempi in cui dei brillanti lungimiranti ragazzi, registravano in Australia il dominio Specialoffers.com, ho messo on line il mio primo sito web. All’epoca, alcuni dei pochi web host che permettevano di sviluppare un sito web gratuitamente era Tripod.com. Con esso, dopo i primi stentati passi per la registrazione, io come tanti altri, morivo dalla voglia di “avere un sito web personale”. Questo significava che da un certo punto di vista, avrei messo on line qualcosa di me… ma cosa? I problemi legati all’argomentazione erano già evidenti. Che cosa scrivere? Prima ancora che si sviluppasse Myspaces di Windows, prima ancora che gli scanner per fare un upload della propria foto avessero prezzi accessibili, che cosa poteva essere messo on line, a carattere personale, per arricchire un sito web? La risposa era semplice: parlare dei propri interessi, libri e film preferiti, canzoni preferite. Se consideriamo la semplicità di un qualsiasi social network al giorno d’oggi , con cui ogni utente può caricare la propria foto direttamente dal cellulare, o inserire il link alla propria canzone preferita con possibilità di ascolto, pensare a come il tutto era complicato 15 anni fa riconduce alla considerazione che il web si sia sviluppato in pochi anni in maniera esponenziale, allo stesso modo con cui la tecnologia in uso nella vita comune si è sviluppata in cinquant’anni. Un esempio banale è la cucina a legna con cui prima si accendeva il fuoco e dopo si metteva la pentola per lo stufato a cuocere. Oggi basta premere il tasto, girare la manopola del gas e la pentola è sul fuoco!

Tuttavia, se per noi in Italia, ad esempio, creare il primo sito web era cosa nuova, e scarna sotto certi punti di vista, lentamente si prendeva cognizione delle tecniche (già largamente in uso negli Stati Uniti) per permettere che questo sito web venga visto e visitato. Da una parte, il sito web personale era anche un modo per farsi conoscere, senza tanti giri di parole, con un link di rimando durante una chat: le IRC infatti hanno contribuito nella metà degli anni 90 all’approccio alla rete per molti profani. Chi come me, dai laboratori informatici dell’università, approfittava dell’intervallo per cimentarsi in chiacchierate con qualcuno agli antipodi, ha ben presto scoperto che la cosa, a differenza della nostra realtà, era già ben sviluppata. Le prime sensazioni che un neofita del web provava, era l’incredulità di mettersi in comunicazione in real time con qualcuno negli Stati Uniti, con ore di fuso orario nel mezzo, ricevere immagini e notizie di sé, anche attraverso il famoso link al sito web personale. Però il sito web era in Italiano! Ecco che nasce la consapevolezza della minorità della lingue in questo campo: la globalità del web, parla una lingua… e questa lingua è l’inglese.

Parte Sesta

Non dobbiamo stupirci insomma, se in lingua inglese, i siti web sono milioni. Se la concorrenza tra essi è spietata e se Google, nei loro confronti è molto severo.

Una dritta che mi sento di dare a chi volesse trasformarti in venture capitalist del web, potrebbe essere: imparate l’afrikaans; registrate domini in afrikaans e aspettate che il web raggiunga, tra anni ed anni, quelle parti remote del continente africano, dove, si spera, si svilupperà l’approccio al web. Questo potrebbe rappresentare in un certo senso, un decorso storico, parallelo e differito, di quanto si è verificato su scala mondiale in lingua inglese con il primato degli Stati Uniti. Google potrebbe premiare con i privilegi di essere tra i primi, l’intraprendenza di chi investe domini e siti web in una lingua che ancora sul web non conta concorrenti.

Chiusa questa parentesi, e ritornando al concetto dei primi meccanismi di Google, interpretati e studiati all’epoca dello sviluppo di un sito web personale nella metà degli anni novanta, i meta tag hanno rappresentato una forte valenza nella visibilità o nell’illusione di ricercarla attraverso i motori di ricerca. L’inserimento delle parole chiave, rappresentava un punto di partenza nella realizzazione di una homepage, per il fatto che all’epoca, gli algoritmi di ricerca erano rudimentali e tenevano conto delle parole chiave con un peso eccessivo e iniquo. Dico iniquo, perché per alcuni anni, l’abuso di meta tag ha costituito il caos all’interno dei motori di ricerca, disorientando l’utente del web nella ricerca dei documenti. Infatti, attraverso congegnati utilizzi dei meta tag, alcune pagine web che non offrivano nulla riguardo alle parole cercate, prevalevano nei confronti di altri più meritevoli. Questa sorta di anarchia, ha rivolto l’attenzione degli sviluppatori dei motori di ricerca a cambiare un po’ le cose. C’era la necessità di raffinare i risultati, per fornire il servizio al meglio e per evitare il tracollo e la morte del motore di ricerca. La compagnia, americana, che ha deciso di investire più di tutti in questo campo, è ora infatti quella che rappresenta l’eccellenza, il numero uno al mondo: Google.

Con il passare degli anni, il numero di pagine web caricate sui motori di ricerca, si contava ormai a nove zeri. Immaginiamo di cercare un volume in una biblioteca con milioni di libri, su cui ogni autore, abbia messo etichette per attirare la nostra attenzione, ma che in realtà, dietro, nascondono libri che trattano tutt’altro argomento da quello che stiamo cercando. Il rischio che correrebbe un motore di ricerca è quello che avrebbe spinto l’utente di quella fantomatica biblioteca a cercare il libro in un’altra concorrente. La sopravvivenza di un motore di ricerca era fortemente legata alla qualità dei propri risultati. Tanto popolare era un motore di ricerca, tanto più rapido sarebbe stato il suo declino e la sua bancarotta. I frutti degli investimenti milionari che Google ha fatto negli ultimi anni, si hanno tutt’oggi. Hanno fatto di esso il numero uno del web. Una pagina internet che ogni giorno viene aperta da centinaia di milioni di utenti. Stiamo parlando di cifre astronomiche. Cifre su scala mondiale che rendono l’idea dell’importanza della visibilità di un sito web su Google. Essere visibile su Google, e per visibile si intende avere un posizionamento d’eccellenza, corrisponde all’essere visibile al mondo, al panorama degli utenti in cerca di informazioni.

Ed è proprio questa corsa alla visibilità che spinge molti a provarci, su scala mondiale, ad apparire, attirare clicks e vendere pubblicità. Questi tentativi, a volte riusciti con ottimi risultati, hanno determinato però, un proliferare di siti web paralleli, che si affiancano ad altri dai contenuti più attendibili e di qualità, i quali rischiano di far tornare ai tempi della biblioteca con le etichette sui volumi, di cui parlavo prima. Non a caso, il web è proprio come il mare, in continuo mutamento. Questo da una parte ci deve confortare e far disperare dall’altra. Disperare perché non ci fa mai dormire sogni tranquilli. Il fatto che il web è vivo, in continuo mutamento, non deve farci mai crogiolare sugli allori, allorquando riteniamo che il nostro sito web abbia successo. Bisogna sempre combattere contro la concorrenza, per far si che i privilegi che Google ci ha fornito, premiandoci in termini di rank, durino nel tempo. Ci deve invece confortare, perché da Google ci arrivano sempre notizie circa gli investimenti e la ricerca che l’intraprendente team svolge quotidianamente. La ricerca volta sempre alla qualità dei risultati, resi sempre più vicini alla richiesta dell’informazione.

Parte Settima

Questa ricerca in continuo sviluppo, è un po’ la spada di Damocle per i ricercatori di SEO. Si cercano correlazioni tra i risultati, le keywords e si stimano gli algoritmi: purtroppo pero, gli algoritmi cambiano continuamente, e quel che andava bene ieri, domani potrebbe non generare gli stessi, ottimi risultati. Si potrebbero trovare infinite metafore a descrivere la difficoltà di questo argomento, sotto il punto di vista di chi vende metodi per ottimizzare la visibilità su Google. Io resto nelle fila di chi sostiene che a volte, certi sforzi siano inutili. E non per rompere le uova nel paniere a chi vende metodi per l’ottimizzazione nei motori di ricerca, ma per fare capire che i milioni di autori che pubblicano ogni giorno sul web, non hanno molte speranze in termini di primato, se non scrivono per siti web autentici. L’autenticità, si intende, per un sito web, è il concetto cui mi riferisco quando parlo di sito non creato per vendere pubblicità. Un sito che vende CD on line, rispetto ad un sito creato per vendere pubblicità sui CD on line, vincerà sempre. E questo grazie a Google. Grazie ai milioni di dollari che Google ha investito negli ultimi 10 anni.

Questo in un certo senso, per chi legge, dovrebbe fare capire che ci troviamo di fronte alla Stele di Rosetta del SEO. Chi ancora non l’ha inteso, non è entrato nella chiave di lettura assoluta.

È più semplice di quanto sembra, perché è in ognuno di noi.

Google è vivo e fare di lui un allocco è impossibile! O meglio, ci si è impegnati a farlo, a raggirarlo per prevalere su altri siti web, ma la cosa è durata poco.

Google e l’intelligenza Artificiale

Alle 23:59 del 31 marzo 2009, è stata divulgata la notizia che Google stia sviluppando un progetto di A.I o meglio di CADIE ( Cognitive Autoheuristic Distribuited Intelligence Entità).

Ecco l’abstract:

31 marzo 2009 23:59:59
Presentazione di CADIE
Gruppo di ricerca sperimenta con successo la prima Entità Cognitiva Autoeuristica a Intelligenza Distribuita (Cognitive Autoheuristic Distributed-Intelligence Entity, CADIE)

Da ormai diversi anni un piccolo gruppo di ricerca si occupa di alcuni problemi complessi nell'ambito della rete neurale, del linguaggio naturale e della risoluzione autonoma dei problemi. Lo scorso autunno questo gruppo ha raggiunto un importante traguardo: una nuova e potente tecnologia per la risoluzione dei problemi di apprendimento per rinforzo, che ha dato vita al primo cluster operativo di apprendimento neuro-evolutivo su scala mondiale.

Da allora i progressi sono stati rapidi, e questa notte siamo lieti di annunciare che pochi istanti fa è stata azionata la prima Cognitive Autoheuristic Distributed-Intelligence Entity (CADIE) al mondo, che ha iniziato a svolgere alcune funzioni iniziali. Si tratta di un momento entusiasmante che siamo decisi a sfruttare arrivando a capire più a fondo che cosa potrebbe significare la comparsa di CADIE per Google e per i nostri utenti. Anche se la tecnologia CADIE verrà immessa sul mercato con la prudenza che si addice a qualsiasi progresso di tale portata, nei prossimi mesi gli utenti potranno aspettarsi di notare la sua influenza su varie proprietà di Google.it. Oggi, ad esempio, CADIE ha dedotto da una veloce scansione del segmento visivo del social Web una serie di principi di design online da cui ha ricavato questa interessante home page (cadiesingularity.blogspot.com).

Si tratta soltanto dei primi passi di quello che si rivelerà senza dubbio un percorso lungo e difficoltoso. Nella programmazione di CADIE restano ancora numerosi bug, che certamente richiederanno ulteriori interventi in fase di sviluppo. Tuttavia non potevamo immaginare per Google un viaggio più importante. “

Parte Ottava

La segretezza delle metodologie di Google, e gli algoritmi utilizzati hanno fatto in modo che la divulgazione di questo annuncio non venisse in una data a caso. Molti infatti si sono trovati spinti a pensare che fosse un pesce d’aprile… Con questo si vuol dire che l’aver scelto una data in cui sul web si divulgano notizie a volte solo a carattere giocoso e di scherzo, è verosimilmente uno dei motivi che spinge Google a non fornire in maniera esatta le proprie scelte. Conoscere gli algoritmi, i metodi e i progetti di Google in maniera approfondita non è un dato di pubblica utilità, né di pubblico dominio. Una notizia “bomba” come questa, ha trovato la fila dei credenti e quella degli scettici. Io, a rigor di logica, e per posizione presa con il presente saggio, mi posiziono nella fila dei credenti. Questo perché quando mi riferivo alla Stele di Rosetta di Goolge, intendevo proprio questo. Ma nel dettaglio, l’argomento verrà trattato in seguito. Ora preferisco soffermarmi su una battuta di spirito: se tra le molteplici forme di associazione a delinquere al giorno d’oggi, ci chiedessimo quale sarebbe la più fruttuosa, la mia risposta sarebbe la seguente: “rapire” un project manager di Google, e fargli confessare i segreti degli algoritmi del motore di ricerca. Stiamo parlando di informazioni da miliardi di dollari. Stiamo parlando che nessuna “rapina” al mondo, darebbe tanti frutti. Lungi da me, la volontà di dare l’idea a qualche delinquente di attuare questo piano. Legalmente è auspicabile che Google si sia premunita nei confronti dei propri dipendenti, sul fronte della segretezza professionale. Certo è che, la debolezza umana non ha limiti, e su questo aspetto, devo ritenere che un contratto con Google, preveda delle clausole molto severe nei confronti degli argomenti trattati, tali da scongiurare una eventuale fuga di notizie non ufficiale. Certo è, che una qualsivoglia compagnia che eserciti sul web, e voglia il primato assoluto, ha la necessità unica di conoscere il modo di essere il primo risultato possibile su Google sulle diverse keywords associate all’argomento associato ai propri prodotti. Con l’ipotetico rapimento, questo sarebbe possibile… ma sto scherzando, non voglio compromissioni! Allora, i segreti di Google, chi può mai conoscerli? Ebbene, dal momento che Google Inc. ora è un’azienda altamente strutturata, la frammentarietà dei progetti non permette anche agli addetti ai lavori di conoscere nella completezza il fine ultimo del progetto cui lavorano, questa è un’ipotesi al quanto realistica. Tuttavia, nell’ambito del coordinamento dei lavori, all’interno di Google c’è chi, senza dubbio, conosce gli aspetti finali di un progetto, gli obiettivi di un algoritmo e le novità top secret. Questo però resta affascinante così. Il resto del mondo sta ad aspettare. Analizza, stima, studia. Cerca di capire quel che c’è dietro, perché il resto del mondo segue Google. Magari dietro a mesi di ricerca su una parola chiave, sui mutamenti del ranking di un sito web, c’è la geniale idea di un ingegnere che a Mountain View se la spassa con il proprio team a cercare di fornire algoritmi sempre più dalla parte dell’utente finale, lo stesso utente però che diventa matto nella ricerca delle soluzioni migliori. Ma allora, qual è la Stele di Rosetta degli algoritmi di Google? È forse quel temuto “pesce d’aprile” del 2009? Io ritengo di essere tra i più accaniti sostenitori che il progetto CADIE non sia poi in fase concettuale o di test. Se un colosso divulga una disciplina in cui si sviluppa un proprio progetto, da una parte deve essere sicura di aver acquisito un margine tale, da battere la concorrenza, eventuale, che l’acquisizione di tali metodologie potrebbe comportare. Un tale margine potrebbe essere dato da due fattori: il fattore tempo, e in questo caso Google non è vero che ci lavora da poco e lo sta testando. Il fattore costi, e in questo caso il progetto costa e vale talmente tanti dollari, che sul mercato attuale, non vi siano comprovati concorrenti in grado da poterne acquisire le facoltà. La chiave di lettura dunque, del progetto CADIE, a mio avviso è in fase più che sviluppata e già in opera sul motore di ricerca. A questo titolo, vi invito a fare un test, per verificare la qualità dei risultati di Google, rispetto ad un motore di ricerca ormai in declino, ovvero quello di Lycos. Provate a cercare qualcosa come “cd special offers”. Ora, pur ricordando che effettuando nuovamente il test a distanza di qualche tempo (anche dal tempo in cui io stesso scrivo quanto leggete) i risultati potrebbero variare per la mutevolezza del web, andiamo ad analizzare i risultati: abbiamo su Google come risultato primario, il bel sito amazon.com il quale ha un’ampia gamma di offerta su quanto richiesto: sconti ed offerte speciali sulla vendita di CD, esattamente quanto ricercato dall’utente. Su Lycos invece, il primo sito che viene fornito come risultato, altro non è che un anonimo abcd-usa.com che vende custodie per CD. Questo dominio è stato registrato nel 2003, e almeno su Lycos, gode di questo privilegio di essere arrivato 6 anni fa. Ma per Google, questo non basta. Non lo posiziona nemmeno tra i primi 50 risultati, questo perché alla richiesta di offerte speciali per i CD, Google sa bene che la vendita di custodie non è esattamente la stessa cosa della vendita di CD a prezzi promozionali. E questo come è possibile? Grazie al CADIE, a mio avviso. Più che un avviso, è il grado di certezza nell’affermare un concetto, secondo ragionevoli prove date dai risultati. Ovvero, nell’ambito della fisica nucleare e nell’astronomia, si cerca di capire di più sui buchi neri, dove sono e perché. Nonostante i progressi della scienza, a causa della sua assoluta gravità, un buco nero non può essere visto, se non stimato studiando i “risultati” che provoca nel suo intorno. Mi spiego meglio. Non è possibile stabilire con la stessa certezza con cui si diano coordinate ad una stella, la posizione di un buco nero, ma è possibile affermare la sua presenza in base ai fenomeni che la stessa fa manifestare nelle sue vicinanze. Allo stesso modo su Google non è possibile stabilire, (stiamo parlando del famoso “resto del mondo”) il perché un risultato prevale su un altro, se non studiando le “cause” che lo stesso lo rendono visibile rispetto ad altri, il perché prevale sull’uno e non sull’altro. Dunque, ragionando su ipotesi avvalorate da risultati certi, posso concretamente affermare che nel risultato di Google, c’è lo zampino dell’intelligenza artificiale. L’intelligenza artificiale applicata a Google necessita quasi di un capitolo a sé, ma questo è un saggio e va letto tutto d’un fiato. Come è possibile che Google ragioni come un essere umano? Questa domanda è un po’ prematura, dal momento che gli sviluppi in questa branca della scienza non sono ancora tali da poter definire un “bot” di Google, una vera e propria macchina pensante. Tuttavia, l’impegno intuito dal sottoscritto della Google Inc. verso l’I.A. porta i risultati sperati, sempre migliorati, giorno dopo giorno. Oltre agli elevati costi che l’I.A. comporta in fase di ricerca e sviluppo alla Google Inc. i vantaggi nei confronti dei concorrenti sono tangibili e apprezzabili anche dal fatto che l’impiego della stessa, viene divulgata liberamente da Google nel 2009. Il soddisfacimento delle richieste, giorno dopo giorno, crea una fidelizzazione degli utenti tale, che per la quasi totalità della nuova generazione cui approda a internet in questi anni ( mi riferisco alla generazione degli attuali adolescenti) Google ormai è sinonimo di homepage per la ricerca, di motore di ricerca, di pagina iniziale del proprio browser di navigazione. Quelle che qui vengono definite richieste, altro non sono che le informazioni che un utente ricerca su Google sotto forma di pagine web. Sotto forma di documenti, tra miliardi di documenti. Ora, è proprio il caso di parlare di un “googol” di documenti... e trovare un documento tra un miliardo è un gran successo: se avviene poi in un risultato generato in pochi secondi, è un trionfo: un trionfo grazie a Google. E allora, com’è possibile che un sistema automatico, un server fatto di microchips, memoria ram e discofisso, sia in grado attraverso due o tre parole chiave (che esprimono la mia formula di ricerca per un documento) di mostrarmi una lista di risultati che potrebbero andarmi bene… e magari tra i primi, ci sono proprio le pagine web che contengono le informazioni che cercavo? Ebbene, allo stesso modo con cui un astrofisica dice che in quella zona del cielo c’è un buco nero, a me verrebbe da dirmi perché Google utilizza una forma di intelligenza artificiale sempre più raffinata e in evoluzione giorno per giorno.

Parte Nona

In che modo l’Intelligenza Artificiale di Google fornisce i migliori risultati possibili? Qui entriamo nel dibattito di argomenti sempre più vasti. Come esposto nell’annuncio del 31 marzo 2009, sotto certi aspetti fuorviante per via delle interpretazioni distorte che molti “non credenti” hanno dato. Qui non si tratta di un sistema tale da “istruire” Google e renderlo pensante, anche se viste le disponibilità di denaro dell’azienda, sarebbe auspicabile che la stessa possa aver investito molto nel reperimento dei migliori ricercatori al mondo in questo campo…ma prima di tutti viene il ministero della Difesa…e se lavorano per loro, allora non ce n’è per nessuno! La vera intelligenza artificiale che utilizzerebbe Google, sta, secondo le mie interpretazioni, nella sistematica composizione di parola chiave. Ovvero, se un sito web contiene un interessante ed autentico articolo su una vacanza ideale nel cuore del Pacifico, nella fattispecie nelle isole Fiji, questo troverebbe il miglior risultato possibile da una ricerca appositamente inviata su una vacanza nelle isole Fiji. Ora non tutti gli utenti sono bravi ad utilizzare un motore di ricerca. Questo ha fatto pensare Google che forse, andava investito qualcosa nella ricerca che portasse gli stessi risultati “raffinati” agli utenti meno esperti, al pari di coloro che fossero più precisi nel ricercare un documento: questo significa che l’I.A. di Google sarebbe in grado di fornire risultati attinenti ad una ricerca con parametri più raffinati, sebbene questi non vengano immessi dall’utilizzatore. E questo sarebbe reso possibile dagli studio neuro-conoscitivi. Ovvero, se nel 99 per cento dei casi, la parola “fame” è preceduta da “ho” o “hai”, la consapevolezza di Google di questo dato, lo rende “attivo” nella composizione di quanto mancante nella ricerca. Se cerchiamo per le isole Fiji, la parola Hotel, il risultato proposto è come primo un sito web che è specializzato nella ricettività per vacanze nelle isole di tutto il mondo. In seconda posizione abbiamo un sito specializzato nel turismo delle isole Fiji, e così via. Ora, secondo le vecchie regole di 15 anni fa, grazie ai meta tag, ad una così ristretta formula di ricerca, sarebbe seguita una colossale corsa alla visibilità di siti web che vendono pacchetti vacanze per tutto il resto del mondo, magari escludendo le isole Fiji. Superato l’inconveniente dei meta tag però, un sito di viaggi che avesse parlato degli hotel nelle isole Fiji già nella metà degli anni ’90, potrebbe offuscare la chiarezza dei risultati. Ecco che Google depura i risultati obsoleti nella maniera esposta prima, circa l’aggiornamento dei contenuti. In altre parole, l’I.A. di Google fa in modo che il sito web primo della lista, sia effettivamente tra i leader nella fornitura di informazioni circa vacanze ed hotel nelle isole Fiji. In un certo senso, grazie al primato di Google, si può ragionevolmente dire che il primato, Google, lo conferisce al sito web anche in termini di business… ma di certo, anche sotto questo aspetto, Google ha trovato il modo di mangiare una fetta di torta offerta dai siti che risultano più popolari ( un riferimento ai sistemi di pubblicità ondine come Google Adsense). In che modo questa presunta I.A. di Google, ha generato il sito sulle isole Fiji come primo? Prima di tutto viene il censimento che Google fa delle pagine web periodicamente. L’indicizzazione delle pagine avviene unitamente alla scansione dei contenuti. Ora, se fossimo dentro la fabbrica di cioccolato di Willy Wonka, avremmo dei piccoli gnomi che leggerebbero, pagina per pagina, tutti i documenti indicizzati da Google.

Parte Decima

Questo visto il “googol” di pagine che vengono indicizzate ogni giorno, non è possbile, per cui è stato dato a Google una chiave di lettura e interpretazione dei testi. Saper “leggere” i testi da parte di Google è importante, del resto se così non fosse, sarebbe sufficiente aggiornare un blog con una serie di parole senza senso messe giù alla rinfusa. Questo Google non lo permette. Attraverso un adeguato algoritmo di analisi dei testi, è in grado di valutare se le frasi sono formulate in maniera corretta, se vi è correlazione semantica tra le parole, se vi è correlazione con la maggior parte dei documenti già indicizzati. Se nel sito delle Isole Fiji, un giorno un autore avesse voluto caricare un documento che trattasse della morte di Michael Jackson, i risultati sarebbero alquanto scarsi per non dire nulli. Ragion per cui, abbiamo un considerevole motivo di credere che Google utilizzi algoritmi complessi di interpretazione dei testi, per valutarne la qualità, l’autenticità e non ultima l’originalità. Un argomento originale, indicizzato per primo, godrà del privilegio esposto qualche pagina fa. Un argomento di qualità, che contenga numerosi riferimenti semantici alle argomentazioni del sito web, avrà un altro privilegio… parlando di privilegi, più privilegi si accumulano, più la pagina avrà una buona posizione. Ora perché con Google si può parlare di intelligenza? Perché ha sostituito gli “gnomi” della fabbrica di Willy Wonka, con algoritmi complessi ma funzionali. L’utilizzo di argomento indicizzato da parte degli esseri umani ( la sua lettura e consultazione per esempio) comporta in maniera non necessaria ma conseguente, al fatto che chi legge, potrebbe condividere l’informazione con altri, proprio perché l’informazione è valida o perché risulterebbe utile anche ad altre persone. Questo sistema di condivisione, questo metodo di linkaggio, conferisce prestigio al sito web, e Google tiene conto anche di questo. Da una parte, apprezza il fatto che mille utenti linkino un sito web perché contiene argomenti ottimi, dall’altra lo premia facendolo salire nelle posizioni. Purtroppo però, come ai tempi dei meta tag selvaggi, anche nel mondo dei bookmarks, c’è una sorta di clientelismo malsano che offusca la purezza dei risultati. Mi riferisco ai banner sharing, ovvero lo scambio di link al fine di farsi un favore reciproco ( io linko te, tu linki me). Da una parte negli studi sulla qualità di questi metodi, è emerso che vengono premiati siti web che abbiano link da siti che a loro volta non vengano ri-linkati. Ovvero la famosa scaletta A linka B – B linka C – C linka D – D linka A. In un contesto simile, il banner sharing non porterebbe i risultati sperati, e a meno che ABCD siano di proprietà di una sola persona, sarebbe di non facile realizzazione. Inoltre c’è da aggiungere che l’arma che Google utilizza ogni giorno sul fronte dell’attualizzazione dei siti web torna ancora una volta utile. Chi volesse aumentare il page rank con sistemi a scaletta come quello sopra esposto, dovrebbe premunirsi di molti collaboratori, al fine di tenere aggiornati i siti web ogni giorno e renderli forti nei confronti della concorrenza. Per dare spessore al sistema di apprezzamento con cui un essere umano esprime nei confronti di una pagina web, è nato da qualche anno un portale come Delicious.com – Registrato da Yahoo Inc. nel 2004. Rappresenta al giorno d’oggi uno dei maggiori bookmarks systems e dimostra che l’essere giunto solo 5 anni fa, in un campo ancora semi-vergine, gli ha conferito popolarità nel web. Attraverso delicious.com è possibile stabilire le preferenze per siti web. Il peso che Delicious.com ha al giorno d’oggi, è rappresentato dal fatto che viene ponderato nella certificazione del posizionamento di un sito web in analisi. Tutte queste molteplici sfaccettature, che premiano i più meritevoli del web, sono nate e fanno da supporto quando il “giudice Google” deve stabilire tra due siti web, apparentemente meritevoli in egual misura, debba stare al primo posto e chi al secondo. C’è da dire che essendo la matematica alla base di “ragionamenti di Google”, è matematicamente impossibile che due siti web si equivalgano.

Parte Undicesima

Ritornando sul sistema di ragionamento di Google: quando questo decide che un sito va penalizzato. Non è forse il caso di parlare di intelligenza, usando certi termini? La riposta è si, dal momento che Google analizza il contenuto di un sito web, ne valuta i riferimenti che altri siti web fanno, analizza il contenuto dei siti web che effettuano il riferimento, ne valuta la qualità, e infine decide se questo sito è frutto di spregiudicati tentativi di ricerca visibilità o è un autentico frutto di impegno umano atto alla divulgazione del sapere. Dunque si può dire che Google è dalla parte della scienza alla portata di tutti, scienza interpretata come sapere e condivisione di conoscenze sui più svariati argomenti, accessibili nel più breve tempo possibile e con il minor dispendio di tempo in strade sbagliate.

In che modo Google può essere paragonato ai folletti di Willy Wonka? Nello stesso modo in cui, ipoteticamente e per assurdo, a Mountain View lavorassero milioni di persone a leggere e valutare i documenti indicizzati. Le risorse spese fin’ora, nella realizzazione di questi risultati (per altro sempre in via di perfezionamento) fanno in modo che noi dall’esterno possiamo apprezzare il modo in cui i dati ci vengono forniti. Google ha avuto la necessità di applicare la matematica ai ragionamenti umani, in grado di discernere, valutare, apprezzare e penalizzare. Questo non è un impegno da poco. Vale milioni di dollari, vale ricerche e studi che continuano nel tempo. Da una parte per fornire sempre al meglio i risultati, dall’altra per raggirare i tentativi di inganno di chi crea siti per fare soldi senza contenuti. Quando addietro accennavo al fatto che la chiave di lettura degli algoritmi di Google è in ognuno di noi, alludevo al fatto che il metodo di ragionamento di Google è quanto mai prima d’ora, vicino al metodo di ragionamento di un essere umano. Chiunque, al giorno d’oggi, se cerca un documento, è in grado di stabilire se questo documento soddisfa i requisiti della mia ricerca: e non per questo devo essere un esperto di SEO. Leggendo un argomento, ognuno è in grado di capire, sin dalle prime battute, se l’informazione trovata, rispecchia quelle cercate, o se è meglio cercarle altrove. Allo stesso modo, Google, esamina i documenti e cerca quanto più umanamente sia possibile, di stabilire se questo documento può considerarsi valido e meritevole allo stesso modo con cui verrebbe giudicato da un essere umano. È per questo che ritengo ragionevolmente di poter parlare di Intelligenza Artificiale. Nel campo della robotica, l’intelligenza artificiale si rivolge anche e soprattutto alla classificazione degli input esterni, all’archiviazione di informazioni per essere rielaborate e formulate generando comportamenti non necessariamente istruiti dal programmatore. Ovvero, si forniscono le basi e gli algoritmi per generare il ragionamento, discernere ed eventualmente prendere un’iniziativa! Questo d’altro canto, è anche l’incubo di un domani, già fantasticato nei film di Hollywood, in cui le macchine pensanti prendono autonomia e coscienza e cominciano la battaglia all’uomo. Credo che nel campo di Google, non si arrivi a questo… o meglio, è bene augurarsi che un domani, Google non sia in grado di ragionare in maniera autonoma ed assoluta, tale da rifiutare gli input e cominciare a fare tutto di testa propria… ma questo è uno scenario che esula degli intenti di spiegare o meglio cercare di capire come Google ragiona. E non mi vergogno nel dire, che nel 99 per cento dei casi, questi studi vengono fatti per soldi. Si cerca l’algoritmo per far soldi, non per rivenderlo, ma per fare in modo che chi è interessato ad essere primo, paghi per esserlo!

Parte Dodicesima

Il ragionamento del folletto

Quando pensiamo a Google che legge il nostro articolo sul sito web, dobbiamo aprire la mente e pensare alle innumerevoli operazioni matematiche e logiche che svolge. Consultando dei database di dimensioni googoliane, affianca verbi, sostantivi, frasi. Cerca una coerenza semantica, logica e razionale. Ragionamenti su scala razionale è quanto di più difficile possa essere per una macchina. Però a quanto pare ci sta riuscendo, e questo è un elogio che mi sento di fare. Cercare un hotel alle isole Fiji, su Yahoo per esempio, può far perdere tempo. La più banale associazione razionale ( per un essere umano) che chiacchierando con un amico dicesse “cerco un hotel alle isole Fiji”, restituisce come risultato il fatto che l’interlocutore è consapevole che sto cercando un hotel per le mie vacanze che ho deciso di passare alle Fiji. Yahoo, contrariamente da Google, a quanto pare non ragiona in maniera razionale, non gode di quel privilegio di Intelligenza che si può trovare su Google. Infatti da Yahoo, rischio di imbattermi in un altro motore di riceca, un motore di ricerca di hotel in cui devo ricercare nuovamente degli hotel nelle isole Fiji. Il livello di qualità fornito dal risultato di Google per contro, è notevole, e fa di esso un’ulteriore conferma degli sforzi profusi nel campo della produzione di risultati di qualità. Quale miglior definizione del metodo scientifico di Google se non quella di Euristica? Nell’evoluzione del web, non si segue una linea guida, un'unica strada, un filo conduttore che accomuna le tecniche di sviluppo. Con il passare degli anni, è cresciuta l’utenza, l’offerta e la domanda di informazioni. Se al mondo centinaia di milioni di persone, ogni giorno, vanno su Google, si aspettano dei risultati. E Google investe costantemente al fine di produrli nel miglior modo possibile, utilizzando tecniche ed algoritmi sempre innovativi e anche diversi tra loro.

Diventare milionari nottetempo?

Questa forse è la keyword che dalla copertina ha attirato più utenti. Se questo libro fosse Google, la risposta che dovrei fornirvi dovrebbe essere contenuta già nelle prime righe. Altrimenti, questo libro dovrebbe autopenalizzarsi da solo, perché non soddisfa le richieste e dare priorità ad altri documenti. Ma questo libro è statico, non è Google, e rispondere alla domanda “perché si diventare milionari nottetempo” è un po’ difficile. Mi riferisco al fatto, che allo stesso modo con cui internet cresce velocemente in tutto il mondo, lavorando su scale googoliane, è possibile arricchirsi altrettanto velocemente. Allo stesso modo con cui cresce la popolarità di un sito web, il conto in banca dell’autore potrebbe subire gli stessi risultati. Svegliarsi la mattina, e trovare venti milioni di visitatori sul proprio sito web dalle statistiche, è il sogno di ogni webmaster. In pochi possono aver vissuto questa sensazione, e possiamo renderci conto che sotto il profilo economico, è una gran bella sensazione. Detenere un sito web che abbia migliaia di visitatori ogni giorno, è un sogno ma ha bisogno di duro lavoro: mi spiego meglio… la questione è molto semplice: che cosa avete di tanto interessante da scrivere, perché domani mattina la vostra webstat vi mostri quindici milioni di visitatori. Che avrete scritto mai sul vostro sito web? Forse aver scritto per primo che è morto Michael Jackson? Può darsi… ma dopo aver appreso e divulgato la notizia, il giorno dopo, dal momento che tutti lo sanno, che scriverete? Razionalmente parlando, ci si aspetta che dopo aver trovato informazioni sulla morte di Michael Jackson, una probabile formula di ricerca sia connessa alle cause della morte. A quanto pare, se non avete argomenti a riguardo, dopo la rapida espansione del vostro sito web, assisterete ad una rapida contrazione, talmente rapida, che se con 15milioni di contatti oggi, potevate guadagnare migliaia di euro con la pubblicità in un giorno, domani nessuno sarà disposto ad offrirvi un centesimo! Ma non siamo così pessimisti. Del resto, un inserzionista vi paga per clicks, e i clicks sono proporzionali ai visitatori. Se avrete fortuna, intuito e intraprendenza, e il vostro sito (abbandoniamo l’assurdità di Michael Jackson) è in costante crescita, potrete ragionevolmente pensare che un domani, avrete il giusto compenso. Ma ricordate, per guadagnare, c’è sempre lo zampino di un folletto… se a Google il vostro sito non piace, siete spacciati!
Calcolo della distanza fra due parole

“La distanza tra due parole, secondo l'algoritmo di Levenshtein non è altro che il grado di similitudine tra queste due parole, viene di fatto calcolata la somiglianza tra parole. A volte si ha a che fare con dati sporchi digitati non correttamente su diverse tabelle proveniente da diversi ambiente ed è difficile riconciliare le informazioni usando solo query con la condizione LIKE.

La funzione che segue, scritta in TSQL per SQL server, ci viene incontro, basandosi sull'algoritmo di Levenshtein, restituisce un numero intero che rappresenta la distanza, ovvero la differenza, tra le due parole. Più il risultato è basso più le parole sono simili, nel caso di due parole uguali l'algortimo restituisce 0.

L'algoritmo di Levenshtein di fatto restituisce il numero minimo di modifiche da applicare alla parola A per trasformarla in un altra B, dove per modifica si intende: la cancellazione di un carattere, la sostituzione di un carattere con un altro, o l'inserimento di un carattere.

Ad esempio il confronto tra i termini casa e cassa o case retituisce valore 1 in quanto c'è un solo carattere di differenza, le parole si somigliano.” ( da www.marcopipino.it)

Ora sarebbe opportuna parlare di qualcosa che va oltre l’algoritmo di Levensthein, in quanto in realtà questo processo di calcolo non fa altro che restituire la distanza minima tra la differenza di due parole. Invece è più appropriato considerare il fatto che la distanza tra due parole ha una valenza commensurabile se finalizzata alla valutazione di semantica della frase che le può contenere. Se un algoritmo è in grado di considerare in maniera quantitativa la semantica di una frase, sarà in grado di considerare la semantica di un corpo di testo e in poche parole di un contenuto! Ecco come Google sarebbe in grado di valutare Naturally, la qualità di un contenuto, proprio come se un folletto esperto di lingua e perché no, professore… leggesse ogni singolo contenuto dei milioni che ogni giorno vengono pubblicati sul web attraverso siti web e blogs. Quindi verso che tipo di analisi si sta spostando il criterio di “ragionamento” di Google?

CI TROVEREMO TUTTI DI NUOVO A SCUOLA

Lo scenario che presto ci troveremo a considerare, sarà quello di una prova scritta di lingua in un compito in classe. Questa affermazione nasce dalla considerazione che le ricerche nel campo della valutazione dei contenuti per l’ottimizzazione (non tanto nel posizionamento dei motori di ricerca) nella restituzione dei risultati sono saranno rivolte nella penalizzazione dei contenuti scadenti in termini di qualità: la penalizzazione dei contenuti non attinenti, è ormai cosa superata. Ora si vaglierà la qualità di un contenuto, come è scritto ed eventualmente da chi. Un testo scritto in maniera e grammatica perfetta, referenziato ed approfondito, verrà considerato “dall’intelligenza” del motore di ricerca come modello esemplare da cui trarre le dovute valutazioni quantitative. L’autonomia che è in grado di raggiungere un motore di ricerca “pensante” sta nel fatto che una volta in grado di riconoscere i contenuti Top, sarà in grado successivamente di valutare i contenuti che più assomigliano a quello. Certo che si tratta di una impresa senza precendenti, ma è quello che succederà. Come in un compito in classe, la votazione finale dell’intera classe, corrisponde alla SERP. Il folletto di cui si parlava, altri non è che il professore che detta il tema (le keywords). Chi prenderà una A o una A++ sarà sicuramente il primo risultato della SERP. Chi prenderà una C sarà quantomeno al terzo posto o al secondo se non ci sono delle B. Se nella classe saranno presenti diverse votazioni C, allora subentra un processo di valutazione supplementare che posizionerà in maniera gerarchica le C: i riferimenti e gli approfondimenti di un tema, faranno si che tra due temi con votazione simile, ci sia uno che verrà preferito all’altro dal professore, perché magari uno di essi contiene un approfondimento in più, una citazione o semplicemente perché in precedenza, uno di essi ha più volte dimostrato di saper scrivere bene, prendendo sempre delle B. Questa sorta di referenza, è un po’ già in uso nei motori di ricerca dal momento che un sito “referenziato”, che scrive un argomento può primeggiare su altri che trattano lo stesso argomento, solo per il fatto di godere un una popolarità maggiore. Del resto non sono nuove, visto che siamo stati tutti a scuole, queste “ingiustizie” nate per delle preferenze “umane” del professore verso certi alunni a scapito di altri. Ed è proprio questo che potrebbe rivelarsi il limite di una considerazione quanto più umana e Natural delle qualità dei contenuti da parte di un motore di ricerca. Il Natural Seo infatti, così come è stato concepito in questa sede, nasce dal fatto che la valutazione di un contenuto sarà quanto di più naturale ci sia. Allo stesso modo con cui un professore giudica un tema di lingua. E sebbene agli occhi di un “professore universale” due temi si possano eguagliare, ci sarà sempre un primo e un secondo.

NATURAL SEO

Era da poco finita l’estate del 2009 quando come per magia, mi si è aperta nella mente l’ipotesi di uno sviluppo naturale dell’ottimizzazione del posizionamento nei motori di ricerca. Il tutto senza aver letto né sentito niente a riguardo. Così all’interno del mio blog, ho postato il primo articolo riguardo lo sviluppo del Natural SEO, ovvero un concetto più che una serie di procedure. Da sempre ho considerato il Natural Seo come quella serie di logiche che giudicano un contenuto auspicabilmente buono e con un buon posizionamento prima ancora di averlo pubblicato. Sto parlando di una serie di ragionamenti che mi rendono nel mio modo di pensare, capace di prevedere se un sito web, un blog con la pubblicazione di un contenuto, sia in grado di sperare in ottime posizioni. Credevo che questo concetto del Natural non fosse mai stato considerato prima d’ora e di lì a poco, scopro che nella città di Los Angeles già una company aveva parlato proprio di Natural Seo Developing, allo stesso modo con cui lo feci io, ma qualche mese dopo. Poi la scoperta di un’azienda leader del Michigan di consulenza SEO, nella considerazione Natural della questione. L’azienda del Michigan è operativa dal 1999, ma non mi è dato sapere come e quando hanno cominciato a parlare di Natural Seo. Tuttavia, i concetti principali che si possono dedurre da quel poco che si legge nella loro homepage, non sono tanto differenti dalle basi di concetto di cui parlo io. Può un Natural Seo Developer mettere per iscritto quello che fa? La risposta è no, perché il lungo processo di studio, calcolo, analisi e deduzioni logiche di cui ora fa tesoro, è l’unico bagaglio che si porta dietro a foraggiamento della sua attività. Se tutti noi fossimo domani dei Natural Seo Experts, allora saremmo sicuramente tutti insieme dentro l’aula a fare il tema. Infatti non sarà certo nel giro di un anno o due che vedremo questo scenario di cui vi parlavo, ma non mancherà tanto. Nel frattempo, chi ha cognizione del Natural Seo potrà lasciare dietro i tradizionalisti, godere del gap che hanno per i prossimi due anni; mentre i tradizionali SEO Experts saranno lì ad arrovellarsi con links, backlinks e codici, il Natural Seo non farà altro che leggere o far leggere i testi ad un professore di lingua, e farseli giudicare. Da un parte si tratta di una metafora, ma deve rendere l’idea di come l’ottimizzazione futura delle SERP sia rivolta ad una “decodicizzazione” di un testo, della sua popolarità e referenze. Un testo non potrà essere forzatamente posto in vetta alle classifiche prima ancora che i veri giudici ( i lettori) abbiano il tempo di giudicarlo e referenziarlo. Ci sarà un tempo necessario perché “gli alunni” che svolgono il tema, vengano considerati ad uno ad uno dal professore, al fine di stabilire una successiva gerarchia in caso di temi simili o equivalenti. E questa gerarchia dovrà formarsi naturalmente. Chissà se Google riuscirà a considerare inattendibile una serie di referenze verso un contenuto troppo giovane? Un testo o un blog, affidato a SEO Experts tradizionali, che lo referenziano in maniera innaturale a pochi giorni dalla sua nascita, dovrà risultare secondo le logiche Natural del pensare autonomo del motore di ricerca, come un campanello d’allarme. È come se al professore, il giorno stesso dello svolgimento del tema, decine di persone vadano da lui a dire che quell’alunno è bravo e scrive bene, senza che nessuno di essi lo conosca o abbia avuto modo di leggere i suoi manoscritti.
Computational knowledge
Ecco un esempio in cui si cerca di rendere pensante una macchina in grado di elaborare dei pochi input e fornire dei risultati attinenti e con un senso logico e semantico. In realtà al giorno d’oggi numerosi casi di studio possono essere citati per trovare un’attinenza a quanto esposto fin’ora. Se partiamo con l’analizzare quella che è la Hamming Distance, con definizione da Wikipedia: In information theory, the Hamming distance between two strings of equal length is the number of positions at which the corresponding symbols are different. Put another way, it measures the minimum number of substitutions required to change one string into the other, or the number of errors that transformed one string into the otherFile:Hamming distance 3 bit binary.svg
File:Hamming distance 3 bit binary example.svg
File:Hamming distance 4 bit binary.svg
Formula della distanza di Hamming tra due variabili binarie
Dove q è il numero di variabili con valore 1 per gli i-esimi oggetti e i per i j-esimi oggetti e r è il numero di variabili con valore 0 per li i-esimi oggetti e 1 per i j-esimi oggetti. (fonte http://people.revoledu.com/kardi/tutorial/Similarity/HammingDistance.html)
Esempio con due frutti: mela e banana.
Consideriamo 4 variabili di valutazione per i due frutti, in cui abbiamo
var1 var 2 var 3 var 4
MELA: si si si si
BANANA no si no no
Se consideriamo i due oggetti definiti da 4 variabili, possiamo dire che per rappresentarli abbiamo bisogno di 4 dimensioni, ecco che i vettori di definizione della banana hanno coordinate ( 0,1,0,0) e per la mela ( 1,1,1,1). Ora se vogliamo calcolare la distanza tra i due frutti sulla base delle variabili di considerazione che abbiamo usato, il risultato della formula è 3.
Che cosa si evince da questa distanza: che più definito vuole essere un oggetto una parola o un concetto, maggiore sarà il numero di vettori o variabili che dobbiamo considerare per definirlo maggiori sono il numero di vettori o variabili che dobbiamo considerare per definirlo, maggiore sarà la varietà di distanze da oggetti o parole che andremo a mettere a confronto.
In un certo senso, applicare un concetto qui esposto in maniera basilare, ad un motore di ricerca, è senza dubbio una delle più grosse imprese in cui potrebbe imbattersi la ricerca. Definire o fare in modo che un sistema computazionale sia in grado di definire variabili e distanze. Una volta definito però il modello predittivo, senza dubbio inizia la discesa.
Non-negative matrix factorization
La NMF è un gruppo di algoritmi in analisi statistica multivariata e algebra lineare dove la matrice X è fattorizzata di norma in due matrici W e H: nmf(X)à WH
L’aspetto che più interessa nel campo dell’applicazione eventuale nei motori di ricerca è senza dubbio la Probabilistic Latent Semantic Analysis.
Da Wikipedia:
Probabilistic latent semantic analysis (PLSA), also known as probabilistic latent semantic indexing (PLSI, especially in information retrieval circles) is a statistical technique for the analysis of two-mode and co-occurrence data. PLSA evolved from Latent semantic analysis, adding a sounder probabilistic model. PLSA has applications in information retrieval and filtering, natural language processing, machine learning from text, and related areas. It was introduced in 1999 by Jan Puzicha and Thomas Hofmann,[1] and it is related to non-negative matrix factorization.
Compared to standard latent semantic analysis which stems from linear algebra and downsizes the occurrence tables (usually via a singular value decomposition), probabilistic latent semantic analysis is based on a mixture decomposition derived from a latent class model. This results in a more principled approach which has a solid foundation in statistics.
Considering observations in the form of co-occurrences (w,d) of words and documents, PLSA models the probability of each co-occurrence as a mixture of conditionally independent multinomial distributions:

P(w,d) =
P(c)P(d | c)P(w | c) = P(d)
P(c | d)P(w | c)

c

c

The first formulation is the symmetric formulation, where w and d are both generated from the latent class c in similar ways (using the conditional probabilities P(d | c) and P(w | c)), whereas the second formulation is the asymmetric formulation, where, for each document d, a latent class is chosen conditionally to the document according to P(c | d), and a word is then generated from that class according to P(w | c). Although we have used words and documents in this example, the co-occurrence of any couple of discrete variables may be modelled in exactly the same way.
It is reported that the aspect model used in the probabilistic latent semantic analysis has severe overfitting problems[2]. The number of parameters grows linearly with the number of documents. In addition, although PLSA is a generative model of the documents in the collection it is estimated on, it is not a generative model of new documents.
PLSA may be used in a discriminative setting, via Fisher kernels.”

Latent semantic analysis
Abstract da Wikipedia
“Latent semantic analysis (LSA) is a technique in natural language processing, in particular in vectorial semantics, of analyzing relationships between a set of documents and the terms they contain by producing a set of concepts related to the documents and terms.
LSA was patented in 1988 (US Patent 4,839,853) by Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum and Lynn Streeter. In the context of its application to information retrieval, it is sometimes called Latent Semantic Indexing (LSI)
LSA can use a term-document matrix which describes the occurrences of terms in documents; it is a sparse matrix whose rows correspond to terms and whose columns correspond to documents. A typical example of the weighting of the elements of the matrix is tf-idf (term frequency–inverse document frequency): the element of the matrix is proportional to the number of times the terms appear in each document, where rare terms are upweighted to reflect their relative importance.
This matrix is also common to standard semantic models, though it is not necessarily explicitly expressed as a matrix, since the mathematical properties of matrices are not always used
After the construction of the occurrence matrix, LSA finds a low-rank approximation to the term-document matrix. There could be various reasons for these approximations:
  • The original term-document matrix is presumed too large for the computing resources; in this case, the approximated low rank matrix is interpreted as an approximation (a "least and necessary evil").
  • The original term-document matrix is presumed noisy: for example, anecdotal instances of terms are to be eliminated. From this point of view, the approximated matrix is interpreted as a de-noisified matrix (a better matrix than the original).
  • The original term-document matrix is presumed overly sparse relative to the "true" term-document matrix. That is, the original matrix lists only the words actually in each document, whereas we might be interested in all words related to each document--generally a much larger set due to synonymy.
The consequence of the rank lowering is that some dimensions are combined and depend on more than one term:
{(car), (truck), (flower)} --> {(1.3452 * car + 0.2828 * truck), (flower)}
This mitigates the problem of identifying synonymy, as the rank lowering is expected to merge the dimensions associated with terms that have similar meanings. It also mitigates the problem with polysemy, since components of polysemous words that point in the "right" direction are added to the components of words that share a similar meaning. Conversely, components that point in other directions tend to either simply cancel out, or, at worst, to be smaller than components in the directions corresponding to the intended sense.”
Che significa tutto questo? Che già sono in opera speciali algoritmi di analisi semantica per deteriminate categorie di documenti come la Prior Art e i Brevetti.
Se dunque l’Analisi della Semantica Latente non è proprio l’ultima delle novità in campo della ricerca, il suo perfezionamento nell’ambito della formulazione del modello predittivo ed autonomo è quello che fino adesso si è espresso come la più colossale impresa della ricerca. Un organismo autosufficiente, in grado di censire, catalogare, analizzare un testo. Di questo testo analizzerà in seguito la semantica di ogni parola, la sua distanza da quelle più fortemente correlate mettendo insieme i periodi. Solo facendo un censimenti simile in fase di stoccaggio dei documenti nei data center, Google sarebbe in grado successivamente di fornire la risposta ad una query con determinate keywords in tempi ragionevoli. Questo perché la SERP non può impiegare troppo tempo ad apparire agli occhi dell’utente, altrimenti nonostante la qualità dei risultati forniti, finirebbe per essere poco appetibile al panorama degli utenti web.
Se si analizza il risultato del nostro libero arbitrio e la poliedricità della mente umana, saremmo subito pronti a dire che ad ostacolare questo ricerca ci si mette il fatto che l’uomo utilizza tanti ed imprevedibili modi per descrivere un oggetto o un fenomeno. Questo da una parte farebbe pensare che lo stesso concetto, con significato identico, potrebbe trovare spiegazione da frasi completamente diverse fra loro ma ugualmente significative. La diversità delle frasi però, nell’ambito in cui ci siamo posti, non dovrebbe però presentare risultati commensurabili sulla distanza all’interno dei significati delle parole all’interno di ogni frase definitoria: anche procedendo per sinomini, per definire un concetto, verranno fuori sicuramente parole che servono a descrivere il concetto finale, che tra loro hanno una determinata distanza semantica.
Se per descrivere il concetto C vengono usati da due individui due periodi (frasi) completamente diverse A e B, al loro interno avremo comunque delle molecole ( parole) che tra loro hanno bassa distanza semantica. Mi riferisco al fatto che all’interno della frase A ci sarà una parola che quantitativamente avrà una bassa distanza semantica dalle parole che definiscono il concetto C. Stessa cosa vale per una molecola all’interno di B. Per la proprietà transitiva, le parole che hanno basso valore di distanza semantica all’interno del concetto C, contenute nei periodi A e B, saranno poco distanti tra loro. ( nickymancini 2010 ).
LA DISTANZA SEMANTICA CONCORRE A CREARE UN RANK ASSOLUTO DELLE PAROLE
Introduzione da un abstract di Fabrizio Sebastiani, Consiglio Nazionale delle Ricerche
The automated categorization (or classification) of texts into predefined categories has witnessed a booming interest in the last ten years, due to the increased availability of documents in digital form and the ensuing need to organize them. In the research community the dominant approach to this problem is based on machine learning techniques: a general inductive process automatically builds a classifier by learning, from a set of preclassified documents, the characteristics of the categories. The advantages of this approach over the knowledge engineering approach (consisting in the manual definition of a classifier by domain experts) are a very good effectiveness, considerable savings in terms of expert labor power, and straightforward portability to different domains. This survey discusses the main approaches to text categorization that fall within the machine learning paradigm. We will discuss in detail issues pertaining to three different problems, namely document representation, classifier construction, and classifier evaluation.

Viene da se la tradizione di considerare le lettere dell’alfabeto, gli atomi della nostra lingua e dei nostri testi. Sono in numero finito ma possono generare un numero anch’esso finito di parole ( esclusi gli slang che ogni anno entrano a far parte del dizionario), ma a loro volta un numero infinito di periodi o frasi, che a loro volta contribuiranno a formulare un numero infinito di testi, articoli, volumi ecc… L’intelligenza di un’applicazione della ricerca allo scopo di generare un modello predittivo, è quello di basarsi ( e me lo auguro) su un numero finito di supposizioni ed elementi. In questo caso, le parole. Durante il censimento di un testo formato da un numero finito di periodi, è possibile dunque applicare perfezionate formule di LSA al fine di stabilire se all’interno di un periodo, le parole che concorrono a generarlo sono tra loro casuali, inopportune o “le migliori che possano essere usate per crearlo”. Che significa questo? Che per descrivere il famoso concetto C, le due frasi concorrenti A e B, usano diverse parole. Ma una tra esse, deve prevalere, altrimenti non si avrebbe tra i risultati, uno prevalente, ma un exequo che non porta a nulla di buono. La prevalenza di un risultato nasce dalla commensurabilità di un valore di esso che verrà poi trasformato in rank della parole. Questo un po’ assomiglia a quel che andrebbe fatto nell’istruzione di un modello autonomo pensante volto a definirsi un domani predittivo; che equivale a dire, fai in modo che il modello sia in grado di stabilire che la frase B prevale sulla frase A e perché.
Analizzare le parole all’interno della frase A e B ponderato al valore che hanno le parole che descrivono il concetto C. La frase B risulta prevalente. La frase B e le parole in essa contenute, riceveranno un rank più alto di quanto avvenga per la frase A e le sue parole in esse contenute. Questo definisce la prevalenza del risultato B sul risultato A. Definisce inoltre la prevalenza della sommatoria dei valori associati alle parole in B rispetto a quelli in A. Può anche esistere il caso in cui un paio di parole in A abbiano meno distanza dal concetto C rispetto a qualsiasi altra combinazione in B, ma se B alla fine è la frase che prevale, questo aspetto non è sufficiente.

No comments:

Post a Comment

Please, post a comment and be nice!