Curiosi di sapere come funziona Google PageRank? Ecco la guida completa

Premessa

Questa è una guida sul principio base del funzionamento dell’algoritmo di Google, pertanto si tratta di un post abbastanza lungo ma alquanto informativo.

Che cos’è Google PageRank?

PageRank (abbreviato anche PR) è l’algoritmo base di Google. Consiste in una formula matematica che valuta il “valore di una pagina” osservando la quantità e la qualità di altre pagine collegate. Il suo scopo è determinare l’importanza relativa di una determinata pagina Web nell’intera rete Internet.

Bisogna capire infatti che se una pagina web richiama altre pagine, queste ultime traggono un beneficio ammesso che questa pagina sia considerata da Google autorevole, ovvero, contenga informazioni rilevanti per gli utenti che compiono una certa ricerca.

Pertanto, immagina che il tuo sito riceva un collegamento da un sito importante, che ha milioni di visualizzazioni e che pubblica contenuti che compaiono nella prima pagina di Google per una certa parola chiave, il tuo sito non può che trarne beneficio.

Cosa significa questo? Che quel sito pubblica contenuti che per quella parola chiave sono considerati di alta qualità e perciò Google li propone agli utenti.

La qualità di un sito non è data dalla sua bellezza grafica ma dal valore attribuito dall’algoritmo di Google ai suoi contenuti. Un sito graficamente molto valido potrebbe non comparire nemmeno a pagina 1000 della ricerca o perfino essere penalizzato, mentre un sito che ha una grafica molto semplice o anche pessima – ammesso che i contenuti siano leggibili facilmente – può andare in prima pagina per quella determinata chiave di ricerca.

Che differenza fa?

Che se un sito non ha rilevanza per Google il suo investimento e tutti i costi per la sua gestione si traducono in denaro sprecato.

La questione è deleteria sia perché il sito perde occasioni di acquisire potenziali cliente ma anche perché può perdere importanti fornitori. Ci sono aziende, infatti, che prima di creare partnership con altre aziende, o anche per mantenere i rapporti esistenti, operano un controllo sulla capacità dell’impresa di essere presente sul web e in generale di saper fare marketing digitale. Dato che esistono strumenti e agenzie capaci di fornire in modo preciso il rating di un sito e del peso della presenza web – così come quelle che forniscono i rating finanziari delle aziende e degli Stati – queste informazioni diventano di importanza strategica. Pensa infatti ad un’azienda che deve concedere i suoi prodotti ad un distributore e che basa, come normale che sia al giorno d’oggi, una buona parte del suo marketing sui canali digitali. Se si dà conto che quel distributore o esercente non è in grado di mantenere buoni standard di presenza web, potrebbe scartarlo dalla sua filiera commerciale, come di fatto avviene molto spesso. Ci capita frequentemente di gestire queste esigenze per aziende che ci chiamano disperate per risolvere questi problemi.

Prima di approfondire il discorso su cosa è PageRank e come funziona, procedo con una serie di domande e risposte.

  • Se qui ci spieghi cosa è PageRank di Google significa che ci stai dando di conoscere i segreti di come piazzarci sulla prima pagina di Google?
  • No. Ho più volte detto anche in questo blog che i fattori con cui Google indicizza le pagine web sono almeno 400, di cui ne conosciamo solo alcuni perché Google non svela a nessuno il funzionamento del suo algoritmo. PageRank è uno di questi, una cosa molto complessa che cercherò di spiegarvi in modo semplice per quanto possibile. È un fattore importante perché è la base del complesso sistema di algoritmi di Google e sapere come funziona aiuta a capire molte cose.
  • Può PageRank aiutare a fare SEO in modo appropriato e a scalare le classifiche?
  • Certamente sì ma ci vuole molto di più.
  • Con questa spiegazione di PageRank posso fare SEO per conto mio anche se non sono un esperto?
  • Forse sì e forse no. Se vuoi andare in prima pagina per certe parole di ricerca affidati ad un esperto. Ricorda anche che il SEO a buon mercato non esiste. Se una agenzia o un esperto ti propone servizi SEO al di sotto dei 8 o 10 mila euro all’anno, probabilmente è solo un mestierante. Le conoscenze in gioco e gli strumenti da utilizzare sono molto sofisticati e hanno un costo non da poco. Puoi andare in prima pagina anche senza rivolgerti a nessuno ma devi studiare bene la materia e capire cosa fare.

Storia di PageRank.

I co-fondatori di Google Sergey Brin e Larry Page idearono PageRank nel 1997 come parte di un progetto di ricerca presso la Stanford University. Ne hanno dato la seguente descrizione:

“Il nostro obiettivo principale è migliorare la qualità dei motori di ricerca web.”

Molto semplice, no?

Le origini del motore di ricerca Google

Il brevetto per il sistema fu concesso a Stanford e Brin e Page cedettero le quote a Google per avere diritti esclusivi su PageRank. Brin e Page, in quanto i fondatori di Google, rinunciarono alle loro quote personali per cedere il tutto alla loro società.

Nove anni più tardi quelle azioni furono vendute per oltre 300 milioni di dollari.

Perché questo brevetto era diventato così prezioso?

L’algoritmo di PageRank ha introdotto i collegamenti (link) nell’equazione che determina la classifica, quindi il posizionamento, di una pagina web.

Vuoi sapere come quest’idea è nata?

Il gruppo di ricercatori di Stanford si rese conto che le varie riviste e testi accademici rimandavano alle opere da cui erano tratte le citazioni in base all’importanza degli articoli scientifici in essi riportati. Ecco trovata la base per l’algoritmo. I famosi link. Si trattava quindi di creare un sistema che teneva conto dell’importanza dei contenuti e di creare collegamenti fra questi.

I primi motori di ricerca.

Quando iniziai a bazzicare la rete, circa 25 anni fa, i motori di ricerca – allora erano in voga Yahoo e Altavista che poi fu comprato proprio da Yahoo nel 2003 –non erano in grado di fare questo tipo di operazioni sui link.

Google PageRank
Andamento dei motori di ricerca negli Stati Uniti dal 2002 al 2008

Il primo algoritmo di Google però non era basato solo sui collegamenti, tuttavia fu proprio Google il primo a farne uso. In seguito, tutti gli altri si adeguarono. Ma PageRank fu una vera e propria rivoluzione. Dal 2004 Google aveva cominciato a guidare la classifica dei motori di ricerca negli Stati Uniti, nel 2008 ormai il distacco con in concorrenti diventò abissale.

La barra verde di PageRank.

Nel 2000 Google aggiunse una barra verde alla sua barra degli strumenti che riportava il punteggio di PageRank, indicato da 0 a 10 per ogni pagina web.

PageRank
Toolbar di Google PageRank

A quel tempo, erano solo pochi a occuparsi di SEO e poche erano le aziende che implementavano tali metodologie.

Google forniva un ottimo strumento per misurare il potenziale impatto di una pagina web e quindi era relativamente più facile lavorare all’ottimizzazione, anche sapendo quale valore assumevano i link.

Allora poi le penalità erano manuali. Cioè, Google non penalizzava un sito come fa ora in modo automatico, o comunque senza avvisare il proprietario. Per essere penalizzati, a quel tempo, era necessario che qualcuno facesse una segnalazione. Questo accadeva ad esempio per i siti che facevano spam, per quelli che copiavano contenuti e per altre pratiche non consentite. Ora invece, come saprai, accade che Google penalizza senza preavviso se trova contenuti copiati, oppure informazioni che contraddicono la sua policy. Recuperare da una penalizzazione è molto difficile, a seconda dei casi è del tutto impossibile.

L’aspetto più peculiare per chi faceva SEO era che si poteva conoscere facilmente il valore delle proprie pagine web e quelle dei concorrenti. Questo determinò un nuovo mercato, quello dei link. Ovvero, c’era chi vendeva i collegamenti dal proprio sito se questo aveva una buona posizione perché poi aiutava anche il sito acquirente a scalare la classifica. Attenzione, questa pratica è ora avversata da Google anche se ancora in uso. Ci sono tuttora molti siti che vendono link; evitate di comprare link perché potete incorrere in penalizzazioni.

Alcuni siti proponevano l’acquisto dei link all’asta. Se un sito fosse stato molto visitato, le aste per aggiudicarsi il link arrivavano a costare varie migliaia di dollari per singolo collegamento.

Google però giudicò questa una pratica scorretta decise di intervenire.

Come Google decise di combattere il fenomeno.

Ovviamente modificando il suo algoritmo.

Tuttora, i siti che Google considera validi perché forniscono contenuti veramente informativi per gli utenti che compiono le ricerche e che hanno certe caratteristiche, tra cui la semplice leggibilità, velocità di caricamento, visualizzazione su tutti i dispostivi etc., sono premiati, gli altri no.

Per ottimizzare un sito, quindi per fare SEO, ci sono molti fattori da considerare.

Ritorniamo agli albori di PageRank.

Sergey Brin e Larry Page pubblicarono una dichiarazione sullo stato dei motori di ricerca nel loro documento originale:

“Chiunque abbia utilizzato un motore di ricerca di recente può facilmente testimoniare che la completezza dell’indice non è l’unico fattore nella qualità dei risultati della ricerca. I “risultati spazzatura” spesso eliminano qualsiasi risultato utile a cui un utente è interessato.”

PageRank mirava a risolvere questo problema facendo uso del “grafico di citazione (link) del web”, che i due fondatori di Google descrissero come “un’importante risorsa che è stata in gran parte inutilizzata nei motori di ricerca web esistenti”.

La formula di PageRank.

Ecco la formula completa del PageRank con la spiegazione direttamente dall’articolo originale pubblicato nel 1997:

Supponiamo che la pagina A abbia pagine T1Tn che puntano ad esso (ovvero, sono citazioni). Il parametro d è un fattore di smorzamento che può essere impostato tra 0 e 1. Di solito impostiamo d su 0,85. Ci sono maggiori dettagli su d nella prossima sezione. Anche C (A) è definito come il numero di collegamenti che escono dalla pagina A. Il PageRank di una pagina A è dato come segue:

PR (A) = (1-d) + d (PR (T1) / C (T1) +… + PR (Tn) / C (Tn))

Tieni presente che i PageRank formano una distribuzione di probabilità sulle pagine web, quindi la somma di tutti i PageRank di pagine web sarà una.

Magari risulta un po’ complesso, vedo di semplificare.

Google tiene conto di tre fattori nel calcolo del PageRank di una pagina Web, che sono:

La quantità e la qualità delle pagine di collegamento in entrata;

Il numero di collegamenti in uscita su ciascuna pagina di collegamento;

Il PageRank di ciascuna pagina di collegamento.

Supponiamo che la pagina C abbia due collegamenti: uno dalla pagina A e uno dalla pagina B. La pagina A è più forte della pagina B e ha anche meno collegamenti in uscita. Inserisci queste informazioni nell’algoritmo PageRank e otterrai il PageRank della pagina C.

PageRank
Rappresentazione grafica del PageRank

La formula di PageRank ha anche un cosiddetto “fattore di smorzamento” (DAMPING FACTOR) che simula la probabilità che un utente casuale continui a fare clic sui collegamenti mentre naviga sul web. Questo fa sì che sia diminuito il valore ad ogni clic del collegamento.

Ad esempio: la probabilità che tu faccia clic su un link nella prima pagina che visiti è ragionevolmente alta. Ma la probabilità che tu faccia clic su un collegamento nella pagina successiva è leggermente inferiore, e così via.

Tenendo presente ciò, il “voto” totale di una pagina viene moltiplicato per il “fattore di smorzamento” (generalmente assunto pari a 0,85) per ogni iterazione dell’algoritmo PageRank.

Link-hop.

Per capire meglio ciò che segue descrivo cosa si intende per link-hop. Nel networking – cioè nella struttura di condivisione di vari computer che condividono risorse e contenuti, quindi anche la rete Internet – un hop consiste nel passaggio di un pacchetto di dati da un segmento della rete ad uno successivo. Quando stai navigando il web, i pacchetti di dati passano attraverso i router mentre viaggiano tra l’origine e la destinazione. Il conteggio degli hop (dei salti di questi pacchetti) si riferisce al numero di dispositivi intermedi attraverso i quali i dati devono passare tra l’origine e la destinazione.

Ritorniamo al funzionamento di PageRank.

Se un sito – ad esempio uno ad alto traffico con un valore molto alto – si collega a una pagina tramite quattro “link-hop”, il valore di quel link viene “smorzato” o “diluito” a tal punto che la pagina finale difficilmente ne trarrebbe beneficio. Ma se si collegano a quella stessa pagina tramite solo due hop, quel collegamento avrà una forte influenza sulla pagina. Quindi, più sono e più il valore che assume la pagina di destinazione è attenuato e ne trae meno beneficio o anche nullo.

Ti starai chiedendo:

“E se non conoscessimo il PageRank della pagina A o della pagina B?”

Ottima domanda!

Questo sarebbe come porre il seguente quesito:

Se Mick Jagger decidesse di dare metà dei suoi soldi a Keith Richards, quanti soldi avrebbe Keith?

Come fai a dare una risposta se non sai quanti soldi ha Keith prima che Mick gli dia la metà dei suoi?

Per quanto strano, l’esempio è pertinente. Infatti, per calcolare il PageRank di una pagina della rete, devi prima conoscere il PageRank di almeno una pagina iniziale.

Quindi, come fa Google a risolvere questo problema?

Ecco un altro estratto dall’articolo PageRank originale:

PageRank o PR (A) possono essere calcolati usando un semplice algoritmo iterativo e corrispondono al principale autovettore della matrice di link normalizzata del web.

Huh… allora è tutto chiaro! No, scherzo. È una cosa molto complessa da capire per chi non ha conoscenze di ingegneria informatica e di algoritmi.

All’atto pratico significa che l’algoritmo PageRank di Google può calcolare il valore (PR) di una pagina senza conoscere il PageRank definitivo delle pagine di collegamento. Questo perché PageRank non è in realtà un “punteggio” assoluto, ma piuttosto una misura relativa della qualità di una pagina Web rispetto a qualsiasi altra pagina della rete Internet.

Perché Google ha rimosso il punteggio PageRank pubblico?

E sì, perché nel 2016 Google ha deciso di levare la barra verde con il valore PageRank.

Ecco cosa ha detto un portavoce di Google nel 2016:

Man mano che Internet e la nostra comprensione di Internet sono cresciuti in complessità, la barra indicante il valore PageRank è diventata meno utile per gli utenti come unica metrica isolata. La sospensione della visualizzazione di PageRank dalla barra degli strumenti consente di evitare di confondere utenti e webmaster sul significato stesso di quel valore (metrica).

Ma c’era sicuramente un altro fattore che ha contribuito alla decisione: farla finita con lo spam. Ovvero, mettere fine a quella pratica di mercimonio dei link di cui parlavo sopra.

Siccome molti collegamenti risultavano innaturali, perché oggetto di vendita e quindi creavano link con pagine i cui contenuti erano scadenti, questo indicatore non era più attendibile così come era.

L’introduzione di “nofollow”

La guerra a questo tipo di pratiche scorrette è però iniziata molto prima del 2016. Già nel 2005, Google cominciò a collaborare con altri importanti motori di ricerca per introdurre l’attributo “nofollow”.

Ciò ha risolto lo spam nei commenti dei blog anche se questa pratica, manco a dirlo, è ancora adottata da molti. Se vi capita di vedere su alcuni blog commenti del tipo: “Visita il mio sito che parla di diete” seguito dalla url del sito del commentatore, questo è considerato spam. Molti cosiddetti guru della rete consigliavano e alcuni ancora consigliano questa pratica ai loro seguaci. Non farlo mai, il tuo sito può subire serie penalizzazioni e comunque quel link che hai creato in quel sito non ti serve a nulla.

Ecco un estratto della dichiarazione ufficiale di Google sull’introduzione di “nofollow”:

Se sei un blogger (o un lettore di blog), hai purtroppo familiarità con le persone che cercano di migliorare la posizione dei loro siti nei motori di ricerca inviando commenti di blog collegati come “Visita il mio sito di farmaci scontati”. Questo si chiama spam nei commenti, non ci piace e abbiamo testato un nuovo tag che lo blocca. D’ora in poi, quando Google vedrà l’attributo (rel = “nofollow”) sui collegamenti ipertestuali, tali collegamenti non riceveranno alcun credito quando classifichiamo i siti Web nei nostri risultati di ricerca.

Inoltre, ormai quasi tutti i CMS, le piattaforme di blogging, hanno implementato controlli che di default considerano “nofollow” tali tipi di commenti.

Tuttavia, Google, risolvendo questo problema ne creò un altro.

Struttura originaria di PageRank

La formula originale di PageRank afferma che l’algoritmo opera una divisione equa tra i collegamenti in uscita su una pagina Web. Pertanto, se il PageRank di una pagina è y e la pagina ha dieci collegamenti in uscita, la quantità di PageRank trasferita tramite ciascun collegamento è y/10.

Ma cosa succede se aggiungi un attributo “nofollow” a 9 di quei 10 link? Sicuramente si interrompe il flusso di PageRank verso nove di quelle pagine, lasciando che l’intero valore di PageRank venga trasferito tramite un solo link su quella singola pagina non affetta da “nofollow”. L’intero valore della pagina iniziale a quella di destinazione quindi.

Inizialmente, accadeva proprio questo. Così i webmaster cominciarono ad aggiungere selettivamente l’attributo “nofollow” alle pagine ritenute meno importanti, in particolare quelle con i link in uscita. In questo modo il proprio sito non veniva danneggiato.

Google ha apportato modifiche a questo nel 2009. Ecco un estratto dal post del blog di Matt Cutts di Google sull’argomento:

Quindi cosa succede quando si ha una pagina con “dieci punti PageRank” e dieci collegamenti in uscita e cinque di questi collegamenti non vengono seguiti (nofollow)? […] Inizialmente, i cinque collegamenti senza nofollow avrebbero trasferito due punti di PageRank ciascuno […] Più di un anno fa, Google ha cambiato il modo in cui è trasferito il PageRank in modo che i cinque collegamenti senza nofollow trasferissero un punto di PageRank ciascuno (non due quindi).

Non sappiamo se questo è ancora il modo con cui è impostato l’algoritmo “nofollow”. Google ha apportato questa modifica nel 2009 e ora potrebbe anche funzionare diversamente. Google non ci dice cosa fa, lascia trapelare solo alcune informazioni, tenendo per la maggior parte tutto molto riservato. È possibile che altri fattori (ad es. La posizione di un collegamento su una pagina) ora influenzino anche la quantità di valore trasferita da un determinato collegamento.

Ma quello che sappiamo per certo è che l’aggiunta di tag “nofollow” ad alcuni link non fa in modo di trasferire valore verso il resto dei link sulla pagina.

La dichiarazione di John Mueller del 2014.

John Mueller nel 2014 disse che bisognava smettere di usare PageRank come metrica per il posizionamento perché non sarebbe più stato aggiornato. Ecco la sua dichiarazione:

Non userei PageRank o i link come metrica. Il PageRank è stato aggiornato l’ultima volta più di un anno fa (per quanto ricordo) e non abbiamo intenzione di effettuare ulteriori aggiornamenti. Pensa a ciò che desideri che gli utenti facciano sul tuo sito e considera una metrica appropriata per questo.

Nel 2016, Toolbar PageRank è stato ufficialmente eliminato quindi.

I collegamenti oggi e le pratiche di link building.

Il link building (letteralmente: costruzione di collegamenti) è una pratica che sostiene questo principio: se il tuo sito è collegato a siti importanti acquista valore. Questi link devono essere in entrata e non in uscita ovviamente. Ciò significa che il mio sito acquista valore se il sito del Times, ad esempio, si collega con il mio e non il contrario. Questa teoria è ancora molto diffusa ed è per questo che i link sono ancora oggetto di compravendita. Non fatevi fregare da queste stupide cose.

Certo, se il tuo sito ha collegamenti in entrata da parte di siti importanti la questione è vista bene anche da Google ma la prima cosa che Google considera è se i tuoi contenuti sono davvero informativi. Via via che l’algoritmo di Google si evolve, è in grado di “capire” se quello che pubblichi è rilevante o è spazzatura, questo benché il Times o la CNN e la BBC creino link al tuo sito. Cosa molto difficile, a meno che tu non sia sir Mick Jagger o un’altra celebrità.

Talvolta rimango stupito delle cose che mi vengono proposte. Non molto tempo fa mi contatta un tizio e mi dice di essere un consulente finanziario. Vuole che gli organizziamo i contenuti in modo che il suo sito possa apparire in prima pagina di Google. Okay, Copywriting e marketing digitale è proprio ciò che la mia agenzia fa. Bene, il tizio dice che vuole andare in prima pagina quando qualcuno ricerca anche solamente la parola “finanza”. Santo cielo! Come puoi chiedere una cosa del genere? A parte che nessuno può garantire quando andrai in prima pagina per una parola chiave di nicchia, figuriamoci competere con una chiave di ricerca come quella! Hai milioni da investire? Ne vale la pena? E non sei poi mica sicuro e nessuno può darti tempi.

Ciò che bisogna considerare è sicuramente questo:

PageRank è ancora un fattore importante nella classificazione di Google

I collegamenti con le pagine sono un fattore considerato ma non più come prima

L’attributo “nofollow” ha una rilevanza e va rispettato

Il fattore di smorzamento dei collegamenti è una proprietà di PageRank che va presa in considerazione

A questo proposito è interessante leggere dalle parole di Matt Cutts come Google opera. Traggo questo brano dallo stesso post del 2009 riferito sopra:

Anche quando sono entrato a far parte dell’azienda nel 2000, Google stava eseguendo un calcolo dei collegamenti più sofisticato di quanto si possa osservare dai documenti dove esponeva i criteri di PageRank. Se pensate che Google abbia smesso di innovare nell’analisi dei link, questo è un presupposto errato. Sebbene ci riferiamo ancora ad esso come PageRank, la capacità di Google di calcolare la reputazione sulla base di collegamenti è notevolmente migliorata nel corso degli anni.”

Una cosa buona da fare, sempre, è creare i collegamenti interni. Cioè, quando produco contenuti per il mio sito, ad esempio un articolo nel blog, è bene trovare il modo di creare opportuni link ad altri articoli dello stesso sito.

Per chi volesse ancora approfondire l’argomento consiglio il sito di Bill Slawaski.

Chi è Bill Slawski?

Un avvocato americano esperto di SEO che si è occupato dei brevetti di Google in relazione al SEO. Ha promosso il sito SEO by the Sea, un importante blog di ottimizzazione per i motori di ricerca, in cui ha pubblicato migliaia di articoli.

In realtà nemmeno Bill Slawski sa quali fattori fanno parte dell’algoritmo di Google o quanto ciascuno dei criteri pesa nella misurazione di una pagina web piuttosto che un’altra.

In questo articolo Slaswki spiega alcune di queste funzionalità

Buona lettura.