Google Panda Update: le risposte di Singhal e Cutts

Qualche giorno fa Google ha annunciato un aggiornamento del suo motore di ricerca volto a colpire i siti con contenuti di bassa qualità, che si posizionavano però meglio dei siti con contenuti qualitativamente superiori.
Questo nuovo update ha interessato quasi il 12% dei risultati del motore, e sul web si continua a parlare delle implicazioni apportate da tale modifica, che hanno portato da un lato a perdite drammatiche per alcune aziende (come Mahalo e Suite 101), e dall’altro a crescite di alcuni siti conosciuti per i loro contenuti di alta qualità.

Wired ha posto alcune domande a Amit Singhal e Matt Cutts sul “Panda Update” (questo è il nome che Google stesso ha dato all’aggiornamento) e ve le riporto di seguito.

Wired: Qual’è il nome in codice di questo update? Danny Sullivan di Search Engine Land lo ha chiamato “Farmer”, perché pare che il suo obiettivo sia quello di colpire le content farm.

A.S.: Internamente lo abbiamo chiamato col nome di un ingegnere, che si chiama Panda. Quindi internamente lo chiamiamo “big Panda”. E’ uno dei nostri ragazzi chiave. Qualche mese fa, ha trovato la soluzione per rendere possibile questo update.

Wired: Qual’è lo scopo?

A.S.: A fine 2009 abbiamo fatto Caffeine. Il nostro indice era cresciuto molto velocemente, e avevamo bisogno di un sistema di crawling molto più rapido. A cose fatte ci siamo trovati un sacco di nuovi contenuti freschi, anche se alcuni non erano così buoni. In pratica il problema si era spostato dai “farfugliamenti”, che il nostro spam team è in grado di individuare piuttosto bene, a un qualcosa di simile alla prosa scritta, con contenuto superficiale.

M.C.: Abbiamo posto ai nostri gruppi di lavoro questa domanda: “Qual’è il “contenuto limite” oltre il quale inizia lo spam?”. Una volta che ci siamo trovati d’accordo, abbiamo cercato di capire come affrontare il problema.

Wired: Come fate a riconoscere un sito con contenuti superficiali? Potete dare una definizione di contenuti di bassa qualità?

A.S.: Questo è un problema molto, molto difficile che cerchiamo di risolvere, e siamo in una continua evoluzione per cercare di farlo. Abbiamo voluto mantenere un approccio rigorosamente scientifico, e quindi abbiamo usato il sistema di valutazione standard che abbiamo sviluppato, dove in pratica inviamo i documenti a dei tester esterni. A queste persone abbiamo posto domande del tipo: “Ti fideresti a dare il tuo numero di tua carta di credito a questo sito? Ti fideresti a dare le medicine prescritte da questo sito ai tuoi figli?”

M.C.: Un ingegnere ha preparato un set di domande molto rigorose, del tipo “Consideri autorevole questo sito? Sarebbe OK se questo sito fosse una rivista? Questo sito ha un numero eccessivo di annunci pubblicitari?” e così via.

A.S.: Sulla base di questo, abbiamo fondamentalmente definito cosa può essere considerato di bassa qualità. Inoltre abbiamo lanciato il Chrome Site Blocker, ma non abbiamo utilizzato i dati raccolti per questo update. Tuttavia, confrontando tali dati, abbiamo notato un 84% di sovrapposizione, che ci ha fatto capire che siamo nella giusta direzione.

Wired: Ma come avete implementato questa cosa algoritmicamente?

M.C.: Penso che l’ingegnere cerca di riportare la sua stessa intuizione e la sua stessa “experience” agli utenti. Ogni volta che guardiamo ai siti che abbiamo bloccato, grazie alla nostra intuizione e alla nostra esperienza, cerchiamo di capire se questa cosa sarà o meno di valore per l’utente. E attualmente l’idea è quella di classificare i siti di alta qualità da una parte, e quelli di bassa qualità dall’altra.

A.S.: Immagina un iperspazio con un sacco di puntini: alcuni rossi, altri verdi, altri mischiati. Il nostro compito è trovare un piano che ci dica che la maggior parte delle cose che stanno da un lato sono rosse, e la maggior parte delle cose che stanno sull’altro lato sono l’opposto del rosso.

Wired: Credete che questo update abbia raggiunto il risultato voluto?

M.C.: Direi di sì. Ho ricevuto una email che diceva: “Un paio di mesi fa ero preoccupata che mia figlia avesse la sclerosi multipla pediatrica, e le content farm erano davanti ai siti istituzionali”. Ora mi ha detto: “I siti istituzionali sono tornati sopra. Volevo solo dirti grazie”.

A.S.: Abbiamo davvero ottenuto ciò che volevamo.

M.C.: Il che non vuol dire che non guarderemo ai feedback.

Wired: Ho parlato con il gestore di un sito chiamato Suite 101. E’ stato fortemente penalizzato, il traffico sulle sue keyword è sceso del 94%. E lui dice che non è giusto, visto che commissiona e cura i suoi articoli e si basa sull’alta qualità dei contenuti.

M.C.: Oh sì, Suite 101, l’ho conosciuto anni fa.

Wired: Allora perché questo ragazzo ha preso una mazzata molto più forte di quella di Demand Media, che ha una reputazione da classico sito che si posiziona bene per contenuti di bassa qualità?

M.C.: Per il caso di Suite 101, mi fido abbastanza di come ha operato l’algoritmo.

A.S.: Non voglio fare i nomi di alcun sito. Tuttavia, il sistema di classificazione che abbiamo creato fa un ottimo lavoro nell’individuare siti di bassa qualità. Siamo più cauti con i siti dove è presente un mix di contenuti diversa qualità, perché la prudenza è importante.

Wired: Quindi potreste dire a questo ragazzo: “Ci spiace, ma abbiamo capito cosa è un sito di bassa qualità, e il tuo lo è”?

M.C.: In un certo senso, quando la gente va su Google è esattamente quello che chiede – un giudizio editoriale. E questo è espresso tramite un algoritmo. Quando qualcuno va su Google, l’unico modo per essere neutrali è di mostrare i link a caso, oppure in ordine alfabetico. Il punto cruciale è che dobbiamo avere la possibilità di modificare la classificazione delle cose, per migliorare il motore di ricerca.

Wired: Alcuni dicono che dovreste essere trasparenti, per dimostrare che non fate questi algoritmi per agevolare gli inserzionisti.

A.S.: Posso dire categoricamente che non sono i soldi a impattare sulle nostre decisioni.

Wired: Ma la gente vuole la prova.

M.C.: Se qualcuno ha una domanda specifica sul motivo, per esempio, per cui un sito è stato bannato, penso che sia giusto, giustificato e giustificabile spiegargli il perché. Ma il nostro più recente algoritmo include dei fattori che non possono essere rivelati. Se fossimo al 100% trasparenti, i “cattivi” potrebbero capire come riportare i loro siti nelle SERP.

A.S.: Qualsiasi algoritmo, se pubblicato, potrebbe essere utilizzato contro chi l’ha fatto.

M.C.: Se c’è un algoritmo che può essere pubblicato senza controindicazioni, non lo abbiamo ancora trovato.

Wired: Possiamo parlare dell’articolo del New York Times riguardo a JCPenney, che era posizionato molto bene per certe parole chiave? A seguito dell’articolo, Google ha preso dei provvedimenti. Come mai non ve ne siete accorti prima?

M.C.: In buona sostanza, quell’articolo dice che il nostro team non ha fatto per nulla il suo lavoro. Penso che l’analogia migliore è quella del sistema solare – questo sassolino è la Terra e Plutone è a 8 miglia da qui. Un sacco di gente non si rende conto delle dimensioni del web. Ci sono più di un miliardo di ricerche al giorno, e quell’articolo citava un numero relativamente basso di query.

Wired: Ma alcune di quelle query erano piuttosto generiche…

M.C.: Alcune sono generiche, come “dresses” o cose simili, è vero. Questa è una delle poche aree di Google dove siamo disposti ad intervenire manualmente. JCPenney era già stato osservato 2 o 3 volte in passato, e penso che la decisione sia stata del tipo: “Fra 3 o 4 altre osservazioni, prenderemo provvedimenti”.

Wired: Quindi se fino ad ora è stata una guerra con armi di piccolo calibro, state per passare all’artiglieria pesante?

M.C.: Pensa alla storia di Google nel 2010: siti come eJustice o Foundem si sono lamentati con l’Europa perché puniti troppo duramente da Google. Quindi siamo in una situazione molto strana dove da un lato ci sono persone che dicono che Google è troppo duro, dall’altro c’è chi dice: “Google, devi adottare misure più energiche”.

Wired: Questo sembra un periodo in cui Google è sempre più criticato sul lato della ricerca e dalla qualità.

M.C.: Sono piuttosto pratico delle critiche che riceve Google. Storicamente, ci sono meme che ad ondate dicono: “Google fa schifo”, o “Google è di cattiva qualità”, e io tendo ad ascoltarne 2 o 3. Abbiamo osservato il problema degli aggregatori che a volte sopravanzano i contenuti originali, e abbiamo fatto delle modifiche per risolverlo. Abbiamo sentito lamentele su quelle che vengono chiamate content farm, e ci abbiamo lavorato per mesi e mesi per lanciare un update.

A.S.: La gente si aspetta da noi un buon lavoro, e questo è giusto. La critica è una buona cosa, perché significa che vogliono da noi un lavoro migliore, ed è esattamente quello che facciamo.

M.C.: Siamo fortunati a ricevere tante critiche, perché significa che le persone sono abbastanza preoccupate da dirci cosa vogliono.

Che ne dici di dare un’occhiata anche a questi articoli?