BLOG

Tool e Strategie per una gestione efficace dei Contenuti Duplicati

Luca Mainieri | Aprile 24, 2020 | Tempo di lettura: 10 minuti

Il successo di una strategia SEO passa anche per una serie di controlli tecnici da affrontare con meticolosità, meglio se a cadenze prestabilite. Fra le buone abitudini di un SEO, il controllo e la gestione dei contenuti duplicati sono fra le attività che spostano di più l’ago della bilancia soprattutto su progetti di grandi dimensioni. Scopriamo insieme come analizzarli, trovarli e gestirli in modo davvero efficace.

Che cosa sono i contenuti duplicati

I contenuti duplicati sono porzioni di testo uguali che compaiono più volte nel web. Quando un determinato testo è presente all’interno di un URL univoco abbiamo un contenuto unico, in caso contrario parliamo di contenuto duplicato.

Le tipologie di Contenuti Duplicati: Interni vs Esterni

La definizione ci apre la strada alla loro classificazione. Parliamo così di contenuti duplicati interni quando questi sono presenti all’interno dello stesso sito web e di contenuti duplicati esterni – o cross domain – quando riguardano siti differenti.

Schema esempio duplicati interni vs duplicati interni

Quelli interni, in genere sono in buona fede, dovuti per lo più ad errori tecnici e sviste mentre quelli esterni sono voluti, e sono un plagio in quanto ledono il diritto d’autore. Questi ultimi però non sono tutti gravi nella stessa misura, come nel caso tipico delle schede prodotto non personalizzate fra produttore e casa madre.

Parleremo più avanti degli errori tecnici più frequenti che portano alla duplicazione di contenuti interni e di come sistemarli. Per il momento, ricordiamoci che ne esistono due tipologie in base alla percentuale di contenuto duplicato fra due o più pagine. Abbiamo così:

duplicati esatti, quando il valore è 100%
duplicati quasi esatti, quando si avvicina al 100%

L’impatto dei Contenuti Duplicati sulla SEO

I contenuti duplicati sono una minaccia per la SEO?

Facciamo un esempio: immagina di dover trovare la definizione di una certa parola avendo a disposizione due edizioni dello stesso vocabolario. La vecchia, a causa di un errore di stampa, contiene molte pagine doppie. La nuova è stata corretta, non ci sono più doppioni. Con quale dei due farai prima?

Ecco perché trascurare la gestione dei duplicati interni significa complicare la scansione del sito da parte di Google. In presenza di doppioni accade infatti che:

il crawler non sa quale versione includere/escludere dall’indice: sappiamo che è in grado di sceglierne una preferenziale, ma non è affatto detto che sia quella ottimale;
si genera uno spreco di crawl budget che nei siti più grandi può anche oscurare risorse originali e strategiche dall’indice;
il link juice viene disperso invece di essere consolidato in unica pagina;
il crawler non sa quale url posizionare arrivando anche a mettere i duplicati in competizione fra loro.

Sistemando i duplicati abbiamo la premura di spianare la strada al crawler attraverso un percorso limpido e privo di ostacoli.

Vuoi massimizzare il tuo posizionamento organico del tuo e-commerce?

Beh allora ti devi assicurare che le pagine indicizzabili del tuo sito devono essere uniche, utili e originali. Questo è il mantra!

Contenuti Duplicati e Penalizzazioni: un mito da sfatare

Facciamo una doverosa premessa. Questioni come la gestione del crawl budget e quella dei contenuti duplicati assumono maggiore importanza al crescere delle dimensioni e della complessità di un sito web.

Le parole di John Muller sui contenuti duplicati

Google ne tiene conto, come ha affermato il buon John Mueller nel 2017 sul suo account Twitter. Matt Cutts nel lontano 2013 stimava che un buon 25-30% del web fosse popolato popolato appunto da contenuti duplicati. Ci aspettiamo così che i contenuti duplicati interni non comportino una penalizzazione.

Vediamoli piuttosto come una zavorra che ostacola il ranking di pagine strategiche. Tradotto in termini “matematici”, è una funzione in cui il posizionamento organico peggiora all’aumentare del numero dei duplicati.

Facciamo attenzione però.

Se i duplicati – intesi come pagine dal contenuto quasi identico – nascono con l’intento malevolo di monopolizzare le serp, come nel caso delle famigerate doorway pages, allora espongono al rischio di beccarsi un cartellino rosso ovvero una penalità, algoritmica o manuale che sia.

E i duplicati esterni? Quelli si che possono portare ad una penalizzazione in quanto sono, in tutto e per tutto, contenuti copiati. Dall’introduzione di Google Panda nel 2011, l’algoritmo è diventato sempre più preciso nel rilevamento di contenuti di bassa qualità, come quelli estratti e generati in automatico, i cosiddetti “contenuti scrappati”.

Sfatiamo un altro mito. Spinnare un testo aiuta ad evitare i contenuti duplicati? Fino a qualche anno fa questa tecnica black hat funzionava alla grande.

Ma i tempi sono cambiati, Google adesso sa riconoscere anche i testi spinnati.

Tool per trovare Contenuti Duplicati

Ecco una rassegna dei principali strumenti, gratuiti e a pagamento, per rilevare contenuti duplicati interni ed esterni. Come vedremo, alcuni prevedono controlli manuali, attraverso gli operatori di Google e la lettura di alcuni indicatori su Screaming Frog, per poi passare ai tool più utilizzati.

Operatori di Ricerca

Usando gli operatori di ricerca possiamo fare le prime diagnosi in modo rapido. Usiamo l’operatore site per restringere il campo su un certo dominio e l’operatore intext per cercare una determinata porzione di testo.

Vediamo un caso pratico di contenuti duplicati esterni. Uno dei casi di duplicati più frequenti è la mancata personalizzazione della scheda tecnica tra casa madre e rivenditori. Prendiamo uno smartphone a caso come il Samsung A50, recupereremo una porzione di testo della scheda sul sito ufficiale del brand e la useremo dentro un operatore intext.

Come trovare contenuti duplicati nelle schede prodotto con operatore intext

In meno di un secondo, abbiamo ottenuto la lista di tutti i siti che contengono la stessa e identica porzione di testo. Come sospettavamo, ci sono tantissimi rivenditori che non hanno personalizzato la scheda ufficiale e che faranno fatica a posizionarsi.

esempio contenuti duplicati esterni operatori google

Possiamo svolgere la medesima operazione per rilevare duplicati interni. Basta aggiungere l’operatore site alla stringa di prima.

L’operatore di ricerca in questo caso sarà:

site:dominio.com AND intext:’testo da verificare’

Siteliner

Utilizzare gli operatori di ricerca richiede tempo e pazienza; per fortuna esistono dei tool come Siteliner che fanno tutto il lavoro al posto nostro. Nella versione free è possibile scansionare fino a 250 pagine. In quella a pagamento il limite sale a 25.000.

Con Siteliner abbiamo subito in chiaro le quantità di contenuti interni duplicati, comuni e unici espressi in percentuale. Cliccando su ciascuna tab avremo l’elenco completo.

Siteliner offre inoltre altre informazioni utili come link rotti, bilanciamento fra link interni e esterni, benchmark per dimensioni e tempi di caricamento delle pagine e anche alcuni errori tecnici.

Copyscape

Oltre a Siteliner, Indigo Steam Technologies ha realizzato anche Copyscape. Rispetto allo strumento precedente, il focus si sposta sui contenuti duplicati esterni. Lanciato nel 2004, Copyscape è lo strumento più conosciuto per sgominare i tentativi di plagio e di furto dei contenuti.

Non è obbligatorio registrarsi per usare la versione gratuita. Con questa possiamo effettuare fino a un massimo di 20 ricerche al giorno.

Il problema è che il software non è in grado di riconoscere gli utenti, perciò potremmo non ricevere alcun risultato se qualcuno ha già effettuato la medesima ricerca. Per rimuovere il limite bisogna passare alla versione a pagamento in cui paghiamo un costo per parola inserita.

Semrush Site Audit

Un formidabile alleato per attività e analisi tecniche è il Site Audit di Semrush. Bisogna inserire un dominio all’interno di un progetto, lanciare una scansione su Site Audit che ci restituirà una serie di errori e avvertimenti, segnalando così anche l’eventuale presenza di contenuti duplicati. Manca una versione freemium, purtroppo.

Cannibalizzazione dei Contenuti Seozoom

Una funzione analoga a quella di Semrush è offerta dall’italiano Seozoom. Una volta che abbiamo inserito un sito come progetto, è sufficiente spostarsi nella tab panoramica contenuti ed osservare la sezione cannibalizzazione.

schermata seozoom cannibalizzazione delle pagine

Merita di essere approfondita la metrica Dup % che ci indica la quantità di testo in comune fra più contenuti. E non solo, il tool segnala quali sono le keyword interessate nonché gli url in competizione fra loro. Anche qui, la funzione è disponibile solo a pagamento.

Ahref Content Quality

Quando si tratta di valutare un profilo backlink, Ahref fa la differenza. Non tutti sanno che questo strumento a pagamento è in grado di offrire altre funzionalità preziose. Fra queste, c’è anche il check dei duplicati. La sezione da controllare è content quality all’interno del report sulle pagine interne.

Screaming Frog

Con questo formidabile SEO Spider, gratuito fino a 500 pagine scansionate, puoi rilevare in modo rapido e puntuale la presenza di duplicati. Una volta terminato il crawling del sito, è sufficiente spostarsi fra le tab e verificare:

Harsh: tab internal, è un valore alfanumerico calcolato sul contenuto di ciascun url. Due pagine hanno contenuti uguali al 100% avranno anche lo stesso harsh;
URL duplicati: es sito.com/prodotto vs sito.com/Prodotto/;
Title duplicati: molto spesso sono un sintomo di contenuti duplicati;
H1 e Meta Description Duplicati: sebbene questi siano spesso frutto di una mancata personalizzazione, è sempre meglio darci un’occhiata.

Per quanto efficaci, questi indicatori non restituiscono una visione completa sulla presenza dei duplicati.

Facciamo ora un passo avanti, mostrandovi una tecnica avanzata che usiamo nelle nostre consulenze SEO soprattutto nelle audit per e-commerce di grandi dimensioni.

A caccia di duplicati con la Custom Extraction di Screaming Frog

Screaming Frog è noto e amato per la sua versatilità. Tra le sue funzioni più utili ricordiamo la Custom Extraction, con cui andiamo ad estrarre determinate informazioni sulle pagine di un sito utilizzando un set di regole, come Regex e i selettori CSS o Xpath.

All’interno di un e-commerce ci aspettiamo di trovare una duplicazione di contenuto ad esempio nella descrizione all’interno della scheda prodotto. Ad esempio pensiamo alla tipica situazione di filtri e ordinamenti non canonicalizzati.

A titolo puramente esemplificativo prendiamo una scheda di uno storico brand di pelletteria.

Una volta individuata la sezione contenente la descrizione possiamo sbirciare nel codice attraverso ispeziona di Chrome.

In questo modo scopriamo che la descrizione è inserita all’interno di un tag p identificato dalla classe nominata description. Ci aspettiamo che le pagine siano costruite con la stessa logica e dunque che tutte le descrizioni dei prodotti siano identificate con la medesima classe.

Possiamo costruire un selettore CSS per delimitare la porzione di pagina che andremo ad estrarre. Nel nostro caso specifico il selettore sarà un banale e semplice .description.

A digiuno di selettori CSS?

Ci sono due strade: fare un ripasso su questa guida oppure lasciarsi aiutare da Google Chrome. Una volta all’interno di “ispeziona”, clicca sulla porzione di codice che ti interessa e poi tasto destro. Come per magia, Chrome ti permette di estrapolare selettori CSS oppure XPath già pronti per l’uso.

esempio scheda prodotto codice-copia selettori

Ottimo, ora che abbiamo il nostro selettore impostiamo la Custom Extraction (percorso

configuration > custom > extraction) e poi lanciamo il crawl del sito. Per un’analisi di questo tipo conviene configurare il crawler in modo che rispetti noindex e canonical.

Ecco il settaggio per estrapolare tutte le descrizioni delle schede prodotto per l’ecommerce utilizzato nel nostro esempio.

Specifichiamo l’opzione Extract Text per leggere meglio i dati. Una volta terminato il crawl, andiamo all’interno della tab custom extraction. Cliccando sull’etichetta del selettore (descrizione prodotto nel nostro caso) visualizziamo le informazioni in ordine alfabetico. In questo modo troviamo a colpo d’occhio blocchi di contenuti simili e/o identici.

risultato custom extraction screaming frog

Una volta ottenuto il set di dati bisognerà esportare i dati e passarli su fogli di calcolo come Excel e Google Sheet. Consigliamo di utilizzare Excel perché permette di evidenziare i duplicati in modo rapido utilizzando le regole di formattazione condizionale. Se vuoi saperne di più ti invitiamo a lasciarci un commento.

Questa funzione si presta anche per altri utilizzi strategici. Ad esempio ti può restituire input e spunti utili all’analisi dei competitor. Ad esempio, come scrive la descrizione della scheda prodotto? Segue degli schemi rigidi o sono compilate in modo naturale? Ancora, possiamo impostare una custom extraction per ricavare i prezzi dei prodotti e analizzare il pricing.

Come sistemare i contenuti duplicati una volta per tutte

Una volta che li abbiamo individuati, dobbiamo indagare sulle cause che hanno portato alla formazione di contenuti duplicati. Scopriamo alcuni dei casi più frequenti e le relative strategie correttive che prevedono l’uso di canonical, redirect e noindex.

Url: WWW vs No WWW e HTTP vs HTTPS

Passare ad un certificato HTTPS è sempre cosa buona e giusta. La migrazione, però, può nascondere delle insidie. Ad esempio, una configurazione errata del webserver può far si che lo stesso dominio risponda ancora con entrambi i protocolli generando così duplicati e cannibalizzazione.

Una situazione molto simile a quella in cui non viene scelta una versione preferenziale fra il dominio con il www e quello senza www. In entrambi i casi risolviamo con un redirect 301 sulla versione migliore. Una volta redirezionato, occorre controllare l’esito con uno redirect checker.

Faceted Navigation: Filtri e Ordinamenti

I filtri sono la croce e delizia di ogni e-commerce. Quando sono presenti usiamo il termine tecnico Faceted Navigation. I vantaggi che si ottengono sulla UX possono essere vanificati da una cattiva gestione dei canonical. Se questi non vengono implementati, ci ritroveremo le SERP piene di URL parametrizzati che presentano contenuti identici.

Partiamo dagli ordinamenti di categoria: servono ad ordinare i prodotti sulla base di un attributo (prezzo, recency e così via). I prodotti sono sempre gli stessi e il contenuto è duplicato. La soluzione? Inserire un canonical sulla pagina di riferimento. Per i filtri invece il discorso diventa più complesso, meriterebbe un articolo a parte o meglio ancora una consulenza SEO dedicata.

URL Case-Sensitive

Agli occhi di Google gli URL sono case-sensitive. Per questo motivo consideriamo:

sito.com/prodotto/martello-grande

sito.com/prodotto/Martello-Grande

sito.com/prodotto/MARTELLO-GRANDE

come dei veri e propri duplicati. In questo caso consigliamo un redirect 301 sulla versione preferenziale e di usare un linking interno consistente.

URL con e senza slash

In modo analogo al caso precedente, in presenza di uno slash Google tratta:

sito.com/prodotto/martello-grande

sito.com/prodotto/martello-grande/

come url differenti. Ancora una volta risolviamo scegliendo una versione preferita (con o senza / a seconda dei gusti) e impostiamo un redirect 301 sull’altra.

Pagine Tag e Archivi

Per i tag vale lo stesso discorso della faceted navigation, quando non sono gestiti in modo corretto causano più problemi che altro. Sebbene spesso non siano duplicati in senso stretto, troppe pagine di questo tipo possono causare un’indigestione al crawler.

Meglio pochi ma buoni. Se portano o potrebbero portare traffico, le lasciamo indicizzate. Quando non sono interessanti per il traffico ma vengono usati dagli utenti, inseriamo un noindex. Nel caso in cui non fossero sono utili a nessuno, beh allora non resta che rimuovere l’URL da Google.

Conclusioni: Evitare i duplicati migliora la SEO

Gestire un progetto SEO è un po’ come completare un puzzle. Le pagine sono i pezzi, più ce ne sono e più il puzzle diventa difficile. Ecco, se fra questi abbiamo anche dei doppioni beh allora il gioco diventa ancora più complicato.

Facciamo i furbi e giochiamo d’anticipo.

Ad esempio se stai pensando al restyling del tuo sito potrebbe essere il miglior momento per sistemare questo aspetto. Cambiando le logiche di URL e filtri, potremmo evitare i futuri duplicati passando per il il robots.txt.

Vuoi saperne di più? Parliamone nei commenti.

Luca Mainieri

Ingegnere per formazione, innovation manager, creativo per passione! Mi interesso di web dal 1998 e il digital è diventata la mia professione. Dopo essermi dedicato alla programmazione (web, server e mobile) mi sono occupato di consulenza, affiancando importanti aziende nell'area sviluppo, project management e web marketing. Dal 2006 sono CEO di Neting.it.

Lascia un commento

CHIEDI AGLI ESPERTI

Contatta un Consulente

Giovani, dinamici e preparati. I consulenti di Neting sono a disposizione per una consulenza gratuita. Contatta ora il Team e inizia a svliuppare la tua strategia online.

contatta il team

Richiedi Preventivo

Area Clienti