Comment Google détecte-t-il les contenus plagiés ?

comment Google detecte til les contenus1 Comment Google détecte-t-il les contenus plagiés ?

La firme Google s’appuie sur des algorithmes pour repérer à travers le web les contenus plagiés. À partir de son système de détection, elle analyse une grande quantité de données et fait des comparaisons, afin d’identifier le contenu original dupliqué. Après l’indexation des crawlers, les pages web transformées en empreintes sont stockées et destinées à des comparaisons. Cette tâche de Google met en œuvre plusieurs étapes.

Un contenu dupliqué, de quoi s’agit-il ?

Il est question de contenu dupliqué, lorsque Google retrouve à travers internet, le même contenu issu d’une autre source. Pour le repérer, il faut au préalable que le texte soit indexé par le moteur de recherche, via l’adresse de sa page web appelée URL. Lorsque ce dernier est repérable sur plusieurs sites, Google va le détecter comme un plagiat.

Il faut préciser que Google analyse tout par rapport au lien du contenu. Donc, les emplacements des ponctuations et des caractères spéciaux dans le lien sont tous pris en compte. Il ne faut pas oublier aussi l’ordre des éléments dans le lien. En effet, le moteur de recherche considère que le plagiat est un bloc de texte rigoureusement identique à d’autres contenus présents sur plusieurs noms de domaines.

D’ailleurs, lorsque vous effectuez une recherche Google vous notifie qu’il a omis plusieurs pages pour cause de ressemblance, sachez que vous avez affaire à des contenus plagiés qui ont des effets négatifs sur le référencement naturel.

La procédure de détection des contenus plagiés de Google

L’algorithme approprié, choisi par la firme Google pour détecter les contenus plagiés est celui de Moses Charikar. Sur une donnée de huit milliards de documents, la différence entre les empreintes stockées sur 64 bits était seulement de 3 bits. En effet, cette différence insignifiante a validé l’efficacité de l’algorithme.

Pour minimiser davantage la différence des bits, c’est-à-dire la distance de Hamming, le calcul des empreintes de SimHash liste toutes les caractéristiques d’une page et lui attribue une pondération. À la suite de ce premier travail vient celui du découpage des mots en forme individuelle et le folding c’est-à-dire l’uniformisation de la casse. Un autre travail supprime les mots vides et rassemble les mots de la même sémantique graphique.

Enfin, l’algorithme détecte la phrase complète après ces travaux et procède à un regroupement de tous les attributs du contenu formant ainsi ce qu’on appelle un vecteur de dimension. Il faut noter que SimHash a une capacité de construction de signature sur un nombre moins élevé de bits à savoir seulement 64 bits. Ce qui est un atout considérable pour Google. C’est pourquoi ce programme a été retenu suite à sa comparaison aux programmes de hashage (SHA-1 ou MD5). En définitive, les empreintes SimHash obtenues à partir de deux contenus similaires seront rigoureusement elles-mêmes similaires. Mais ils ne vont pas forcément bénéficier du même résultat au niveau du référencement naturel.

Le contenu du brevet de détection de plagiat de Google

Il faut noter que la manière de détection du plagiat de Google est régie par un brevet. Celui-ci s’appelle « ’ Duplicate document detection in a web crawler system ». C’est le travail de quatre inventeurs informatiques. Le brevet utilise le concept de DupServer, c’est-à-dire un serveur destiné à une analyse intégrale d’un contenu dans le but de rechercher des textes similaires. Le robot informatique d’indexation Google s’appelle crawler. Quand celui-ci prend en compte une page web, il ordonne à DupServer de voir à travers l’internet si cette page ou ce contenu ne sont pas présents ailleurs sous une autre URL.

Ce travail a pour finalité de savoir quel contenu doit être retenu comme authentique c’est-à-dire celui qui sera retenu définitivement par Google. La détection des pages dupliquées se passe comme des comparaisons à partir des calculs et des empreintes. Le DupServer considère les documents comme des empreintes. Celles-ci sont stockées sur le serveur pour être comparées à d’autres. L’algorithme donne donc simplement la possibilité d’identifier la similitude entre deux empreintes. En terme clair, le brevet a pour objectif d’utiliser un système de détection des doublons. À cet effet, il considère que si une Page notée B étant le doublon d’une page notée A, alors la page notée B sera relayée au dernier rang au cours d’une requête sur Google.