Création de contenu : le content spinning

Sur le web, l’une des préoccupations majeure pour la création de sites internet, c’est la rédaction de contenu. Ce contenu doit répondre à des critères de qualité afin d’avoir un impact et également d’aider au référencement. Le contenu doit :

  • Etre unique, sinon on parlera de « duplicate content » : rien ne sert de copier-coller des articles par ci par là pour alimenter votre site, les moteurs de recherche identifieront ces contenus et ne les indexeront pas…
  • Etre suffisamment important : au minimum 300 mots pour un article, mais plus l’article est long, plus il aura des chances d’être bien indexé.
  • Apporter une plus-value au lecteur : plus le lecteur reste sur la page de l’article, plus l’article paraîtra qualitatif. Cette donnée est connue par les moteurs de recherche.

La course au contenu

Le référencement étant extrêmement lié au contenu, il est tentant de tromper les moteurs de recherche en leur offrant du contenu généré automatiquement, avec des mots-clés disséminés dans le texte. Le « content-spinning » est une technique qui permet cela. Le principe est simple, à partir d’un « masterspin », l’ordinateur génère des centaines, voire des milliers de textes différents.

Concrètement, le masterspin ressemblera à :

{Voici|Ceci est|Je vous présente} {une phrase générée|une suite de mots créés} {par un ordinateur|grâce à un logiciel}

L’ordinateur calculera plusieurs « scénarios » possibles à partir de ce masterspin et les assemblera, ce qui donnera par exemple :

Je vous présente une suite de mots créés par un ordinateur
Ceci est une suite de mots créés grâce à un logiciel
Voici une phrase générée par un ordinateur

Les possibilités sont énormes, mais dépendent de la qualité du masterspin, qui constitue le socle de base de l’opération. Les textes obtenus sont ici « de qualité » : respectent la grammaire, la conjugaison et l’orthographe de la langue, sont compréhensibles par le lecteur, et gardent le même sens général. Mais l’exemple est très simple, et il sera difficile de produire un masterspin pour un texte plus long.

Masterspin de qualité : contenu de qualité… et en quantité !

La création de contenu de qualité en grande quantité passe donc par la création d’un masterspin de qualité. Si on veut gagner du temps, il faudra essayer d’automatiser la création de ce masterspin. Pour cela, on pourra utiliser des « dictionnaires », ou plutôt des bases de données de mots. Pour cet article, je resterai simple, et j’utiliserai une base de données de synonymes. Cela permettra de créer un masterspin en se basant sur un dictionnaire facile à se procurer sur internet (il existe plusieurs sources, à vous de chercher !).

Le dictionnaire sera sous la forme :petit chat

chat

félin|minet|matou

petit

minuscule|chétif|maigre

Le principe est simple : à partir d’un texte, on cherche chaque mot, et on le remplace par la liste de ses synonymes. Exemple : « Le chat est petit » donnera :

{Le} {félin|minet|matou} {est} {minuscule|chétif|maigre}

La création du masterspin est donc rapide est simple ! Mais, malheureusement, cela dépend de votre dictionnaire. Plus ce dernier sera de qualité, plus le masterspin le sera également. Or un dictionnaire des synonymes de tient pas compte du contexte ! Ainsi, on peut vouloir utiliser le mot « petit » pour désigner un enfant, ou comme adjectif, et cela faussera complètement votre masterspin…

Quoiqu’il en soit, voici un premier code, qui vous permettra d’obtenir l’exemple ci-dessus à partir d’un dictionnaire que vous aurez constitué. Le masterspin obtenu sera utilisé pour du texte de basse qualité, je ferai d’autres articles sur ce sujet, l’objectif étant d’obtenir un texte de façon automatique sur un thème, et de façon transparente pour le lecteur !

L’utilisation du script : sous linux ou windows avec php installé (ou via le web en l’incluant dans une page), vous créez un « fichier.txt » qui contient l’article de départ. Vous n’oubliez pas de fournir le « dico.txt », et un simple « php monscript.php » vous produira le masterspin dans « masterspin.txt ».

 

<?php
$texte = explode(" ",file_get_contents("fichier.txt"));
$listesyn = file("dico.txt");
$nbsyn = count($listesyn);
$filesave = fopen("masterspin.txt","a");

foreach($texte as $mot)
{
$mot = trim($mot);
$synexiste = 0;

for($i = 0; $i < $nbsyn; $i++)
{
$synonyme = trim($listesyn[$i]);

if(!strcasecmp($synonyme,$mot))
{
$mot = "{".trim($listesyn[$i+1])."}";
$synexiste = 1;
break;
}
}
if($synexiste == 0) $mot =     "{".$mot."}";
fputs($filesave,"$mot ");
}

fclose($filesave);
?>

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *