Google Panda, le nouvel algorithme de Google, intègre de nouveaux paramètres pour redéfinir les logiques de la « longue-traîne » dans l’objectif officiel d’améliorer les résultats des requêtes sur le moteur de recherche

Google Panda, le nouvel algorithme de Google provoque tantôt de l’enthousiasme, tantôt de l’inquiétude dans l’écosystème du web français. Il a en tout cas quelque peu rebattu les cartes pour certains grands noms de l’Internet.Certains sites connaissent une baisse importante de leur trafic suite à l'intégration de Google PandaD’abord quelques définitions :L’algorithme Google hiérarchise automatiquement les données des milliards de pages web indexées sur son moteur de recherche en définissant une pondération de centaines de paramètres techniques et rédactionnels sensés refléter la pertinence d’un contenu figurant sur une Page Internet, en relation avec une requête d’internaute.

Google Panda est une redéfinition non seulement des critères d’indexation, mais également de la pondération  de chacun de ces critères.

La doctrine officielle de Google, qui détient près de 90% du marché des requêtes françaises et 65% des requêtes américaines (les Chinois préfèrent Baidu), est « d’améliorer la qualité des résultats de recherche ». D’aucuns dénoncent déjà les dégradations de positionnement de certains sites de qualité, ou les absurdités sémantiques dans la hiérarchisation « mécanique et robotique » de l’information par Google sur certaines requêtes. D’autres voient d’un bon oeil cette avancée, car l’algorithme présentait en effet jusque là des incomplétudes dans les paramètres qu’il intégrait pour évaluer de la pertinence d’un contenu.

Quelles modifications de l’algorithme semblent découler de Panda ?

On connaît certains (mais non tous) les paramètres de l’algorithme : aspects techniques du site (il y a une quinzaine de points techniques concernant la qualité d’un code pour le référencement), concomitance des mots de cette page avec une requête, ancienneté des pages, nombre de visites, qualité apparente du contenu, densité de mots-clefs, concurrence entre les pages, nombre de liens menant vers les pages, etc… Ces paramètres commencent à être connus, ce qui inquiète Google, qui a voulu garder le plus longtemps possible le secret sur sa formule. Ces paramètres sont pondérés et il semble que Google ait de très nombreuses fois fait évoluer la pondération de son algorithme, ajouté, enlevé certains paramètres, depuis ses origines. Si bien que nul ne peut dire connaître précisément la formule, c’est à dire la pondération et l’organisation de l’outil algorithmique de Google.

Panda est loin d’être la première modification d’algorithme. Chaque année, des centaines « d’ajustements » sont réalisés par Google, et testés sur des panels d’internautes.

L’arrivée de Panda intègre de nouveaux paramètres, et repondère ces paramètres :

– L’algorithme de Google va bien plus mettre l’accent sur la qualité rédactionnelle, le caractère unique d’un texte, l’apport et l’intérêt qu’il représente sémantiquement en réponse à une requête d’internaute.

Les contenus des pages web seront hiérarchisés en fonction de la qualité rédactionnelle et leur faculté à répondre à une requête d'un internaute

– L’algorithme devrait, dit-on, intégrer le taux de rebond (pourcentage de visites ne se traduisant que par une page visitée ; plus il est faible, plus il semble refléter la qualité d’un site pour Google, mais d’autres au contraire estiment que le fait de ne devoir visiter qu’une seule page d’un site montre que cette visite a répondu à la requête de l’internaute, et donc que le contenu est de qualité). Cette intégration du taux de rebond devrait donc donner un avantage aux sites qui ont des visisteurs fidélisés et réguliers. L’algorithme devrait, de la même manière, dit-on, donner le primat aux site dont le pourcentage de nouveaux visiteurs est moindre.

– Il prendra également en compte le temps moyen passé sur le site. Cette donnée reflète mieux la qualité d’un site, d’une page. Seul problème de cette donnée, Google ne peut pas déterminer le temps moyen passé sur une page qui n’a pas été actualisée ou qui n’a pas provoqué d’action.

– Google Panda intervient quelques semaines après la montée en puissance en plusieurs étapes de l’aspect « social » dans la structure de hiérarchisation des positionnements. Premier temps, Google avait augmenté la pondération du paramètre « page twitée » et autres like ou partagée, etc). Second temps, intégration du bouton +1 de Google sur le moteur de recherche ET sur les sites web intégrant ce bouton sur ses pages. Ce bouton +1 est directement corrélé au moteur de recherche et donc impactera le positionnement. Troisième temps, intégration de Google + au moteur de recherche.

Tout ceci se déroule dans un contexte où Google a transformé son moteur de recherche en page d’accueil vers tous les autres services de Google (et vers tout le reste du web), par l’intégration toute simple d’une barre de navigation, comme il en existe sur tous les sites internet (démontrant que de simples modifications d’interface peuvent avoir de très grandes implications).

Cette liste de modifications n’est probablement pas exhaustive et il n’est pas possible, aujourd’hui de dire quelle est la pondération exacte de ces divers éléments nouveaux dans la recette. Reste que nous savons que ces nouveaux paramètres « vont compter ».

Quelle conséquences sur les règles du référencement naturel ? 

Dès lors, tout contenu dupliqué sera sanctionné. Les sites se contentant de copier-coller des articles, de rédiger des articles de piètres qualité juste pour « générer de la page référencée » (et donc attirant un certain trafic organique) sur quelques mots-clefs, seront sanctionnés.

Les comparateurs de prix, qui sont en réalité des sites qui importent depuis du contenu depuis d’autres site par l’intermédiaire de flux RSS,  ou de régie d’affiliation, qui donnent accès à tout site affilié à tout le catalogue produit d’autres sites commerçants, seront selon cette même logique, sanctionnés. Google va dorénavant donner la prééminence au site parent de ces flux, ce qui mine les sites qui ne sont que des structures d’importation de flux d’autres sites. C’est ainsi que le site Shopping.com, grand comparateur de prix, a vu son trafic fortement baisser.

Les sites misant uniquement sur les avis de consommateurs (comme Ciao), les agrégateurs de contenus (sites qui, de la même façon, ne sont que des importateurs de flux d’autres sites, comme wikio), sont sanctionnés.

Selon une logique parallèle, mais non identique, les fermes à contenus seront très fortement sanctionnées. Les fermes à contenus sont des sites qui analysent les requêtes les plus tapées, et génèrent des milliers de pages par jour de contenu de qualité médiocre mais ayant leur structure technique fortement optimisée pour le référencement sur ces requêtes. Ces sites achètent des articles à des bases de rédacteurs par milliers chaque jour, ce qui leur donne un très bon positionnement sur de nombreuses requêtes. Google estime que ces stratégies sont une dérive de la compréhension des mécanismes de l’algorithme par des webmasters externes, et dès lors, veut les affaiblir, s’inquiétant à juste titre des conséquences d’une indexation de myriades de pages au contenu de piètre qualité. Aux Etats-Unis, Panda a fait beaucoup de mal à quelques acteurs du secteur, même si certains ont été beaucoup plus affectés que d’autres, sans qu’une explication logique ait pu intervenir.

La modification de l’algorithme semble également s’attaquer à certains leviers traditionnels proposés par l’industrie du référencement. Ainsi, les annuaires ont été sanctionnés par l’algorithme de Google. En témoigne la chute de 42% qu’a connu la partie annuaire de WebRankInfo, qui fait autorité en la matière, par la qualité de sa longue-traîne sur les questions du référencement dans ses parties forum et rédactionnelle.

Pour plein de conseils sur comment gérer l’arrivée de Google Panda pour les webmaster, on ne saurait que trop conseiller ce tutoriel vidéo :

Comment Google est en train de s’imposer comme l’une des machines technologiques les plus puissantes. 

Bref historique : Créée le 4 septembre 1998 par Larry Page et Sergueï Brin, Google s’impose en quelques mois comme une référence du secteur. La force de son moteur de recherche est non seulement sa simplicité, mais également sa capacité à référencer des milliards de pags web. Et, semble-t-il, à les référencer d’une façon qui plut aux émois de la bulle Internet d’alors. 100 000$ en , puis 1 million d’apports de capitaux en 98, puis 27 000 000 de $ en 1999, entre un garage à Menlo et l’Université de Palo Alto. L’algorithme « PageRank » est breveté en 2000. En 2001, Adword est créée et évolue vers une tarification « au clic » vers l’annonceur, en 2002. C’est la même année qu’est lancé Google News, agrégateurs d’articles dont 5 lignes sont reproduites des articles sélectionnés en fonction, eux-mêmes, de critères propres différents des critères du moteur de recherche. La troisième innovation de Google le positionne en réalité comme le principal agrégateur de contenus de presse au monde. En 2004, la société est cotée en bourse. Début 2008, la capitalisation boursière s’élevait à 210 milliards de dollars à la Bourse de Wall Street. La société compte environ 25 000 employés. Elle possède 2% des serveurs du monde entier (plus d’1 millions, et cela va augmenter, avec le cloud).

Google a conquis le marché grâce à la « simplexité » de son moteur, qui a par sa simplicité graphique été plébiscité, au regard du nombre de pages qu’il indexait.

Qu’a fait Google originellement ? agréger des contenus en base de données (par milliards de pages) et les rendre en réponses à des requêtes. Assez ironiquement, l’algorithme de Google Panda sanctionne aujourd’hui les agrégateurs de contenus : Ces derniers n’ont pas la simplexité primitive de la « page blanche ». Le monochrome de whiteman en toile de fond de l’Internet moderne. Qui, wikio, agrège les contenus des autres dans ses pages. Google se contente de 2 à 4 lignes. Qui Shopping.com compare les prix en important des catalogues produits d’autres sites. La différence est faible entre le Google primitif et ces entreprises, aujourd’hui sanctionnées. Mais Google a depuis très largement remodelé son « site ». Google est ironiquement celui qui apparaît comme n’ayant pas de site. Il est, tout du moins, se veut être tous les sites. C’est peut-être comme ça que l’entreprise s’est imposée.

Il semble que la force acquise par Google dans sa capacité à générer un chiffre d’affaire important, stable et durable réside dans sa capacité à avoir su s’imposer comme la place de marché n°1 de publicité sur Internet en tant que fournisseur de visibilité dans la simplicité par l’achat de bannières Adword, et en tant que prestataire d’espace publicitaire  pour les webmasters qui peuvent intégrer dans la facilitéles les bannières Adsense en étant rémunéré au clic et plus seulement à la conversion d’achat. Car derrière ce moteur de recherche gratuit qui est en lui-même un outil extrêmement innovant, c’est bien dans sa capacité à mettre en relation au travers des interfaces les plus simples les offreurs et les demandeurs de publicité web, c’est en tant que place de marché publicitaire qu’a résidé la seconde innovation de Google. Une innovation technique fondée sur la hiérarchisation sémantique et une innovation marketing avec la pub au clic. Cela montre que la réussite d’une organisation ne dépend jamais que d’une seul paramètre , d’une « simple idée », mais bien la combinaison de plusieurs types d’innovation, démontrant sa capacité à faire face à des données structurelles et non pas simplement quantitatives et/ou comptables. Et par la masse critique de « taille de marché » qu’elle a représenté, Google a été la seule régie du web à offrir une publicité non liée au résultat de conversion à l’achat, mais seulement à la visite par le clic. C’est bien plus par sa fonction de vaste place de marché publicitaire qu’elle génère du chiffre d’affaire, même si le moteur de recherche en est sa base incontournable d’expression. Les partenaires Adsense rapportent quant à eux autour d’un milliard de dollars à Google mais n’ont aucune unité de parole (pas de « syndicat des éditeurs d’Adsense », seul existe un Forum d’aide Adsense »), sur les 8,3 Milliards de CA annuels réalisés. En 2004, Google lance Gmail, Picasa (pour les photos) et Orkut (essai de réseau social)

Contrôlant la recherche et donc la sémantique du web sous ses diverses formes, et s’octroyant un chiffre d’affaire énorme grâce à sa place de marché Adword-Adsense, Google peut se permettre d’investir dans d’autres technologies du futur.

Google  a innové en 2005 en rendant accessible la cartographie de précision en créant Google map, Google Earth, Google street View.Google a lancé des prototypes de voitures sans pilotes.

En 2006 démarrèrent les problème liés à la propriété intellectuelle avec les diverses polémiques nationales qui ont accompagné le projet Google Books. Google rachète également Youtube pour 1,65 Md$, le n°1 de la vidéo sur Internet, navigant aujourd’hui entre la 3è et la 5è place du classement mondial des sites web (et où 35H de vidéos y sont mises en ligne chaque minute !). Ce faisant, Google veut faire de son web un équivalent particulier des chaîne de médias télé.

D’autres sous-structures de Google sont beaucoup plus orientées vers les webmasters  : Google Analytics, Google labs, Google Code, Google Webmaster Tools, Google Ad Planner (successeur de Double click, rachetée par Google en 2004, qui offre un classement des meilleurs sites par thématiques). Tous ces services apportent aux webmasters affiliés à Google de très nombreux services et informations gratuites (particulièrement Analytics, qui offre aux webmasters un outil essentiel et gratuit pour comprendre et analyser les logiques de navigations sur le web).

Ces innovations accompagnent une série de très nombreuses acquisitions. Entre 1998 et 2011, Google a acquis ou est en passe d’acquérir plus de 100 sociétés. Le plus souvent il s’agit de dispositifs ou d’interfaces innovants, qui peuvent avoir une utilité fonctionnelle sur le web. Les fonctionnalités web diffèrent des fonctionnalités antérieures, celle des logiciels en local. Elles sont à la fois plus complexes et plus simples : plus complexes car elles intègrent des aspects rédactionnels d’abord, sociaux ensuite, et les deux combinés. Le textuels s’intègre dans le logiciel. Il devient logiciel, et le logiciel coordonne la hiérarchisation des mots. Le décollage du web fonctionnel se développe à partir des année 2005-2010 et explose avec le cloud. Ces différents éléments correspondent à cette « logicielisation »du web voire cette « OSisation » du net, selon des formes particulières, une multiplicité infinies d’interfaces au travers desquelles il est possible de tout gérer, du compte en banque aux outils de vente.

En 2009, Google annonce Chrome OS. ce faisant, Google veut conquérir la petite barre au-dessus de sa bare de recherche : la barre de l’URL. La barre semble-t-il encore plus universelle que Google, jusqu’à ce que Google s’impose également dans cette petite barre de recherche (en y intégrant son moteur de recherche). Les deux lettres OS sont très importantes car elle illustre cette idée que le web peut remplacer en tant que système d’exploitation lui-même, les anciens système d’exploitation.

Google est également en pointe, en bataille courtoise mais non moins dure avec Apple pour la prédominance sur le marché des martphones. Il semble que si sur le hardware, Apple domine (particulièrement sur le marché européen), Google parvient à s’imposer à l’arrachée sur le système d’exploitation des mobiles.

Dans le même temps, Google se lance dans le shopping. Et c’est peut-être là que, juridiquement, et combiné aux effets immédiats et dramatiques de ses décisions sur certains concurrents « spécifiques » (autres moteurs de recherche, concurrent sur le mot shopping ou sur d’autres mots ,  le bât blesse.

Google + est le parachèvement de cette évolution avec l’intégration de tous ces éléments dans un structure complète de services web.

Et pourquoi pas, demain « Google fashion » ! Ceux de Mountain View reprendront à n’en pas douter un jour cette idée ! Google se lance déjà dans le comparateur de voyages et d’hôtellerie, preuve que Google sait trouver dans ce qu’il sanctionne par ailleurs les fruits de sa stratégie.

Synthèse critique de la stratégie de Google

La puissance de Google sur le marché européen de la requête en a fait la firme centrale du marché de l’Internet. C’est l’intermédiaire quasi obligé pour toute organisation ou personne qui souhait utiliser Internet comme outil de recherche ET de communication.

Les critiques adressées à l’algorithme sont très nombreuses, que ce soit sur un plan philosophique (la machine hiérarchisant la sémantique des Hommes), économique, technique, juridique (la question de l’abus de position dominante d’un point de vue du droit public ou de la concurrence déloyale, du point de vue du Droit privé ; à ce titre, la lecture de jurisprudences (Affaire eJustice) et le suivi des procédures en cours, Ciao, et d’autres qui ne manqueront pas de venir dans les jours qui viennent de la part de certaines entreprises sanctionnées).

Même du point de vue technique, l’algorithme de Google ne manquait pas de critiques. Il est clair que l’on ne peut que louer l’intégration affichée de paramètres tels que l’unicité du contenu, l’intégration du taux de rebond ou du temps moyen passé sur un site. Reste que d’aucuns ne manquent pas de relever les hiérarchisations hasardeuses des pages sur certaines requêtes.

Il semble que Google veuille cependant réduire les éléments traditionnels du référencement naturel, particulièrement ceux qui ont été usés et abusés par diverses techniques jusqu’ici très largement répandue dans l’industrie du référencement.

D’autres relèvent que Google met en avant ses propres offres, notamment de « shopping » (dans la fameuse nouvelle barre de navigation sur sa page de moteur de recherche), tout en sanctionnant très sévèrement « shopping.com ». Il est vrai que l’on pourrait voir dans cette situation une configuration assez similaire à celle d’Internet Explorer dans Windows à la fin de la decennie 90,

Sa part de marché sur les moteurs de recherche a fait de cette page blanche une « page d’accueil universelle » , voire même un Web Operating System. Un ordinateur de demain pourrait très bien se passer de local, s’allumer sur Google OS et offrir tous les services « webisés », « cloudisés » dit-on actuellement dans le jargon technologique. Les anciens logiciels locaux n’auraient plus de raisons d’être, et deviendront obscolètes. Les implications d’une telle évolution linéaire qui existe en puissance sont économiquement immense.

Google intéresse à peu près tous les secteurs. Tout commerçant a besoin d’une bonne indexation sur ses mots-clefs phares. Et la position sur tel ou tel mot clefs a des implication économique énorme. Dès que la première page de Google est atteinte sur une requête commerciale, le Chiffre d’affaire évolue très vite.

Une première position sur décoration pour une entreprise de décoration s’lève à un chiffre d’affaire très élevé par jour.

Autour des règles de référencement existant depuis la fin des années 90/début 2000 pour organiser la masse d’information qui s’était accumulées sur le web primitif, s’est constituée l’industrie du référencement naturel, d’abord aux Etats-Unis, puis peu à peu dans les autres pays de la Triade depuis 2003-2004. Ce métier consiste à conseiller sa clientèle sur ces fameux critères, et de mettre en place pour ses clients des solutions à la fois techniques et rédactionnelles afin d’améliorer leur positionnement dans le moteur de recherche sur certaines requêtes d’internautes pertinentes pour leurs clients. La logique du référencement a défini de façon assez massive ces dernières années tout à la fois l’organisation technique des sites (les façon de réaliser des templates et les mises en pages, de structurer et d’optimiser le code), de structurer les textes sur les sites internet, des sites de presse aux sites de rencontre, en passant par les sites d’e-commerce. Etre bien positionné sur tel ou tel mot devient pou rchaque entreprise un véritable enjeu économique.

Google a un rapport d’amour-haine avec l’industrie du référencement. Très soucieux de garder secret « la recette » de son algorithme (en terme de paramètres et de pondération de ces paramètres), le Géant de Mountain View tolère cette industrie mais démontre avec cette modification garder la main sur sa structure de hiérarchisation des pages web sur son moteur selon la requête.

Pour bien comprendre ce phénomène, un rapide résumé du concept de « longue-traine » et de ses implication économique n’est pas inutile. cette expression est bizarre. « Longue-traîne », ça n’a pas vraiment de sens. Des universitaires allemands auraient inventé des expression plus systèmiques. « Positionnement favorable sur de nombreuses requêtes de plus de trois mots » est l’exacte définition de la longue-traîne.

La longue traine, et ses implications économiques. 

Il y a une révolution copernicienne de compréhension de la hiérarchisation l’information « de consultation » ou « de requête » dans la compréhension du paradigme internet de la longue-traîne. Ce paradigme dit la chose suivante : Contrairement à ce que l’on peut croire, 80% des visiteurs d’un site arrivent par les pages « secondaires », les pages de texte, et seulement 20% arrivent par la page d’accueil. De même 80% des visiteurs arrivent par les pages de longues traine et non par le nom direct du site ou par une requête générique.

Il existes trois sorte de requêtes : les requêtes génériques : un mot un seul : « chaussure », « décoration », « concours ». Cette requête est la plus nombreuse à être tapée, mais elle reste minoritaire par rapport à la masse des requête semi-génériques (deux mots), et des requêtes de longue-traîne (trois mots et plus). Appliquant la loi du 80/20 de Pareto, on peut dire que 80% des requêtes amenant des visisteurs sont des requêtes de longue-traîne, de plus de 3 mots. Et pour un annonceur,  être positionné sur le plus d’expression de longue traîne est un enjeu stratégique essentiel. Les annuaires, les agrégateurs de contenus et comparateurs de prix sont par la force des choses positionnés sur de très nombreuses requêtes précises d’internautes (ex : le nom de tel ou tel produit) les sites de leurs clients (qui leur achètent des pages de référencement avec des liens. En les sanctionnant, Google met évidemment en position de force le simple onglet « shopping » et pointe du doigt le référencement « artificiel » par rapport au référencement « naturel » réel.

Tout le travail des experts en référencement va consister, justement, non seulement à améliorer le positionnement sur Google, mais il devra aussi, à l’avenir, intégrer l’aspect référencement réel, avec la recherche de liens actifs depuis d’autres sites ou par partage social, la création de pages dédiées pertinentes avec liens sur plusieurs domaines, etc.

Et dès lors, cette logique a structuré le paysage du web depuis des années. Cette structuration univoque pose de réelles question d’un point de vue philosophique.

La question philosophique, derrière cette évolution : comment la mécanique de Google pourrait-elle englober la sémantique humaine ?

Une question essentielle, philosophique, réside dans le fait que Google a mécanisé la sémantique humaine sans pour autant ingérer la véritable dimension du sens des mots. Si des paramètres sémantiques interviennent dans l’indexation de Google, ils semblaient jusqu’ici soumis à des règles de référencement fort rustres : densité des mots clefs sur les pages pour déterminer le positionnement, prééminence des titres, prééminence des aspects techniques (balises, tags, etc.). Espérons que la modification de l’algorithme contribuera à un meilleur lien entre la sémantique humaine et la structure mécanique d’indexation de Google. En donnant aux robots de Google une position dominante dans la hiérarchisation des contenus, nous déléguons en quelque sorte aux robots de Google (les « crawlers », véritables nano-robots virtuels qui visitent les sites en continu et enregistrent les données sur la constitutions et les modifications, ajouts, suppressions des pages, code et textes, données qui seront ensuite hiérarchisées et indexées) le pouvoir de hiérarchiser le sens des choses dans l’espace virtuel. C’est une problématique sur laquelle les grands esprits de Google devraient se pencher, pour leur prochaine modification.

Tout ceci redéfinit volontairement ou non le rapport de l’homme au monde. Qui redéfinit également les façons de lire, d’écrire et d’apprendre. Débat qui a eu de nombreuses résonance dans l’espace intellectuel, d’Alain Finkielkraut, inquiet de cette montée en puissance de la lecture de consultation, à d’autres, inquiets des aspects relatifs à la vie privée, à d’autres encore qui mettent en avant le trop grand nombre de commentaires et pages de mauvaise qualité.

Enfin, d’un point de vue social, Google devrait également réfléchir au sens que cela impliquent pour les personnes qui travaillent en rapport avec Internet. Une concertation sociale pourrait avoir lieu avec Google au sujet des conditions de tarification des bannières Adsense. Par ailleurs, sa situation géographique en Irlande en Europe, pour bénéficier d’une fiscalité des entreprises avantageuse (12,5% du Revenu Net), est un peu contestable, d’autant que cela bénéficie d’une situation qui a contribué à la problématique budgétaire et financière de l’Etat irlandais, aboutissant aux conséquences que l’on sait sur les marchés financiers depuis 18 mois maintenant.

Au total, il reste à Google à devenir autre chose qu’une société du virtuelle pour prendre pied en rapport avec l’ensemble de ses stakeholders, internautes, webmasters, Etats et tout simplement avec l’Homme, que la firme de Mountain View affiche vouloir servir.

Ce contenu a été publié dans Actualité juridique, Actualités scientifiques, spatiales et robotiques, Economie, Entreprises, Finances publiques et questions budgétaires, Hi-tech Internet : toute l’actu du web, Magazine étudiant, Questions et problématiques européennes, Questions fiscales, Questions sociales. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire