Public pages -

RaisonS de ne PAS être indexé·e sur Google

En tant que webmistress ou blogueur (par exemples) pourquoi interdire à Google -moteur de recherche désormais filiale de Alphabet- d'indexer son site Web ? (À part éventuellement une page comme celle-ci précisément pour expliquer son point de vue.)

Il y a plusieurs raisons à cela. (Cette page n'est évidemment pas pertinente pour une société commerciale, a fortiori si elle veut vendre directement sur le Net par une boutique en ligne.)

Discrétion

Certaines personnes, comme quelques recruteurs/euses, n'ont pas la conscience qu'un site ne puisse pas être référencé dans Google. Ainsi, les avis ou opinions exprimées sur un espace Web non accessible depuis Google, sont « caché-e-s » aux yeux des internautes lambdas. Cela améliore notre intimité.

Pied de nez et indépendance

Google n'est pas la panacée en terme de confidentialité (litote), et on peut très bien vivre sans, surtout pour un simple blogue personnel. On montre aussi à Google et ses clients (les publicitaires) qu'on peut se passer de leur réseau, de leur référencement, du trafic qu'ils pourraient nous apporter, et ainsi que l’on en n'est pas dépendant·e. En étant volontairement désindexé·e, on évite la pression inutile des risques de baisse de référencement et d'auto-censure [par peur de déplaire à Google et/ou de publier du contenu qui ne serait pas assez bankable (rentable, séduisant) aux seuls yeux d’Alphabet, maison-mère du moteur de recherche]. Cette exclusion développe aussi des pratiques de référencement naturel plus saines et centrées sur l'internaute (ou ses propres opinions, avis, passions) plutôt que orientées en fonction de Google et de ses critères.

Résistance

Quand on clique sur un lien dans une page de résultats de Google, cette société sait précisément sur quel lien on a cliqué, a fortiori si on était connecté·e à son compte Google. S'affranchir de l'index de Google, c'est aussi contribuer à un réseau « parallèle », à un ou deux clics de souris à la seule condition d'utiliser autre chose que Google.

Pédagogie

Cela pousse aussi les internautes novices à se renseigner sur l'« offre » en terme d'outils de recherche, sur leurs fonctionnalités ou politique de vie privée, etc… Et même pour les internautes à l'aise sur Internet, cela nous fait re-découvrir des pages de résultat moins polluées (Google étant populaire, il est le plus soumis à des manœuvres de spamming, manipulation, etc de la part de responsables web ou référenceurs peu scrupuleux et passablement kamikazes). Être hors de Google nous aide tout·e·s à nous sevrer du « réflexe Google ».

Investissement/Secours

Si on subit un problème de référencement ou de cyber-réputation, ces pages hors-Google forment une sorte de réservoir d'URLs et de contenus dont on peut alors « ouvrir les vannes » en autorisant soudainement/ temporairement leur indexation, histoire d'inonder les SERP (pages de résultat) de Google. En pratique ça ne marche que si ces pages hors-Google bénéficient de beaucoup de liens positifs et de crédibilité aux yeux de Google, mais en attendant c'est déjà ça.

Techniquement, comment faire

  • Ajouter ce paragraphe à la fin de son fichier robots.txt :
#
User-Agent: Googlebot #--------- # Google vous piste via le programme Analytics 
User-Agent: Googlebot-News #---- # installé sur 70% des sites web 
User-Agent: Googlebot-Mobile #-- # même si vous n'êtes pas connecté-e 
User-Agent: Googlebot-Image #--- # à votre compte Google/ GMail/ YouTube.
User-Agent: Googlebot-Video #--- # DuckDuckGo et IxQuick sont des alternatives 
User-Agent: Mediapartners-Google # fiables, qui respectent votre vie privée.
User-Agent: Mediapartners #----- # Il existe d'autres moteurs de recherche
User-Agent: AdsBot-Google #----- # (Seeks, YaCy, Exalead, Majestic-12…)
Noindex: / 
  • Insérer ces lignes dans l'entête <head> de chaque page HTML :
<meta name="googlebot" content="none, noarchive" /> <!-- "none" = "noindex, nofollow" ; 
"noarchive" = "supprimer l'accès à la version actuellement en cache" ;  -->
<meta name="googlebot-news" content="none, noarchive" />

Ceci permet de prévenir et parer une éventuelle suppression accidentelle ou mise à jour mal contrôlée du fichier robots.txt .

Aller plus loin (en tant qu'éditeur d'un espace Web)

  • Ne pas utiliser Google Analytics et services similaires, afin de pas participer au pistage (tracking) des internautes même déconnecté-e-s de leur compte Google.
  • S'exclure également de Bing, moteur de recherche de Microsoft, qui a signé un accord avec Facebook pour afficher des résultats quand la recherche interne ne donne aucun résultat dans la base de données de FB (profil personnel, groupe thématique, page de fan ou de marque, discussion, message publics…).
  • Proposer sur son site ou blogue un champ de recherche envoyant vers un de ces moteurs alternatifs. Ici Ixquick édité par une société néerlandaise :

Mes espaces désindexés de Google…

… enfin au moins pour les pages en HTTP. Les pages accessibles via une connexion chiffrée (HTTPS) sont parfois indexées.

  • monwiki.accessibilisation.net mon wiki ; entièrement désindexé ;
  • lienspersos.accessibilisation.net mes liens favoris et quelques notes ; récemment désindexé avant une partielle probable ré-indexation mais que en HTTPS - c'est un autre sujet ;
  • blogue.mathiaspoujolrost.net/perso/ mon blogue personnel ; en partie désindexé à part certaines pages sur des organisations tels que la société Cometik Team (Jean-Christophe Vasseur, Vincent Guilbert), Vivaldi-Avocats Lille (Eric Delfly, aussi Consul du Luxembourg + Kathia Beulque son associée & collègue), François Deleforge et Bernard Franchi Avoués Associés SCP.

Autres pages publiques.

Éditer - Historique - Imprimer - Changements récents - Rechercher
Page mise à jour le 10 01 2017 à 14h06