Lors de la création de pages sur votre site web, il est naturel de faire en sorte que celles-ci soient optimisées pour le SEO afin d’être visibles. Vous vous assurez que toutes les URLs de votre site soient bien indexées pour être sur les pages de résultats de recherche (les SERPs).
Mais avez-vous pensé à désindexer les pages qu’il ne faut surtout pas indexer ? Dans certains cas il est recommandé de bloquer l’indexation des pages et d’autres où vous devez absolument le faire !
Scandale et fuite de données personnelles
Courant 2020, plusieurs médias avaient révélé un scandale lié aux données personnelles de centaines de milliers d’utilisateurs de la très connue messagerie WhatsApp.
Un grand nombre de groupes de conversations privées et les numéros de téléphone de leurs participants ont été accessibles via des moteurs de recherches : scandale !
En effet, lorsque vous génériez un lien d’invitation à un groupe, celui-ci était automatiquement indexé par les moteurs de recherches ! Cependant, la faute ne revenait pas aux moteurs de recherche. La messagerie WhatsApp n’avait pas ajouté cette fameuse méta donnée « noindex » sur ses pages d’invitation !
3 solutions de contournement efficaces
Le plus simple : le robots.txt
Placé à la racine de votre site, le document robots.txt peut facilement vous aider à optimiser le référencement de votre site. C’est un “répertoire” qui indique aux robots des moteurs de recherche les instructions à suivre pour indexer ou non une page de votre site.
Dès qu’un robot arrive sur un site, il cherche directement à accéder à ce document (http://www.monsite.fr/robots.txt) avant de crawler votre site. Si le robots.txt existe, il le lit. Si non, il commence à crawler votre site, en considérant que toutes les pages sont indexables.
La syntaxe d’un robots.txt se construit comme suit :
User-agent: *
Disallow:
User-agent: * signifie que l’instruction s’adresse à tous les robots. Si vous souhaitez bloquer certains robots, il suffit d’indiquer son nom. Par exemple, pour adresser la commande aux robots de Google on utilisera :
User-agent: Googlebot
Disallow:
Disallow: signifie qu’il n’y a aucune restriction : le rebot peut donc parcourir toutes les pages de votre site !
Voici quelques commandes que vous pourrez entrer dans votre robots.txt si vous voulez :
- Bloquer le crawl des répertoires (catégories) ou pages de votre site :
Disallow: /
- Empêcher le crawl d’une catégorie particulière :
User-agent: *
Disallow: /repertoire-a/
- Interdire le crawl d’une page particulière :
User-agent: *
Disallow: /page-a.html
Il est également possible de combiner les commandes ! Par exemple restreindre l’accès à certaines pages pour certains robots mais pas d’autres.
Dangereux mais efficace : la meta noindex
Insérer une balise meta noindex est une des méthodes utilisées pour empêcher l’indexation ou désindexer des pages web sur les moteurs de recherche comme Google. Simple à mettre en place mais nécessitant l’intervention d’un développeur, elle se place dans lede votre page avec le code suivant :
Cette balise transmet l’instruction aux bots que la page ne doit pas être indexée dans les résultats de recherche.
Il est nécessaire de rappeler qu’une mauvaise configuration de la balise méta « noindex » peut s’avérer fatale pour votre entreprise ! Vous pouvez vous retrouver avec tout le site désindexé en cas d’erreur de la part de votre intégrateur ou de votre développeur ruinant ainsi toutes vos chances de monter dans la SERP.
Ce que WhatsApp aurait dû faire : mise en place d’une authentification
Il est évident qu’il faut se prémunir contre le risque d’attaques. Mettre en place un système d’authentification solide devrait faire partie de cet arsenal. Concernant le cas de WhatsApp la nécessité d’être connecté à son compte WhatsApp pour accéder au lien d’invitation aurait dû être un pré-requis dans la conception. Le moteur de recherche n’aurait ainsi pas eu accès à ces URLs d’invitation. Pas de compte, par conséquent pas d’indexation directe de ces pages.
Connu depuis longtemps par WhatsApp, Google et Facebook se sont pendant un moment renvoyé la balle. Cependant, Google a vite réagi en désindexant ces pages. WhatsApp a par ensuite ajouté une balise meta noindex à ces pages d’invitation.
Aujourd’hui, il est encore possible de trouver des liens vers les groupes de discussion WhatsApp malgré le fait que la majorité des moteurs de recherches les ont désindexés.
Notre petit conseil chez upto1
Optimisez votre budget de crawl ! Evitez d’indexer des pages sensibles : si un problème de sécurité se présente vous limiterez la surface d’attaque.
Par ailleurs, la vérification des fichiers robots.txt, du sitemap et de la crawlabilité de la page devrait faire partie de votre checklist avant d’ouvrir votre site à des inconnus.
N’hésitez pas à faire un audit SEO pour vérifier que vos pages confidentielles ne se retrouvent pas dans le vaste univers qu’est Internet 😉
Autres articles SEO....
Créer un sitemap efficace pour PrestaShop 1.7 : guide complet
PrestaShop est une plateforme e-commerce populaire qui permet aux entreprises de créer et de gérer facilement leurs boutiques en ligne. Un aspect important pour faire
L’avenir de la création de contenu : comment l’intelligence artificielle change le jeu
L’intelligence artificielle (IA) révolutionne la façon dont nous créons et consommons du contenu. De la compréhension du langage naturel à l’apprentissage automatique, l’IA est utilisée pour générer du contenu de haute qualité plus rapidement et avec plus de précision que jamais. Dans cet article, nous allons explorer les moyens par lesquels l’IA change le paysage de la création de contenu et ce que cela signifie pour les entreprises et les marketeurs.
Search On 22 : Google Lens Visual Search Optimization
Le future du SEO : Visual Search Vous voulez plus de visibilité ? Vous voulez arriver premier dans la page de résultats des plus célèbres