Cybersécurité : les liens d’invitation WhatsApp indexés 💥 !

Cybersécurité données personnelles WhatsApp

Lors de la création de pages sur votre site web, il est naturel de faire en sorte que celles-ci soient optimisées pour le SEO afin d’être visibles. Vous vous assurez que toutes les URLs de votre site soient bien indexées pour être sur les pages de résultats de recherche (les SERPs).

Mais avez-vous pensé à désindexer les pages qu’il ne faut surtout pas indexer ? Dans certains cas il est recommandé de bloquer l’indexation des pages et d’autres où vous devez absolument le faire !

Scandale et fuite de données personnelles

Courant 2020, plusieurs médias avaient révélé un scandale lié aux données personnelles de centaines de milliers d’utilisateurs de la très connue messagerie WhatsApp.

Un grand nombre de groupes de conversations privées et les numéros de téléphone de leurs participants ont été accessibles via des moteurs de recherches : scandale !

En effet, lorsque vous génériez un lien d’invitation à un groupe, celui-ci était automatiquement indexé par les moteurs de recherches ! Cependant, la faute ne revenait pas aux moteurs de recherche. La messagerie WhatsApp n’avait pas ajouté cette fameuse méta donnée « noindex » sur ses pages d’invitation !

3 solutions de contournement efficaces

Le plus simple : le robots.txt

Placé à la racine de votre site, le document robots.txt peut facilement vous aider à optimiser le référencement de votre site. C’est un “répertoire” qui indique aux robots des moteurs de recherche les instructions à suivre pour indexer ou non une page de votre site.

Dès qu’un robot arrive sur un site, il cherche directement à accéder à ce document (http://www.monsite.fr/robots.txt) avant de crawler votre site. Si le robots.txt existe, il le lit. Si non, il commence à crawler votre site, en considérant que toutes les pages sont indexables.

La syntaxe d’un robots.txt se construit comme suit :

User-agent: *
Disallow:

User-agent: * signifie que l’instruction s’adresse à tous les robots. Si vous souhaitez bloquer certains robots, il suffit d’indiquer son nom. Par exemple, pour adresser la commande aux robots de Google on utilisera :

User-agent: Googlebot
Disallow:

Disallow: signifie qu’il n’y a aucune restriction : le rebot peut donc parcourir toutes les pages de votre site !

Voici quelques commandes que vous pourrez entrer dans votre robots.txt si vous voulez :

  • Empêcher le crawl des répertoires (catégories) ou pages de votre site :
Disallow: /
  • Empêcher le crawl d’une catégorie particulière :
User-agent: *
Disallow: /repertoire-a/
  • Empêcher le crawl d’une page particulière :
User-agent: *
Disallow: /page-a.html

Il est également possible de combiner les commandes ! Par exemple restreindre l’accès à certaines pages pour certains robots mais pas d’autres.

Dangereux mais efficace : la meta noindex

Insérer une balise meta noindex est une des méthodes utilisées pour empêcher l’indexation ou désindexer des pages web sur les moteurs de recherche comme Google. Simple à mettre en place mais nécessitant l’intervention d’un développeur, elle se place dans le <head> de votre page avec le code suivant :

<meta name="robots" content="noindex">

Cette balise transmet l’instruction aux bots que la page ne doit pas être indexée dans les résultats de recherche.

Il est nécessaire de rappeler qu’une mauvaise configuration de la balise méta « noindex » peut s’avérer fatale pour votre entreprise ! Vous pouvez vous retrouver avec tout le site désindexé en cas d’erreur de la part de votre intégrateur ou de votre développeur ruinant ainsi toutes vos chances de monter dans la SERP.

Ce que WhatsApp aurait dû faire : mise en place d’une authentification

Il est évident qu’il faut se prémunir contre le risque d’attaques. Mettre en place un système d’authentification solide devrait faire partie de cet arsenal. Concernant le cas de WhatsApp la nécessité d’être connecté à son compte WhatsApp pour accéder au lien d’invitation aurait dû être un pré-requis dans la conception. Le moteur de recherche n’aurait ainsi pas eu accès à ces URLs d’invitation. Pas de compte, par conséquent pas d’indexation directe de ces pages.

Connu depuis longtemps par WhatsApp, Google et Facebook se sont pendant un moment renvoyé la balle. Cependant, Google a vite réagi en désindexant ces pages. WhatsApp a par ensuite ajouté une balise meta noindex à ces pages d’invitation.

Aujourd’hui, il est encore possible de trouver des liens vers les groupes de discussion WhatsApp malgré le fait que la majorité des moteurs de recherches les ont désindexés.

Résultat SERP Bing indexation Whatsapp

Notre petit conseil chez upto1

Optimisez votre budget de crawl ! Evitez d’indexer des pages sensibles : si un problème de sécurité se présente vous limiterez la surface d’attaque.
Par ailleurs, la vérification des fichiers robots.txt, du sitemap et de la crawlabilité de la page devrait faire partie de votre checklist avant d’ouvrir votre site à des inconnus.

N’hésitez pas à faire un audit SEO pour vérifier que vos pages confidentielles ne se retrouvent pas dans le vaste univers qu’est Internet 😉