Web caché : quel est le secret autour de cette appellation ?

Le web caché, ou web profond, qu’est-ce que c’est ? On vous explique ce qui se cache derrière cette expression qui est, on peut le dire, très floue.

Web caché : quel est le secret autour de cette appellation ?
Web caché, dark web, web invisible, deep web, que cela signifie-t-il ?

Le web caché, aussi appelé web profond ou web invisible, correspond à tous les documents, pages ou données non-indexés ou partiellement indexés par les moteurs de recherche. Le web caché fait aussi écho aux pages sécurisées, c’est-à-dire celles qui renferment des informations privées, les pages de connexion et d’abonnement, mais aussi les profils de réseaux sociaux comme Facebook et Twitter.
 

Le web caché, c’est quoi ?

Le web caché réunit plusieurs pages qui, pour une ou plusieurs raisons, ne sont pas intégralement indexées (voire pas indexées du tout) par les moteurs de recherche tels que Yahoo! et Google.

Le web invisible recouvre les éléments suivants :
  • Les pages sécurisées,
  • Les documents très volumineux,
  • Les pages orphelines,
  • Les pages générées dynamiquement,
  • Les formats de fichier non reconnus.
 

Les pages sécurisées

Les pages sécurisées renferment des données précieuses que l’on ne peut divulguer au grand public. Il s’agit typiquement des pages pour lesquelles le webmaster utilise le fichier robots.txt. Certaines pages en no follow sont aussi concernées.
 


Les documents volumineux

Les documents bureautiques sont très volumineux. Bien souvent, ils sont limités à un certain volume (lequel s’exprime en Mo). Aussi, les moteurs de recherche, pour ne pas surcharger leur index, ne traitent ces documents que partiellement.
 


Les pages orphelines

Il s’agit de pages qui ne sont référencées par aucune autre page accessible via les moteurs de recherche.
 


Les pages dynamiques

Les CMS et la plupart des blogs sont ce que l’on appelle des pages dynamiques dans la mesure où ils sont interprétés à la volée, contrairement à une page statique. Néanmoins, Google a fait de gros progrès et arrive maintenant plus ou moins à indexer de telles pages.
 


Les fichiers non reconnus

Certains formats de fichiers atypiques ne sont pas encore reconnus, et donc indexés, par Google. Cela devrait changer avec le temps.
 

Les fichiers et pages blacklistés

On notera que le web caché concerne aussi l’ensemble des fichiers et pages qui sont blacklistés par les moteurs de recherche pour des motifs divers et variés (violation des règles d’utilisation, plagiat, cloaking entre autres). La multiplication de mots-clés dissimulés à travers des filtres ou systèmes et visant à tromper la vigilance des moteurs de recherche, ce que l’on appelle aussi le spamdexing, est lourdement sanctionnée.

Enfin, on remarquera qu’il existe aussi des barrières locales : plusieurs pages ne sont accessibles que depuis certains pays ou adresses IP. Dans ce cas-là, on parle également de web profond.



A lire aussi :