Qu'est-ce que l'Encyclopédie du Webmaster ?

L'encyclopédie de l'Internet fournit aux Webmasters la connaissance de base sur les mots utilisés en Informatique et Internet. Elle inclus donc les anglicismes qu'utilisent les développeurs de logiciels, les hackers et le monde "interne" de la programmation. L'encyclopédie de l'Internet est une source gratuite de mariposa.eu.com destinée aux débutants et aux professionnels.

Qu'est-ce qu'un robot ?


Un robot (bot en Anglais) en informatique est un logiciel qui effectue des tâches automatiques. Il y a donc de robots qui corrigent les fautes d'orthographe, d'autres qui testent les pages Web ou ceux qui génèrent du contenu en suivant un template.
 
La majorité des internautes pense d'abord aux robots d'indexation (spider ou crawler en Anglais) s'ils entend le mot robot. Nous expliquons dans cet article donc les robots d'indexation et non le mot en soi.
 
Un robot (d'indexation) scrute le Web en continue en suivant les liens qu'il trouve dans les pages Web. Un site de contenu sera donc automatiquement trouvé par ces robots, même sans que le Webmaster les soumette aux moteurs de recherche. Si un site comporte de contenu important ou unique il est probable que les robots le trouvent même très vite, parfois déjà après une ou deux journées et donc beaucoup plus vite qu'après une soumission.
 
Pour que les robots acceptent un nouveau site il est nécessaire qu'il comporte un contenu unique, des informations importants et qu'il soit optimisé pour le référencement quelques rares exceptions à part. Les sites perso d'une dizaine de pages ont donc de plus en plus de difficulté pour entrer dans les bases de données des moteurs de recherche et même la soumission répétée de ces sites ne sert souvent pas beaucoup.
 
La visite des robots n'a toutefois pas seulement des avantages mais pose également de nombreux problèmes. Comme un robot ne voit rien mais suit exclusivement de règles qu'un programmeur lui a appris, il n'est pas capable de suivre plus que trois liens, il ne peut pas lire les noms de nombreuses fichiers gérées par PHP ou ASP, il est assez limité à déchiffrer Flash, ne peut pas suivre un lien crée par JavaScript etc. Un robot d'indexation est donc handicapé et demande l'adaptation du code à ses besoins. Il est donc possible qu'une page qui est techniquement de très haute qualité ne puisse pas être lu par les robots et n'entre donc pas dans la base de données des moteurs de recherche.
 
Ce problème de robots peut, partiellement, être pallié par une structuration étudiée du site et l'utilisation du fichier robots.txt. Un Webmaster sans formation en webmastering et optimisation n'est malheureusement rarement capable de créer de sites adaptées aux besoins actuels des moteurs de recherche.
 
Mais il y a un deuxième problème qui arrive avec les robots. De la manière que nous faisons tout pour attirer les robots des moteurs de recherche, de la même manière devons nous éviter la visite des robots crimeware qui utilisent la même programmation que les robots d'indexation mais avec le but d'extraire chaque adresse mail ou de chercher les formulaires mal protégées. Leur but le "moins dangereux" est encore d'envoyer du spam aux adresses trouvées et d'utiliser les formulaires trouvés pour les utiliser sans que le Webmaster ne se rende compte. Il n'est malheureusement pas possible de bloquer chacun de ces robots crimeware vu qu'il y en a qui apparaissent chaque jour, comparable aux virus. Mais la majorité de noms de ces robots sont connues et peuvent donc être bloqué avant d'extraire des informations des serveurs par un script en PHP ou ASP, par la configuration du serveur ou, les plus couramment par l'emploi du fichier .htaccess.
 
mot prochain : crimeware
 
Copyright 2007, mariposa.eu.com
 
* Les mots en gras font partie de notre Lexique d'Informatique