| Trucs Et Traite |
| |||||
|
Astrologie
|
Auto|Santé
|
Communication | Ordinateurs
| Accueil
/ Jardin | Entertainment
|
Bijoux |
Argent / Emplois |
Alimentation | Internet
| Relations
| Shopping
| Sports
| Voyage
| Divers
| ||||||
| |||||||||||||||||||||||||||
Robots size="3" fichier texte Conseils
Le fichier robots.txt est une exclusion norme requise par l'ensemble des robots web / robots de dire
![]()
ce que les fichiers et les répertoires que vous souhaitez rester en dehors de la sur votre site. Pas tous les robots d'exploration / bots suivre la norme et l'exclusion se poursuivra l'exploration de votre site de toute façon ( "Bad Bots"). Nous bloc par l'exclusion d'adresses IP.
C'est un simple aperçu de la base du fichier robots.txt pour webmasters.For une leçon complète et approfondie, visitez Robotstxt.org.
Dernière mise à jour - 12 Novembre 2005
Pour voir le bon format pour une certaine norme de regarder directement le fichier robots.txt ci-dessous. Ce fichier doit être à la racine du domaine, car c'est là que les robots d'exploration s'attendre à ce qu'il soit, non pas dans le répertoire secondaire.
Voici le format d'un fichier robots.txt ----->
User-agent: *
Disallow: / cgi-bin /
Disallow: / images /
Disallow: / groupe /User-agent: MSNBot
Crawl-delay: 10User-agent: Teoma
Crawl-delay: 10User-agent: Slurp
Crawl-delay: 10User-agent: aipbot
Disallow: /User-agent: BecomeBot
Disallow: /User-agent: psbot
Disallow: /--------> Fin du fichier robots.txt
Ce petit fichier texte est sauvegardé comme un simple document texte, et toujours avec le nom de "robots.txt" à la racine de votre domaine.
Un examen rapide de la liste des informations du fichier robots.txt ci-dessus suit. Le "User Agent: MSNBot" est de MSN, Yahoo Slurp est de Teoma et est de AskJeeves. Les autres sont listés "Bad" que les robots d'exploration très rapide et à la prestation, mais personne ne le leur, afin que nous leur demandons de rester totalement. L'astérisque * est un joker qui signifie "tous" les robots / spiders / bots doit rester en dehors de ce groupe de fichiers ou de répertoires.
Les robots donné l'instruction "Disallow: /" veut dire qu'ils doivent rester à tout et ceux qui ont "Crawl-delay: 10" sont ceux que l'exploration de notre site trop rapidement et a fait enlisent le serveur et la surexploitation ressources. Google explore plus lentement que les autres, et ne nécessite pas que l'instruction et ne sont donc pas spécifiquement mentionnés ci-dessus dans le fichier robots.txt. Crawl-delay instruction n'est nécessaire que sur des sites très volumineux, avec des centaines ou des milliers de pages. Le joker astérisque * s'applique à tous les robots, les robots et les araignées, dont le robot Googlebot.
Ceux que nous avons fourni "Crawl-delay: 10" instruction de la demande ont été plus que 7 pages par seconde et nous leur avons demandé de ralentissement. Le nombre que vous voyez est secondes et vous pouvez le modifier en fonction de votre capacité de serveur, en fonction de leur taux d'exploration. Dix secondes entre les demandes de pages est beaucoup plus détendue et les empêche de demander plus de pages que votre serveur peut plat up.
(Vous pouvez découvrir à quelle vitesse et les araignées sont des robots d'exploration de la recherche matières premières à votre serveur de logs - qui montrent les pages demandées par moments précis à un centième de seconde - disponible à partir de votre hôte Web ou demandez à votre site web ou IT personne. Votre journal du serveur peut être trouvé dans le répertoire racine si vous avez accès au serveur, vous pouvez télécharger les fichiers journaux de serveur comprimé par jour de calendrier à droite de votre serveur. Vous aurez besoin d'un utilitaire qui peut développer les fichiers compressés d'ouvrir et de lire les texte clair serveur de fichiers de log bruts.)
Pour voir le contenu d'un fichier robots.txt, tapez simplement le fichier robots.txt après tout nom de domaine. S'ils ont ce fichier, vous verrez, il s'affiche comme un fichier texte dans votre navigateur Web. Cliquez sur le lien ci-dessous pour voir ce fichier pour Amazon.com
http://www.Amazon.com/robots.txt
Vous pouvez voir le contenu de tout site Web de cette manière le fichier robots.txt.
La plupart des webmasters charger les bots de rester en dehors de «l'image», les répertoires et les "cgi-bin" répertoire ainsi que tous les répertoires contenant les fichiers de propriétaires privés ou uniquement pour les utilisateurs d'un intranet protégé par mot de passe ou les sections de votre site . Il est clair, il faut diriger les robots de rester en dehors des zones privées de tout que vous ne voulez pas indexé par les moteurs de recherche.
L'importance de robots.txt est rarement discutée par webmasters.This moyenne devrait être la norme à la connaissance par les webmasters des entreprises.
Le moteur de recherche araignées vraiment voulez que votre orientation et de ce petit fichier texte est la meilleure façon de fournir des robots crawlers et un panneau pour avertir les intrus et de protéger la propriété privée - et à accueillir chaleureusement les invités, comme les trois grands les moteurs de recherche tout en leur demandant gentiment de rester en dehors des zones privées.
|
|
Responsabilité : Le fichier texte Robots Conseils / informations présentées et les opinions qui y sont exprimées sont celles des auteurs et ne représentent pas nécessairement les vues des TipsAndTreats.com et / ou de ses partenaires.