Cómo generar el archivo robots.txt
Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda. Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.Lo más fácil es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar, aunque si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.
Un archivo robots.txt básico puede ser:
User-agent: * Disallow: /privado/Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio desautorizado (Disallow: /privado/).
Comandos principales
- Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
- Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
- Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
- Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)
- User-agent: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
- Disallow: Deniega el acceso a un directorio o página concreta.
- Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
- Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
- Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
- Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
- Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.
Restricciones más comunes
En este sentido, es mejor ceñirse a las restricciones más comunes, como son:
- Incluir todos los robots – User-agent: *
- Especificar el robot de Google – User-agent: Googlebot
- Especificar el robot de Bing – User-agent: Bingbot
- Denegar todo el sitio – Disallow: /
- Denegar un directorio – Disallow: /directorio/
- Denegar directorios que comienzan por “algo” – Disallow: /algo*/
- Denegar una página – Disallow: /pagina-web.htm
- Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
- Denegar la extensión .gif – Disallow: /*.gif$
- Permitir un subdirectorio – Allow: /directorio/subdirectorio/
- Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml
0 comentarios:
Publicar un comentario