miércoles, 8 de junio de 2016

Cómo generar el archivo robots.txt

Cómo generar el archivo robots.txt

archivo robots txtLo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda. Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.
Lo más fácil es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar, aunque si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.
Un archivo robots.txt básico puede ser:
User-agent: *
Disallow: /privado/
Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio desautorizado (Disallow: /privado/).

Comandos principales

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:
  • Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
  • Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
  • Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
  • Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)
Los comandos más importantes son:
  • User-agent: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
  • Disallow: Deniega el acceso a un directorio o página concreta.
  • Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
  • Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
Adicionalmente, como comentaba más arriba, puedes utilizar 2 caracteres para aumentar o reducir la concordancia:
  • Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
  • Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.

Restricciones más comunes

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.
En este sentido, es mejor ceñirse a las restricciones más comunes, como son:
  • Incluir todos los robots – User-agent: *
  • Especificar el robot de Google – User-agent: Googlebot
  • Especificar el robot de Bing – User-agent: Bingbot
  • Denegar todo el sitio – Disallow: /
  • Denegar un directorio – Disallow: /directorio/
  • Denegar directorios que comienzan por “algo” – Disallow: /algo*/
  • Denegar una página – Disallow: /pagina-web.htm
  • Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
  • Denegar la extensión .gif – Disallow: /*.gif$
  • Permitir un subdirectorio – Allow: /directorio/subdirectorio/
  • Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml

0 comentarios:

Publicar un comentario