miércoles, 8 de junio de 2016

Para qué sirve un archivo robots.txt

Para qué sirve un archivo robots.txt

archivo robots txtComo ya sabrás, los robots o arañas son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu página web, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu página web o se van a otra. Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.
Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:
  • Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores
  • Bloquear el acceso a archivos de código o utilidades
  • Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
  • Indicar la localización del sitemap o mapa del sitio en XML
No obstante, hay un par de cosas que debes tener en cuenta sobre robots.txt:
  • Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
  • El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear www.example.com/robots.txt
  • Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.

0 comentarios:

Publicar un comentario