Para qué sirve un archivo robots.txt
Como ya sabrás, los robots o arañas son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu página web, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu página web o se van a otra. Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:
- Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores
- Bloquear el acceso a archivos de código o utilidades
- Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
- Indicar la localización del sitemap o mapa del sitio en XML
- Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
- El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear www.example.com/robots.txt
- Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.
0 comentarios:
Publicar un comentario