El fichero robots.txt es un archivo de texto que dicta unas recomendaciones de indexación y de comportamiento para los crawlers o los robots de los motores de búsqueda (¡ojo! recomendaciones, no obligaciones). Estos crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo.
El problema surge cuando quieres evitar que ciertas páginas se incluyan en sus índices, ¿Qué haces entonces? Tienes 2 opciones. La primera es usar una etiqueta especial en cada página (véase Meta Robots) o utilizar un archivo centralizado para controlar la entrada. Esta última opción es la de robots.txt que es la que vamos a ver en profundidad.
Recordatorio de reglas
- En la mayoría de los casos, meta robots con parámetros “noindex, follow” deben ser empleados como una forma de restringir el rastreo o la indexación
- Es importante señalar que los rastreadores maliciosos son propensos a ignorar completamente robots.txt y, como tal, este protocolo no es un buen mecanismo de seguridad
- Sólo 1 línea “Disallow:” está permitida para cada URL
- Cada subdominio de un dominio raíz utiliza archivos robots.txt separados
- Google y Bing aceptan dos caracteres de expresiones regulares específicos para la exclusión de patrones (* y $)
- El nombre del archivo robots.txt es sensible a las mayúsculas. Utiliza “robots.txt”, no “Robots.TXT”
- Los espacios no se aceptan para separar parámetros de consulta. Por ejemplo, “/categoría/ /producto” no sería detectado por el archivo robots.txt
0 comentarios:
Publicar un comentario