miércoles, 8 de junio de 2016

Archivo robots.txt

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones de indexación y de comportamiento para los crawlers o los robots de los motores de búsqueda (¡ojo! recomendaciones, no obligaciones). Estos crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo.


El problema surge cuando quieres evitar que ciertas páginas se incluyan en sus índices, ¿Qué haces entonces? Tienes 2 opciones. La primera es usar una etiqueta especial en cada página (véase Meta Robots) o utilizar un archivo centralizado para controlar la entrada. Esta última opción es la de robots.txt que es la que vamos a ver en profundidad.






  • Recordatorio de reglas

    • En la mayoría de los casos, meta robots con parámetros “noindex, follow” deben ser empleados como una forma de restringir el rastreo o la indexación
    • Es importante señalar que los rastreadores maliciosos son propensos a ignorar completamente robots.txt y, como tal, este protocolo no es un buen mecanismo de seguridad
    • Sólo 1 línea “Disallow:” está permitida para cada URL
    • Cada subdominio de un dominio raíz utiliza archivos robots.txt separados
    • Google y Bing aceptan dos caracteres de expresiones regulares específicos para la exclusión de patrones (* y $)
    • El nombre del archivo robots.txt es sensible a las mayúsculas. Utiliza “robots.txt”, no “Robots.TXT”
    • Los espacios no se aceptan para separar parámetros de consulta. Por ejemplo, “/categoría/ /producto” no sería detectado por el archivo robots.txt
    ¿Ya sabes cómo crear tu archivo robots.txt?

0 comentarios:

Publicar un comentario