Archivo robots.txt ~ PortalXpro

miércoles, 8 de junio de 2016

Archivo robots.txt

6/08/2016 07:16:00 p.m. archivorobots.txt, herramientas programacion, herramientasinternet, robots.txt, tutoriales No hay comentarios

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones de indexación y de comportamiento para los crawlers o los robots de los motores de búsqueda (¡ojo! recomendaciones, no obligaciones). Estos crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo.

El problema surge cuando quieres evitar que ciertas páginas se incluyan en sus índices, ¿Qué haces entonces? Tienes 2 opciones. La primera es usar una etiqueta especial en cada página (véase Meta Robots) o utilizar un archivo centralizado para controlar la entrada. Esta última opción es la de robots.txt que es la que vamos a ver en profundidad.

Qué es un archivo robots.txt

Para qué sirve un archivo robots.txt

Cómo generar el archivo robots.txt

Un ejemplo de robots.txt para WordPres

Chuleta para principiantes

Recordatorio de reglas
- En la mayoría de los casos, meta robots con parámetros “noindex, follow” deben ser empleados como una forma de restringir el rastreo o la indexación
- Es importante señalar que los rastreadores maliciosos son propensos a ignorar completamente robots.txt y, como tal, este protocolo no es un buen mecanismo de seguridad
- Sólo 1 línea “Disallow:” está permitida para cada URL
- Cada subdominio de un dominio raíz utiliza archivos robots.txt separados
- Google y Bing aceptan dos caracteres de expresiones regulares específicos para la exclusión de patrones (* y $)
- El nombre del archivo robots.txt es sensible a las mayúsculas. Utiliza “robots.txt”, no “Robots.TXT”
- Los espacios no se aceptan para separar parámetros de consulta. Por ejemplo, “/categoría/ /producto” no sería detectado por el archivo robots.txt
¿Ya sabes cómo crear tu archivo robots.txt?

PortalXpro

miércoles, 8 de junio de 2016