miércoles, 8 de junio de 2016

Qué es un archivo robots.txt

Qué es un archivo robots.txt

El Protocolo de Exclusión de Robots o Robots Exclusion Protocol o REP es una serie de estándares web que regulan el comportamiento de los robots y la indexación de los motores de búsqueda. El REP consiste en lo siguiente:
  • El REP original data de 1994 y fue extendido en 1997, definiendo las directrices de rastreo del robots.txt. Algunas motores de búsqueda soportan extensiones como los patrones URI (wild cards).
  • En 1996 se definen las directrices de indexación (etiquetas REP) para su uso en los elementos meta de los robots, también conocidos como etiqueta meta robots. Los motores de búsqueda también admiten etiquetas REP adicionales con la “X-Robots-Tag”. Los webmasters pueden implementar estas etiquetas REP en la cabecera HTTP de los recursos que no sean HTML como documentos PDF o imágenes.
  • El microformato “rel-nofollow” aparece en 2005 para definir cómo los motores de búsqueda deben manejar los enlaces donde hay un el elemento A del tributo REL contiene el valor “nofollow”.

Etiquetas de exclusión de robots

Si hablamos de una URI, las etiquetas REP (noindex, nofollow, unavailable_after) dirigen ciertas tareas de los indexadores y en algunos casos (nosnippet, noarchive, NOODP) incluso motores de consultas en el monento de la ejecución de una consulta de búsqueda. Aparte de las directrices para los rastreadores, cada motor de búsqueda interpreta estas etiquetas REP de forma diferente. Por ejemplo, Google elimina los listados de URLs únicas y referencias OPD de sus SERPs cuando un recurso está etiquetado con “noindex”, sin embargo Bing muestra esas referencias externas a direcciones URL como prohibidas en sus resultados de búsqueda. Como las etiquetas REP pueden ser implementadas en los elementos META de contenidos X/HTML, así como en las cabeceras HTTP de cualquier objeto web, el consenso es que contenidos con la etiqueta “X-Robots-Tags” deberían invalidar o anular las directrices en conflicto que se encuentren en los elementos META.ç

Microformatos

Las directrices de los indexadores implementadas como microformatos invalidarán la configuración de página para determinados elementos HTML. Por ejemplo, cuando la etiqueta “X-Robots-Tag” de una página dice “follow” (no hay valor “nofollow”), la directriz rel-nofollow de un elemento A (enlace) se sobrepone.
Aunque robots.txt carece de directrices para indexadores, es posible establecer estas directrices para grupos de URIs con el scripts en el servidor actuando al mismo nivel web que apliquan a “X-Robots-Tags” para solicitar recursos. Este método requiere conocimientos de programación y una buena comprensión de los servidores web y el protocolo HTTP.

Coincidencia de patrones

Google y Bing tanto entienden dos expresiones regulares que se pueden usar para identificar las páginas o subcarpetas que un consultor SEO quiere excluir de su página web. Estos dos caracteres son el asterisco (*) y el signo de dólar ($).
  • * – Que es un comodín que representa cualquier secuencia de caracteres
  • $ – Que coincide con el final de la URL

Información Pública

El archivo robots.txt es público. Cualquiera puede ver qué secciones ha bloqueado un webmaster de su servidor  Esto significa que si un SEO tiene información de usuario privada a la que no quiere dejar acceder a nadie (y menos públicamente), debe utilizar un método más seguro como la protección con contraseña para mantener a raya a los curiosos que quieran ver qué páginas confidenciales no quiere que se indexen.

0 comentarios:

Publicar un comentario