Qué es un archivo robots.txt
El
Protocolo de Exclusión de Robots o Robots Exclusion Protocol o REP es una serie de estándares web que
regulan el comportamiento de los robots y la
indexación de los motores de búsqueda. El REP consiste en lo siguiente:
- El REP original data de 1994 y fue extendido en 1997,
definiendo las directrices de rastreo del robots.txt. Algunas motores
de búsqueda soportan extensiones como los patrones URI (wild cards).
- En 1996 se
definen las directrices de indexación (etiquetas REP) para su uso en
los elementos meta de los robots, también conocidos como etiqueta meta robots.
Los motores de búsqueda también admiten etiquetas REP adicionales con
la “X-Robots-Tag”. Los webmasters pueden implementar estas etiquetas REP
en la cabecera HTTP de los recursos que no sean HTML como documentos
PDF o imágenes.
- El microformato “rel-nofollow” aparece en 2005 para definir cómo los motores de búsqueda deben manejar los enlaces donde hay un el elemento A del tributo REL contiene el valor “nofollow”.
Etiquetas de exclusión de robots
Si hablamos de una
URI,
las etiquetas REP (noindex, nofollow, unavailable_after)
dirigen ciertas tareas de los indexadores y en algunos casos (nosnippet,
noarchive, NOODP) incluso motores de consultas en el monento de
la ejecución de una consulta de búsqueda. Aparte de las directrices para
los rastreadores, cada motor de búsqueda interpreta estas etiquetas REP
de forma diferente. Por ejemplo, Google elimina los listados de URLs
únicas y referencias OPD de sus
SERPs
cuando un recurso está etiquetado con “noindex”, sin embargo Bing
muestra esas referencias externas a direcciones URL como prohibidas en
sus resultados de búsqueda. Como las etiquetas REP pueden ser
implementadas en los elementos META de contenidos X/HTML, así como en
las cabeceras HTTP de cualquier objeto web, el consenso es que
contenidos con la etiqueta “X-Robots-Tags” deberían invalidar o anular
las directrices en conflicto que se encuentren en los elementos META.ç
Microformatos
Las directrices de los indexadores implementadas como
microformatos
invalidarán la configuración de página para determinados elementos
HTML. Por ejemplo, cuando la etiqueta “X-Robots-Tag” de una página
dice “follow” (no hay valor “nofollow”), la directriz
rel-nofollow de un elemento A (enlace) se sobrepone.
Aunque robots.txt carece de directrices para indexadores, es posible
establecer estas directrices para grupos de URIs con el scripts en el
servidor actuando al mismo nivel web que apliquan a “X-Robots-Tags” para
solicitar recursos. Este método requiere conocimientos de programación y
una buena comprensión de los servidores web y el protocolo HTTP.
Coincidencia de patrones
Google y Bing tanto entienden dos expresiones regulares que se pueden usar para identificar las páginas o subcarpetas que un consultor SEO quiere excluir de su página web. Estos dos caracteres son el asterisco (*) y el signo de dólar ($).
- * – Que es un comodín que representa cualquier secuencia de caracteres
- $ – Que coincide con el final de la URL
Información Pública
El archivo robots.txt es público. Cualquiera puede ver qué secciones ha bloqueado un webmaster de su servidor
Esto significa que si un SEO tiene información de usuario privada a la
que no quiere dejar acceder a nadie (y menos públicamente), debe
utilizar un método más seguro como la protección con contraseña para
mantener a raya a los curiosos que quieran ver qué páginas
confidenciales no quiere que se indexen.
0 comentarios:
Publicar un comentario