Es indispensable disponer de archivo robots.txt en nuestra web, pero exactamente para qué sirve?
En este post hablaremos de lo que puede aportar el archivo robots.txt en la web junto con los beneficios que dará al SEO, pero antes de eso haremos un breve resumen de quien utilizará este archivo y por qué.

¿Qué son los robots / arañas de internet?

Las arañas web de internet o también llamadas robots de indexación son las encargadas de visitar periódicamente las diferentes webs creadas en todo el mundo, analizarlas y almacenarlas para que posteriormente un motor de búsqueda procese esta información, la clasifique y muestre la web según las búsquedas introducidas por los usuarios.

De esta manera encontramos diferentes tipos de robots de indexación. El más conocido es el robot de Google llamado Googlebot. Tal y como hemos dicho, este robot visita nuestra página web con relativa frecuencia para tener la información más actualizada y añadir o eliminar de su índice las páginas de nuestra web. Pero no todos los robots que visitan nuestra página web y que existen tienen el mismo propósito, según sus intenciones los podemos clasificar en:

  • Buscadores

  • Servidor de Links

  • Herramienta de Descarga

  • Servidor de Filtrado

  • Robot / Araña

  • Spam / Robot malicioso

Según esta clasificación de tipología de robots podemos ver cuáles son más adecuadas para que visiten nuestra web y cuáles no. Aquí es donde damos paso al archivo robots.txt que es lo que nos ayudará a mantener a raya los robots que no sean beneficiosos ni de nuestro interés. Por eso nos toca saber …

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto plano donde marcaremos qué secciones de nuestro sitio web queremos que visite y indexe cada robot. Este archivo estará colgado en la raíz de nuestra web públicamente para que se pueda visualizar. Esto quiere decir que podremos acceder al archivo si escribimos a la URL de nuestro navegador www.domini.cat/robots.txt

Las funciones que encontraremos en este archivo serán:

  • User-agent: Nombre del robot al que van dirigidas las funciones de las líneas continuas.
  • Allow: Función que especifica un apartado de la web donde queremos permitir la visita del robot especificado en las líneas anteriores.
  • Disallow: Función que especifica un apartado de la web donde NO queremos permitir la visita del robot especificado en las líneas anteriores.
  • Sitemap: Línea donde se especifica la URL donde tenemos situado nuestro Sitemap.

Y todo esto en resumen …

¿Como ayuda al posicionamiento de nuestra web el archivo robots.txt?

El archivo robots.txt suele ser uno de los primeros apartados a visitar por las arañas de nuestro sitio web. Aquí encontrarán los apartados de la web que hemos señalado como accesibles o prohibidos. También ayuda a que los robots encuentren el fichero sitemap.xml, el cual contiene el índice completo de todos los apartados de nuestra web. Esto dará pie que este robot sepa que existimos, que pueda indexar a su buscador todas las páginas de nuestra web y conseguimos estar bien posicionados.

Leave a comment