Publicado por : Ignacio Cisneros viernes, 3 de julio de 2009
COMPARTE →

El fichero robots.txt es un fichero que contiene recomendaciones de acceso que todos los crawlers y robots de buscadores deberían cumplir. Un crawler es un sistema automatizado que utilizan los buscadores para indexar páginas web, comunmente conocido como spider o bot. Cada buscador tiene su propio robot (Google-Bot, noxtrumbot, msnbot, etc...). Debemos tener un control absoluto de este fichero a la hora de realizar un posicionamiento web, puesto que es un fichero básico de cara a la indexación en buscadores.


Mediante el fichero robots.txt podemos realizar varias acciones:

  • Impedir acceso a determinados robots, muy útil sobre todo para evitar sobrecargas en el servidor.
  • Prohibir el acceso a determinadas zonas, por ejemplo al área de administración de la web.
  • Identificar la ubiación del sitemap.
  • Eliminar contenido duplicado. Muy valorado por los buscadores.

El fichero robots.txt debe estar colocado en el directorio raíz del sitio, de tal forma que sea accesible a través de: www.example.com/robots.txt

Este ejemplo permitiría el acceso total a la web, es como si no tuvieramos fichero robots.txt:


User-agent: *
Disallow:


Añadiendo una carpeta a Disallow impediriamos el acceso a esa carpeta, en este ejemplo permitimos a los robots indexar cualquier página excepto las que estén dentro de /administracion:

User-agent: *
Disallow: /administracion


Si sólo queremos prohibir el acceso a un determinado robot, deberíamos indicarlo en el user-agent, de la siguiente forma:

User-agent: msnbot
Disallow: *


También podemos utilizar carácteres comodín (*) o comentarios (#), de esta forma impedimos el acceso a todos los documentos html (puede interesarnos que sólo indexe documentos php) y además impedimos el acceso a cualquier web que contenga /num/ en su dirección, esto es muy útil para evitar contenido duplicado pero debemos tener cuidado porque si por ejemplo escribimos /*num, estamos bloqueando cualquier web que contenga num, por ejemplo www.example.com/numerosas-personas-acudieron.html :

#Robots.txt con comodines
Disallow: /*.html$
Disallow: /noticia/*/num/*


Si detectamos accesos repetitivos que están saturando el servidor, podemos indicarle al robot un tiempo (en segundos) entre cada petición:

User-agent: msnbot
Crawl-delay: 30


También podemos indicarle en el fichero robots.txt el lugar donde se encuentra nuestro sitemap:

Sitemap: http://www.example.com/sitemap.xml


De esta forma, un fichero robots.txt básico quedaría:

User-agent: *
Disallow: /administracion

Sitemap: http://www.example.com/sitemap.xml

{ 5 comentarios... read them below or Comment }

  1. No sabia que se podía añadir el sitemap en el fichero robots.txt

    ResponderEliminar
  2. Tenía ganas de poner un robots.txt en mi web pero siempre que entraba a mirar como hacerlo acababa harto de ver demasiado información y muy disgregada.
    Tú en unos cuantos párrafos lo has explicado mucho mejor.
    Ahora mismo me pongo a hacer uno.

    ResponderEliminar
  3. hola, muy bueno este articulo, mi opregunta aquí es si solo debo colocar el robots.txt en el raiz o tambien debo colocar un metatag en cada pagina ?

    ResponderEliminar
  4. @Anonimo es suficiente con que lo coloques en el raíz.

    ResponderEliminar
  5. Para decir: "Todo sobre el fichero.." es un poco escueto. Pero gracias...
    Me gustaría ver información más detallada, para ver qué se puede deshabilitar y cómo, en Disallow, ya que hay todo tipo de formatos. Y el contenido duplicado. Saludos.

    ResponderEliminar

Con la tecnología de Blogger.

- Copyright © Todos contra Google - El blog de Ignacio Cisneros - icisneros - Original design by Johanes Djogan modified by Ignacio Cisneros-