- Inicio »
- Código fuente , SEO »
- Robots.txt - Todo sobre el fichero que controlará el acceso de los spiders a tu web
Publicado por : Ignacio Cisneros
viernes, 3 de julio de 2009
El fichero robots.txt es un fichero que contiene recomendaciones de acceso que todos los crawlers y robots de buscadores deberían cumplir. Un crawler es un sistema automatizado que utilizan los buscadores para indexar páginas web, comunmente conocido como spider o bot. Cada buscador tiene su propio robot (Google-Bot, noxtrumbot, msnbot, etc...). Debemos tener un control absoluto de este fichero a la hora de realizar un posicionamiento web, puesto que es un fichero básico de cara a la indexación en buscadores.
Mediante el fichero robots.txt podemos realizar varias acciones:
- Impedir acceso a determinados robots, muy útil sobre todo para evitar sobrecargas en el servidor.
- Prohibir el acceso a determinadas zonas, por ejemplo al área de administración de la web.
- Identificar la ubiación del sitemap.
- Eliminar contenido duplicado. Muy valorado por los buscadores.
El fichero robots.txt debe estar colocado en el directorio raíz del sitio, de tal forma que sea accesible a través de: www.example.com/robots.txt
Este ejemplo permitiría el acceso total a la web, es como si no tuvieramos fichero robots.txt:
User-agent: *
Disallow:
Añadiendo una carpeta a Disallow impediriamos el acceso a esa carpeta, en este ejemplo permitimos a los robots indexar cualquier página excepto las que estén dentro de /administracion:
User-agent: *
Disallow: /administracion
Si sólo queremos prohibir el acceso a un determinado robot, deberíamos indicarlo en el user-agent, de la siguiente forma:
User-agent: msnbot
Disallow: *
También podemos utilizar carácteres comodín (*) o comentarios (#), de esta forma impedimos el acceso a todos los documentos html (puede interesarnos que sólo indexe documentos php) y además impedim
os el acceso a cualquier web que contenga /num/ en su dirección, esto es muy útil para evitar contenido duplicado pero debemos tener cuidado porque si por ejemplo escribimos /*num, estamos bloqueando cualquier web que contenga num, por ejemplo www.example.com/numerosas-personas-acudieron.html :
#Robots.txt con comodinesDisallow: /*.html$
Disallow: /noticia/*/num/*
Si detectamos accesos repetitivos que están saturando el servidor, podemos indicarle al robot un tiempo (en segundos) entre cada petición:
User-agent: msnbot
Crawl-delay: 30
También podemos indicarle en el fichero robots.txt el lugar donde se encuentra nuestro sitemap:
Sitemap: http://www.example.com/sitemap.xml
De esta forma, un fichero robots.txt básico quedaría:
User-agent: *
Disallow: /administracion
Sitemap: http://www.example.com/sitemap.xml
No sabia que se podía añadir el sitemap en el fichero robots.txt
ResponderEliminarTenía ganas de poner un robots.txt en mi web pero siempre que entraba a mirar como hacerlo acababa harto de ver demasiado información y muy disgregada.
ResponderEliminarTú en unos cuantos párrafos lo has explicado mucho mejor.
Ahora mismo me pongo a hacer uno.
hola, muy bueno este articulo, mi opregunta aquí es si solo debo colocar el robots.txt en el raiz o tambien debo colocar un metatag en cada pagina ?
ResponderEliminar@Anonimo es suficiente con que lo coloques en el raíz.
ResponderEliminarPara decir: "Todo sobre el fichero.." es un poco escueto. Pero gracias...
ResponderEliminarMe gustaría ver información más detallada, para ver qué se puede deshabilitar y cómo, en Disallow, ya que hay todo tipo de formatos. Y el contenido duplicado. Saludos.