¿Qué es Robots.txt?
El archivo robots.txt es un archivo de texto que indica a los motores de búsqueda qué páginas o secciones de un sitio web pueden rastrear y cuáles deben evitar. Es una parte esencial del protocolo de exclusión de robots y ayuda a optimizar la indexación de tu sitio web, evitando que contenido innecesario o privado sea accedido por los bots de los buscadores.
¿Para qué sirve el archivo Robots.txt?
El robots.txt es fundamental para la gestión del SEO y la seguridad de un sitio web. Sus principales usos incluyen:
- Controlar el acceso de los motores de búsqueda: Puedes restringir partes del sitio que no deseas que sean indexadas.
- Optimizar el rastreo de los bots: Evita que los motores de búsqueda gasten recursos en contenido irrelevante.
- Proteger información sensible: Aunque no es una medida de seguridad definitiva, ayuda a evitar la indexación de archivos privados.
- Indicar la ubicación del Sitemap: Ayuda a los motores de búsqueda a encontrar más rápidamente las URLs importantes.
Dónde se encuentra el archivo Robots.txt
El archivo robots.txt debe estar ubicado en la raíz del dominio de tu sitio web. Por ejemplo:
https://www.tudominio.com/robots.txt
Si intentas acceder a esta URL y el archivo existe, podrás verlo en tu navegador.
Cómo Crear un Archivo Robots.txt
Si tu sitio web no tiene un robots.txt, puedes crearlo manualmente con cualquier editor de texto como Notepad, Visual Studio Code o el editor integrado en cPanel. Luego, sólo debes subirlo a la carpeta raíz de tu servidor.
Estructura Básica de un Archivo Robots.txt
Un robots.txt básico suele incluir reglas para permitir o bloquear el acceso a ciertas partes del sitio. Su estructura es la siguiente:
User-agent: *
Disallow: /privado/
Allow: /publico/
Sitemap: https://www.tudominio.com/sitemap.xml
- User-agent: Especifica a qué bots afectan las reglas. El asterisco (*) indica que la regla aplica a todos los motores de búsqueda.
- Disallow: Bloquea el acceso a directorios o archivos específicos.
- Allow: Permite el acceso a ciertas partes del sitio.
- Sitemap: Indica la ubicación del sitemap.xml para mejorar la indexación.
Ejemplos de Configuración de Robots.txt
Bloquear el Acceso a Todo el Sitio
User-agent: *
Disallow: /
Este archivo evita que cualquier motor de búsqueda indexe el sitio web.
Permitir el Acceso Completo a Todo el Sitio
User-agent: *
Disallow:
Los bots pueden rastrear todas las páginas del sitio.
Bloquear un Directorio Específico
User-agent: *
Disallow: /admin/
Impide que los motores de búsqueda accedan al directorio /admin/.
Bloquear un Archivo Específico
User-agent: *
Disallow: /secret.html
Evita que se indexe el archivo secret.html.
Bloquear a un User-Agent Específico
User-agent: Googlebot
Disallow: /
Impide que Googlebot rastree el sitio, pero permite el acceso a otros motores de búsqueda.
Cómo Optimizar Robots.txt en WordPress
Si usas WordPress, puedes gestionar y optimizar el archivo robots.txt de varias formas:
1. Editar Robots.txt desde WordPress
Algunos plugins de SEO permiten modificar el archivo directamente desde el panel de administración de WordPress. Uno de los más recomendados es Yoast SEO. Para editarlo:
- Instala y activa el plugin Yoast SEO.
- Ve a SEO > Herramientas.
- Selecciona Editor de archivos.
- Modifica el archivo robots.txt según tus necesidades y guarda los cambios.
2. Usar Plugins para Generar un Robots.txt Óptimo
Otros plugins útiles para gestionar robots.txt en WordPress son:
- Rank Math SEO: Ofrece opciones avanzadas para configurar el robots.txt.
- All in One SEO Pack: Permite modificar el archivo sin acceder al servidor.
3. Editar el Archivo Robots.txt Manualmente
Si prefieres modificarlo directamente en el servidor:
- Accede a tu servidor vía FTP o cPanel.
- Ubica el archivo robots.txt en la raíz del sitio.
- Descárgalo, edítalo con un editor de texto y súbelo nuevamente.
4. Configuración Recomendada para WordPress
Un archivo robots.txt optimizado para WordPress puede verse así:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Sitemap: https://www.tudominio.com/sitemap_index.xml
- Disallow: /wp-admin/: Evita que los bots accedan al panel de administración.
- Allow: /wp-admin/admin-ajax.php: Permite el acceso a AJAX para el correcto funcionamiento del sitio.
- Disallow: /wp-includes/: Bloquea archivos internos de WordPress.
- Disallow: /wp-content/plugins/ y /wp-content/themes/: Evita que los bots rastreen archivos de plugins y temas.
- Disallow: /?s=: Evita la indexación de las búsquedas internas de WordPress.
- Sitemap: Indica la URL del sitemap XML para mejorar la indexación.
Comprobación y Validación del Archivo Robots.txt
Para asegurarte de que funciona correctamente, puedes utilizar herramientas como:
- Google Search Console – Probador de Robots.txt
- Herramientas de auditoría SEO como Screaming Frog o Ahrefs.
Buenas Prácticas al Usar Robots.txt
Para garantizar que el robots.txt sea efectivo, sigue estas recomendaciones:
- Evita bloquear CSS y JavaScript: Google necesita estos archivos para renderizar correctamente la web.
- No uses Robots.txt para ocultar información sensible: Es mejor proteger páginas con contraseñas o configuraciones en el servidor.
- No abuses del Disallow: Bloquear demasiadas páginas puede afectar el SEO.
- Usa la directiva Sitemap: Facilita la indexación de las URLs importantes.
- Revisa periódicamente tu archivo: Google cambia sus algoritmos, y lo que hoy funciona puede quedar obsoleto.
Conclusión
El archivo robots.txt es una herramienta poderosa para gestionar el rastreo de los motores de búsqueda en tu sitio web. Una configuración adecuada ayuda a mejorar el SEO y la eficiencia del rastreo de los bots, asegurando que solo el contenido relevante sea indexado. En ALHOSTINGS, podemos ayudarte a optimizar tu robots.txt y mejorar tu estrategia de SEO. ¡Contáctame!

Experto en WordPress, Optimización SEO y Experiencia de Usuario (UX) | Ayudo a autónomos y PYMEs a crecer su negocio | Especialista en Diseño y Desarrollo Web para Startups, PYMEs y Proyectos Personales.