Aspectos destacados
- Robots.txt es una poderosa herramienta para administrar el comportamiento de los motores de búsqueda en los sitios web.
- Robots.txt No permitir todo bloquea a todos los motores de búsqueda para que no rastreen tu sitio.
- El uso incorrecto de robots.txt puede dañar el SEO y ralentizar la reindexación después de los cambios.
- Para la seguridad o el contenido privado, use la protección con contraseña en lugar de confiar en la directiva Disallow.
- La auditoría periódica de robots.txt archivo garantiza que esté optimizado para la visibilidad en los motores de búsqueda.
Introducción
Una conocida marca de comercio electrónico se encontró una vez en una pesadilla de SEO. De la noche a la mañana, sus páginas desaparecieron de los resultados de búsqueda de Google, lo que provocó una caída repentina en el tráfico orgánico y los ingresos.
Después de horas de frenética resolución de problemas, se descubrió al culpable: un robots.txt fuera de lugar Rechazar todo. Esta línea había bloqueado efectivamente a los motores de búsqueda para que no se arrastraran por todo el sitio, haciéndolo invisible para los clientes potenciales.
La directiva robots.txt Disallow all es una herramienta poderosa. Pero cuando se usa incorrectamente, puede sabotear su clasificación de búsqueda, ralentizar la reindexación y causar un daño significativo al SEO.
Entonces, ¿qué hace exactamente Disallow all? ¿Cuándo se debe usar o evitar? En este artículo, exploraremos todo sobre robots.txt No permitir todo.
¿Qué es un archivo robots.txt?
Un archivo robots.txt es un archivo de texto sin formato ubicado en el directorio de dominio raíz de su sitio web. Decide qué bots de los motores de búsqueda entran y qué áreas pueden explorar o registrar. Este archivo sigue el protocolo de exclusión de robots, también conocido como Estándar de exclusión de robots. Es un conjunto de pautas que siguen los diferentes motores de búsqueda al rastrear sitios web.
Sin un archivo robots.txt bien configurado, los bots de Google pueden deambular libremente, indexando todo. Puede incluir páginas que no desea que aparezcan en los resultados de búsqueda, como páginas de administración, contenido duplicado o entornos de prueba.
Nota: Google aplica un límite de tamaño de 500 KiB para robots.txt archivos. Cualquier contenido que supere el tamaño máximo de archivo se ignora.
Puedes crear y cambiar tu archivo de robots.txt utilizando el plugin Yoast SEO o los archivos del servidor de tu sitio web. Google Search Console también ofrece información útil para administrar fácilmente robots.txt archivo.
Lea también: Cómo excluir a Google de la indexación Agregar a la página de WordPress del carrito usando Yoast SEO
Ejemplos de cómo funcionan los archivos robots.txt
Robots.txt tiene diferentes reglas dependiendo de la cantidad de acceso que desee dar a los bots de los motores de búsqueda. Estos son algunos ejemplos comunes:
Ejemplo 1: Permitir que todos los bots accedan a todo el sitio web
User-agent: *
Disallow:
Lo que hace:
- El ‘Agente de usuario: *’ significa que todos los bots de los motores de búsqueda (Googlebot, Bingbot, etc.) pueden acceder al sitio.
- El campo ‘Disallow vacío’ significa que no hay restricciones y que los bots pueden rastrearlo todo.
Cuándo utilizarlo: Si desea una visibilidad completa en los motores de búsqueda para todo su sitio web.
Ejemplo 2: No permitir que todos los bots accedan a un directorio específico
User-agent: *
Disallow: /private-directory/
Lo que hace: Bloquea a todos los bots de los motores de búsqueda para que no accedan a nada dentro de ‘/private-directory/’.
Cuándo utilizarlo: Si desea ocultar áreas sensibles como paneles de administración o datos confidenciales.
Ejemplo 3: Permitir el uso del robot de Google mientras se impide la entrada de otros usuarios de un directorio
User-agent: Googlebot
Disallow: /images/
User-agent: *
Disallow: /private-directory/
Lo que hace:
- El robot de Google no puede acceder al directorio /images/.
- Todos los demás bots no pueden acceder a /private-directory/.
Cuándo utilizarlo: Si quieres controlar el acceso de bots específicos, por ejemplo, permitir que Google rastree algunas partes de tu sitio y bloquee otras.
Ejemplo 4: Especificar la ubicación del mapa del sitio XML
User-agent: *
Disallow:
Sitemap: https://www.[yourwebsitename].com/sitemap.xml
Lo que hace:
- Permite el acceso completo a los bots de los motores de búsqueda.
- Indica a los motores de búsqueda dónde encontrar el mapa del sitio XML, ayudándoles a indexar las páginas de manera eficiente.
Cuándo utilizarlo: Si desea que los motores de búsqueda encuentren y rastreen fácilmente su mapa del sitio.
Lea también: Cómo crear un mapa del sitio de WordPress
Diferencia entre robots.txt vs. meta robots vs. X-Robots-Tag
Si bien robots.txt, los meta robots y los X-robots controlan cómo los motores de búsqueda interactúan con su contenido, sirven para diferentes propósitos.
- Robots.txt: Evita el rastreo, pero las páginas pueden seguir apareciendo en los resultados de búsqueda si se enlazan a otro lugar.
- Etiqueta de Meta robots: Influye directamente en la indexación y el rastreo de páginas individuales.
- X-robots-etiqueta: Controla la indexación de archivos no HTML como PDF, imágenes y vídeos.
Característica | Robots.txt | Etiquetas de Meta robots | X-robots-tag |
Ubicación | Directorio raíz (/robots.txt) | de una página web | Respuesta de encabezado HTTP |
Mandos | Secciones enteras de un sitio | Indexación y rastreo de páginas específicas | Indexación de archivos no HTML |
Ejemplo | No permitir: /private/ | X-Robots-Tag: noindex | |
Impacto en el SEO | Detiene el rastreo de bots, pero no impide la indexación si se vincula a otro lugar | Impide que una página se indexe y aparezca en los resultados de búsqueda | Garantiza que los archivos que no son HTML no se indexen |
Mejor caso de uso | Bloquear motores de búsqueda de directorios enteros | Evitar que páginas específicas aparezcan en los resultados de búsqueda | Controle la indexación de archivos PDF, imágenes y otros archivos |
6 Sintaxis común de robots.txt
Entender robots.txt es más fácil cuando conoces sus reglas básicas. Estas sencillas reglas ayudan a administrar cómo funcionan los bots de los motores de búsqueda con su sitio web:
- Agente de usuario: Esta regla indica para qué bot o rastreador son las siguientes directrices.
- Prohibir: Esta regla indica a los bots que no visiten archivos, carpetas o páginas específicas de su sitio que puedan incluir ciertas expresiones regulares.
- Conceder: Esta regla permite a los bots rastrear ciertos archivos, carpetas o páginas.
- Mapa del sitio: Esta regla dirige a los motores de búsqueda a la ubicación del mapa del sitio XML de su sitio web.
- Retraso de rastreo: Esta regla pide a los bots que rastreen tu sitio más lentamente. Pero no todos los motores de búsqueda siguen esta regla.
- Noindex: Esta regla solicita a los bots que no indexen algunas páginas o partes de su sitio. Sin embargo, el apoyo de Google a la regla noindex en robots.txt es inconsistente.
1. Directiva de agente de usuario
La regla ‘User-agent’ es importante para su archivo robots.txt. Muestra a qué bot o rastreador se aplican las reglas. Cada motor de búsqueda tiene un nombre único llamado ‘agente de usuario’. Por ejemplo, el rastreador web de Google se llama a sí mismo ‘Googlebot’.
Si solo quieres dirigirte a Googlebot, escribe:
User-agent: Googlebot
Puede escribir diferentes agentes de usuario por separado, cada uno con sus propias reglas. También puede usar el comodín ‘*’ para hacer que las reglas se apliquen a todos los agentes de usuario.
2. No permitir robots.txt directiva
La regla «No permitir» es muy importante para decidir qué partes de su sitio web deben ocultarse de los motores de búsqueda. Esta regla les dice a los bots de los motores de búsqueda que no miren ciertos archivos, carpetas o páginas de su sitio.
Bloqueo de un directorio
Por ejemplo, puedes usar la regla «No permitir» para evitar que los bots ingresen al área de administración de tu sitio web:
User-agent: *
Disallow: /admin/
Esto mantendrá todas las URL que comiencen con ‘/admin/’ alejadas de todos los bots de los motores de búsqueda.
Uso de comodines
User-agent: *
Disallow: /*.pdf$
Con el comodín ‘*’, puede bloquear todos los archivos PDF de su sitio web. Recuerde revisar su archivo de robots.txt después de realizar cambios para asegurarse de no bloquear ninguna parte importante del sitio.
3. Directiva Permitir
«No permitir» bloquea el acceso a ciertas áreas de un sitio web, mientras que la directiva «Permitir» puede hacer excepciones en estas áreas bloqueadas. Funciona junto con ‘Disallow’ para permitir que se acceda a archivos o páginas específicas incluso cuando un directorio completo está bloqueado.
Piensa en un directorio que tenga imágenes. Si quieres que Google Imágenes vea una imagen especial en ese directorio, puedes hacerlo de la siguiente manera:
User-agent: Googlebot-Image
Allow: /images/featured-image.jpg
User-agent: *
Disallow: /images/
En este caso, primero está permitiendo que Googlebot-Image acceda a ‘featured-image.jpg’. A continuación, bloquea todos los demás bots para que no vean el directorio ‘/images/’.
4. Directiva de mapa del sitio
La directiva ‘Sitemap’ indica a los motores de búsqueda dónde encontrar el mapa del sitio XML. Un mapa del sitio XML es un archivo que muestra todas las páginas clave de tu sitio. Esto hace que sea más fácil para los motores de búsqueda rastrear e indexar su contenido.
Añadir tu mapa del sitio a tu archivo de robots.txt es fácil:
Sitemap: https://www.[yourwebsitename].com/sitemap.xml
Asegúrate de cambiar ‘https://www. [yourwebsitename].com/sitemap.xml’ a la URL real de tu mapa del sitio. Puedes enviar tu mapa del sitio a través de Google Search Console. Pero ponerlo en su archivo de robots.txt garantiza que todos los motores de búsqueda puedan encontrarlo.
5. Directiva de retraso de rastreo
La directiva ‘Crawl-delay’ controla la rapidez con la que los motores de búsqueda rastrean su sitio web. Su objetivo principal es evitar que su servidor web se ocupe demasiado cuando muchos bots intentan acceder a las páginas al mismo tiempo.
El tiempo de «retraso de rastreo» se mide en segundos. Por ejemplo, este código le dice a Bingbot que espere 10 segundos antes de lanzar otra solicitud:
User-agent: Bingbot
Crawl-delay: 10
Tenga cuidado al establecer retrasos de rastreo. Un retraso demasiado largo puede perjudicar la indexación y la clasificación de su sitio web. Esto es especialmente cierto si tu sitio tiene muchas páginas y se actualiza regularmente.
Nota: El rastreador de Google, Googlebot, no sigue esta directiva. Pero puede ajustar la tasa de rastreo a través de Google Search Console para evitar la sobrecarga del servidor.
Lea también: Cómo verificar la propiedad del sitio web en Google Search Console
6. Directiva Noindex
El comando ‘noindex’ impide que los motores de búsqueda almacenen páginas específicas de su sitio web. Pero ahora, Google no apoya oficialmente esta regla.
Algunas pruebas muestran que ‘noindex’ en robots.txt aún puede funcionar. Pero no es una buena idea depender solo de este método. En su lugar, puede usar etiquetas meta robots o el encabezado HTTP X-Robots-Tag, para un mejor control sobre la indexación.
¿Por qué robots.txt es importante para el SEO?
Un archivo robots.txt bien configurado es una herramienta sólida para el SEO. Este archivo afecta a la forma en que Google y otros motores de búsqueda encuentran, navegan y registran el contenido de su sitio web. A su vez, afecta a la forma en que se ve y clasifica tu sitio.
1. Optimiza el presupuesto de rastreo
El presupuesto de rastreo es el número de páginas que el robot de Google indexará en tu sitio web en un tiempo determinado. Si optimizas bien tu presupuesto de rastreo, Google se centrará en tu contenido importante.
Puede usar robots.txt para bloquear a Google para que no visite páginas innecesarias y dedicar más tiempo a su contenido valioso.
2. Bloquea páginas duplicadas y no públicas
El contenido duplicado es un problema común que puede dañar tu SEO. Confunde a los motores de búsqueda y debilita la autoridad de su sitio web.
Con robots.txt, puede bloquear el acceso a páginas duplicadas, como versiones PDF o contenido más antiguo. De esta manera, los motores de búsqueda pueden centrarse en las versiones originales y más importantes de sus páginas.
Lea también: Qué es el contenido duplicado: cómo detectarlo y prevenirlo
3. Ocultar recursos
Ocultar archivos CSS o JavaScript de los motores de búsqueda puede parecer una buena idea para administrar el presupuesto de rastreo de su sitio web. Pero no lo es.
Los motores de búsqueda utilizan estos archivos para mostrar correctamente sus páginas y comprender cómo funciona su sitio web. Si bloqueas estos archivos, los motores de búsqueda pueden tener dificultades para evaluar la experiencia del usuario de tu sitio web. Esto perjudica tu posicionamiento en las búsquedas.
Cómo usar robots.txt no permitir todo para los motores de búsqueda
Puedes comprobar el archivo de robots.txt de tu sitio simplemente añadiendo «robots.txt» al final de una URL. Por ejemplo, https://www.bluehost.com/robots.txt. Veamos cómo puede configurar el archivo robots.txt usando Bluehost File Manager:
1. Acceda al Administrador de archivos
- Inicie sesión en su administrador de cuentas de Bluehost.
- Ve a la pestaña «Hosting» en el menú de la izquierda.
- Haga clic en ‘Administrador de archivos’ en la sección ‘Enlaces rápidos’.
2. Localice el archivo robots.txt
- En el ‘Administrador de archivos’, abra el directorio ‘public_html’, que contiene los archivos de su sitio web.
- Busque el nombre de archivo ‘robots.txt’ en este directorio.
3. Crea el archivo robots.txt (si no existe)
Si el archivo robots.txt no está presente, puede crearlo. A continuación, te explicamos cómo hacerlo:
- Haga clic en el botón ‘+ Archivo’ en la esquina superior izquierda.
- Asigne al nuevo archivo el nombre ‘robots.txt’. Asegúrese de que esté colocado en el directorio ‘/public_html’.
4. Edita el archivo robots.txt
- Haga clic con el botón derecho en el archivo ‘robots.txt’ y seleccione ‘Editar’.
- Se abrirá un editor de texto que le permitirá agregar o modificar directivas.
5. Configurar robots.txt para no permitir motores de búsqueda
Para controlar cómo interactúan los motores de búsqueda con su sitio, puede agregar directivas específicas al archivo robots.txt. Estas son algunas configuraciones comunes:
- «No permitir que todos» los motores de búsqueda accedan a todo el sitio: Para evitar que todos los bots de los motores de búsqueda rastreen cualquier parte de tu sitio, añade las siguientes líneas:
User-agent: *
Disallow: /
Esto indica a todos los agentes de usuario (indicados con el asterisco *) que no accedan a ninguna página de su sitio.
- No permitir motores de búsqueda específicos de una carpeta específica: Si desea evitar que el bot de un motor de búsqueda en particular rastree un directorio específico, especifique el agente de usuario del bot y el directorio:
User-agent: Googlebot
Disallow: /example-subfolder/
Este ejemplo bloquea el acceso del bot de Google al directorio /example-subfolder/.
- «No permitir todos» los bots de directorios específicos: Para bloquear todos los bots de ciertos directorios, enumérelos de la siguiente manera:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Esta configuración impide que todos los agentes de usuario accedan a los directorios /cgi-bin/, /tmp/ y /junk/.
Consideraciones importantes antes de usar robots.txt No permitir todo
Es importante cómo y cuándo utilizas «No permitir todo» en tu archivo robots.txt, ya que puede afectar seriamente al SEO de tu sitio. Aquí hay algunas cosas que debe tener en cuenta antes de usar robots.txt No permitir todo.
1. Finalidad del fichero robots.txt
Antes de cambiar su archivo robots.txt, necesita saber para qué sirve. El archivo robots.txt no pretende ser una herramienta de seguridad ni ocultar su sitio web de ninguna amenaza. Si tiene contenido confidencial, es mejor usar métodos más seguros, como la protección con contraseña , en lugar de solo usar robots.txt.
2. Impacto en la presencia del índice
El uso de robots.txt No permitir todo puede afectar seriamente la forma en que su sitio web se muestra en los motores de búsqueda. Cuando evite que los bots de los motores de búsqueda visiten su sitio, eventualmente eliminarán sus páginas de su índice. Como resultado, el tráfico de la Búsqueda de Google disminuirá drásticamente.
3. Impacto en la equidad de los enlaces
La equidad de enlaces (o link juice) es muy importante para posicionarse bien en SEO. Cuando los sitios web confiables se vinculan a sus páginas, comparten parte de su autoridad. Pero si usas robots.txt No permitir todo para bloquear los bots de los motores de búsqueda, también detienes el flujo de equidad de enlaces.
4. Riesgo de accesibilidad pública
Robots.txt archivos son de acceso público. Cualquiera puede ver qué parte de su sitio web está restringida a los motores de búsqueda. Para una mejor seguridad, utilice la autenticación del lado del servidor, firewalls, métodos de bloqueo de IP o coloque contenido confidencial en directorios seguros.
5. Evita errores de sintaxis
Un pequeño error de sintaxis en el archivo robots.txt puede provocar un rastreo no intencionado. Esto puede impedir que los motores de búsqueda accedan a páginas importantes o no bloquear áreas no deseadas.
Para evitarlo, compruebe siempre la sintaxis y la estructura antes de implementar los cambios. También puede utilizar un verificador de sintaxis en línea o herramientas de prueba para identificar cualquier error.
6. Archivo de robots.txt de prueba
Las pruebas periódicas ayudan a confirmar que no estás bloqueando inadvertidamente contenido esencial o dejando secciones importantes de tu sitio sin protección. También garantiza que su archivo de robots.txt siga siendo una parte efectiva de la estrategia de SEO de su sitio web.
Lea también: Cómo optimizar el contenido para SEO en WordPress
Reflexiones finales
Dominar robots.txt es una habilidad clave para los propietarios de sitios web y los SEO. Cuando entiendas cómo funciona, puedes ayudar a los motores de búsqueda a encontrar tu contenido importante. Esto puede conducir a una mejor visibilidad, clasificaciones de búsqueda más altas y más tráfico orgánico.
Pero use robots.txt Rechazar todo con mucho cuidado. Puede tener efectos importantes en su SEO a largo plazo. Si sigues las mejores prácticas, revisas tu archivo de robots.txt con frecuencia y te mantienes al día con las actualizaciones de los motores de búsqueda, puedes aprovechar al máximo robots.txt. Esto ayudará a optimizar su sitio web para el éxito.
Preguntas frecuentes
«No permitir todo» en robots.txt bloquea a todos los bots de los motores de búsqueda para que no rastreen ninguna parte de su sitio.
Robots.txt ayuda a los rastreadores web a comprender qué páginas indexar. Esto afecta a tu visibilidad en la Búsqueda de Google y a tu posicionamiento.
El uso de robots.txt No permitir todo puede eliminar sus páginas de los resultados de búsqueda, lo que provoca una pérdida de tráfico y daños en el SEO de los que se tarda en recuperarse.
Sí, usar ‘No permitir todo’ puede dañar tu SEO. Puede hacer que su sitio sea difícil de encontrar en Google y afectar su visibilidad en Google Search Console.
Para revertir la directiva «No permitir todo»:
1. Elimine ‘Disallow: /’ del archivo robots.txt.
2. Envíe el archivo robots.txt actualizado en Google Search Console.
3. Vuelva a enviar el mapa del sitio XML para ayudar a los motores de búsqueda a redescubrir las páginas más rápido.
4. Supervise Google Search Console en busca de errores de rastreo.
No, robots.txt No permitir todo no es una buena manera de mantener seguro el contenido privado. Es mejor utilizar opciones de seguridad sólidas, como contraseñas, para la información confidencial.
Revisa y actualiza tu archivo de robots.txt después de rediseñar tu sitio web, mover contenido o realizar cambios importantes en el diseño de tu sitio. Asegúrate de que coincida con tu estrategia de SEO actual y de que tu mapa del sitio XML esté enlazado correctamente.