
Cómo crear un archivo robots.txt en WordPress
Agente de usuario: *Nota:El signo de libra (#) denota el comienzo de un comentario.3. Establezca reglas en su archivo Robots.txtUn archivo robots.txt se lee en grupos. Un grupo especificará quién es el agente de usuario y tendrá una regla o directiva para indicar a qué archivos o directorios puede o no puede acceder el agente de usuario: Las arañas web procesan los grupos de arriba a abajo. Como se ha mencionado antes, acceden a cualquier página o directorio que no esté explícitamente configurado como disallow. Por lo tanto, añada Disallow: / debajo de la información del agente de usuario en cada grupo para bloquear esos agentes de usuario específicos para que no rastreen su sitio web.# Ejemplo de cómo bloquear DuckDuckBot
Disallow: /https://page.yourdomain.com/robots.txtIf si desea bloquear un directorio, siga el mismo proceso añadiendo una barra diagonal y el nombre del directorio, pero termine con otra barra diagonal.# Ejemplo
Disallow: /images/Finalmente, si desea que todos los motores de búsqueda recojan información sobre todas las páginas de su sitio, puede crear una regla de permiso o de rechazo, pero asegúrese de añadir una barra diagonal cuando utilice la regla de permiso. A continuación se muestran ejemplos de ambas reglas.# Ejemplo de allow para permitir a todos los crawlers
Cómo crear un archivo Robots.txt en WordPress
Agente de usuario: *Nota:El signo de libra (#) denota el comienzo de un comentario.3. Establezca reglas en su archivo Robots.txtUn archivo robots.txt se lee en grupos. Un grupo especificará quién es el agente de usuario y tendrá una regla o directiva para indicar a qué archivos o directorios puede o no puede acceder el agente de usuario.Estas son las directivas utilizadas: Los rastreadores web procesan los grupos de arriba a abajo. Como se ha mencionado antes, acceden a cualquier página o directorio que no esté explícitamente configurado como disallow. Por lo tanto, añada Disallow: / debajo de la información del agente de usuario en cada grupo para bloquear esos agentes de usuario específicos para que no rastreen su sitio web.# Ejemplo de cómo bloquear DuckDuckBot
Disallow: /https://page.yourdomain.com/robots.txtIf si desea bloquear un directorio, siga el mismo proceso añadiendo una barra diagonal y el nombre del directorio, pero termine con otra barra diagonal.# Ejemplo
Disallow: /images/Finalmente, si desea que todos los motores de búsqueda recojan información sobre todas las páginas de su sitio, puede crear una regla de permiso o de rechazo, pero asegúrese de añadir una barra diagonal cuando utilice la regla de permiso. A continuación se muestran ejemplos de ambas reglas.# Ejemplo de allow para permitir a todos los crawlers
¿Qué es Robots.txt y cómo crear un archivo Robots.txt?
Bloquear páginas no públicas: A veces tiene páginas en su sitio que no quiere que se indexen. Por ejemplo, puede tener una versión de una página en fase de pruebas. O una página de inicio de sesión. Estas páginas deben existir. Pero no quiere que personas al azar aterricen en ellas. Este es un caso en el que se utiliza robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
Evitar la indexación de recursos: El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean indexadas. Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como los PDF y las imágenes. Ahí es donde entra en juego robots.txt.
Además, si tiene miles de páginas que desea bloquear, a veces es más fácil bloquear toda la sección de ese sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.
Fuera de estos tres casos extremos, recomiendo utilizar las meta directivas en lugar de robots.txt. Son más fáciles de implementar. Y hay menos posibilidades de que ocurra un desastre (como bloquear todo el sitio).
Cómo optimizar el Robots.txt de WordPress en 2021
Bloquee las páginas no públicas: A veces tienes páginas en tu sitio que no quieres que se indexen. Por ejemplo, puedes tener una versión de una página en fase de pruebas. O una página de inicio de sesión. Estas páginas deben existir. Pero no quiere que personas al azar aterricen en ellas. Este es un caso en el que se utiliza robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
Evitar la indexación de recursos: El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean indexadas. Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como los PDF y las imágenes. Ahí es donde entra en juego robots.txt.
Además, si tiene miles de páginas que desea bloquear, a veces es más fácil bloquear toda la sección de ese sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.
Fuera de estos tres casos extremos, recomiendo utilizar las meta directivas en lugar de robots.txt. Son más fáciles de implementar. Y hay menos posibilidades de que ocurra un desastre (como bloquear todo el sitio).