Robots.txt – indexación del sitio web

Página 1 de 1 1
Moderador del foro: ZorG

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 1 | 4:40 PM 2009-02-06

Con ayuda con el robot.txt estándar un sitio web se indexa más correcto. La web está compuesta de tal manera a que se vayan indexando sólo las páginas que contengan la información, y no todas las páginas seguidas (por ejemplo: página de entrada o de registro). Así que los sitios web de los usuarios de uCoz se indexan rápido y obtienen un nivel de prioridad más alto al comparar con los sitios donde se realiza la indexación de todo el contenido, con toda basura y las páginas innecesarias inclusive.

NOSOTROS RECOMENDAMOS INSISTENTEMENTE A QUE NO SE SUSTITUYA EL ARCHIVO ESTÁNDAR robots.txt POR UN SUYO . Pueden estar seguros de que de nuestra parte hacemos TODO LO POSIBLE a que las webs de nuestros usuarios se vayan desarrollando cuánto más rápido. ¡Ese es el lema de uCoz!

Ese es el robots.txt estándar

Quote

Para una web nueva existe una especie de cuarentena cuando es imposible todo tipo de regulación del archivo robots.txt. Con un alto índice de frecuentación, la cuarentena suele durar 2 semanas máximo. Los sitios poco visitados están en cuarentena 30 días. Al efectuar el pago de cualquier servicio adicional, cesa la cuarentena inmediatamente.

El archivo robots.txt es de sistema y se ajusta a tu sitio web, no requiere una modificación alguna. Pero si lo quieres sustituir por un tuyo, hay crear en el bloc de notas o cualquier editor de texto un archivo de texto llamado robots.txt con un contenido requerido y cargar este archivo en la raíz de la web con ayuda del gestor de archivos o acceso de FTP.

La dirección del archivo robots.txt es siguiente – http://dirección_de _tu_web /robots.txt

El archivo robots.txt de la web en cuarentena se ve así:

Quote

User-agent: UNetBot
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat

User-agent: *
Disallow: /

No se indexan los informadores pues exponen una información que existe YA en el sitio web. Por regla general ya está indexada esta información allá donde está inscrita.

PREGUNTA:	Casualmente se ha deteriorado el archivo robots.txt. ¿Qué debo hacer?
RESPUESTA:	Elimínalo. Nuestro archivo se pondrá automáticamente (se comprueba durante la demanda si lo tiene el usuario. Si no, se regresa nuestro archivo estándar). Si no hay su archivo robots.txt, el servidor web mismo pondrá el archivo estándar.

PREGUNTA:	La cuarentena de los sitios web poco visitados dura 2 meses. ¿No es mucho? Es que el sitio no puede estar frecuentado si lo ignoran todos los buscadores.
RESPUESTA:	Se da ese tiempo para hacer una web que sea interesante para la gente, para llenarla con una información original y singular, para crear un diseño único en su clase ... Entonces dentro de 2 meses un buscador lo visita para indexar las páginas y no lo bota pues el sitio web está llenado con la información que es interesante para los demás.

PREGUNTA:	¿Es posible permitir en robots.txt la indexación del álbum de fotos? Es que mucha gente viene buscando algo por las imágenes.
RESPUESTA:	Es poco probable que las imágenes de tus álbumes de fotos sean accesible para la indexación, por eso no hay sentido en este permiso. Pero si hay un deseo – ¡por favor!

PREGUNTA:	¿Cómo se hace la prohibición a indexar sitio espejo?
RESPUESTA:	Lee sobre los espejos. Hace falta inscribir su host en robots.txt, entonces será principal. Todo lo demás será “desespejeado”. Ahora se “desepejean” de predeterminado los dominios adjuntados.

PREGUNTA:	Google escribe: “Red no disponible. No se puede acceder al archivo robots.txt. Al intentar acceder a su archivo de Sitemap ha ocurrido un error. Asegúrese de que Sitemap cumple con nuestras directrices y se puede visitar en la ubicación especificada y, a continuación, volver”. Aunque robots.txt funciona bien y Sitemap es accesible.
RESPUESTA:	Encuentra el programa GsiteCrawler e indexa toda tu web con ésta. Luego guarda todo en el archivo sitemap.xml.gz y envía a Google. Lo recibe dentro de unos 2-4 días y máximo dentro de una semana lo empezará a indexar.

PREGUNTA:	¿Se puede reducir el período de cuarentena cuando la asistencia es baja?
RESPUESTA:	Sí, es posible. Sólo hay que pagar uno de los servicios adicionales.

PREGUNTA:	¿Hay un sentido de registrar una web en los buscadores hasta la expiración del plazo de cuarentena?
RESPUESTA:	No. No se percibirá.

PREGUNTA:	¿Se puede eliminar el robot.txt corriente?
RESPUESTA:	Es imposible eliminar el archivo – es de sistema. Se puede poner un suyo, entonces se expondrá este. Pero no será mejor. A propósito, durante la cuarentena es imposible sustituir el archivo.

PREGUNTA:

Tengo en robots.txt:

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /news/0
Disallow: /publ/0
Disallow: /blog/0
Disallow: /forum/0
Disallow: /photo/0
Disallow: /gb/0
Disallow: /faq/0
Disallow: /load/0
Disallow: /board/0
Disallow: /dir/0
Disallow: /main/
Disallow: /admin/

¿Se indixa la web ahora?

RESPUESTA:

El robots estándar permite indexar el sitio web más óptimo y no ensuciar con basura los sistemas de búsqueda. La franca, es comprensible que no hay sentido ninguno que la página de entrada o de registro sea sido indexada miles de ves. En cuanto a uCoz, hemos configurado el robots que no permite indexar páginas innecesarias.

PREGUNTA:	¿Qué es “UnetBot”? ¿Un robot de uCoz?
RESPUESTA:	Sí.

PREGUNTA:	Quiero que estas 2 páginas no se indexen: _http://sitioweb.ucoz.com/index/0-4 _http://sitioweb.ucoz.com/index/0-5
RESPUESTA:	Escribe en robots.txt: /index/0-4 /index/0-5 Todo esto se lo puede hacer sólo después de la expiración de la carentena. Estas reglas prohibirán indexar las páginas dadas por completo.

PREGUNTA:	He suspendido mediante robots.txt la indexación de ciertos enlaces, pero éstos se siguen exponiendo. ¿Por qué?
RESPUESTA:	Con ayuda de robots.txt son las páginas que se cierran de la indexación y no enlaces.

PREGUNTA:	He creado un mapa del sitio antes de la expiración de la cuarentena. ¿Necesito ahora modificar mi sitio para la mejor indexación por los buscadores o no?
RESPUESTA:	No, no hace falta. Agrega el mapa al panel de webmaster de Google.

PREGUNTA:	Si adjunto mi dominio a la web que está en cuarentena, ¿seguirá la cuarentena o no?
RESPUESTA:	No, no seguirá: un dominio adjuntado no puede estar en cuarentena.

PREGUNTA:	He añadido mi web en los sistemas de búsqueda Google, Yahoo y unos cuantos más. Ha pasado una semana ya y todavía no hay nadie de allá. ¿Tal vez haya pasado algo con el mapa del sitio o robots. txt?
RESPUESTA:	Hay que dejar una sóla cosa: sitemap o robots, juntos no funcionarán bien.

PREGUNTA:	Expirado el término de la cuarentena, ¿se cambia el archivo robots.txt automáticamente o debe estar cambiado a mano?
RESPUESTA:	Se cambia automáticamente.

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 2 | 6:26 PM 2009-05-12

Indexa tu sitio web en los buscadores antes de que lo publiques

Me he dado cuenta de que la mayoría de artículos sobre SEO (Search Engine Optimization) se enfocan en lo que debes hacer después de lanzar tu sitio web. Y la mayoría de las personas encargadas del lanzamiento del sitio se preocupan más por las palabras clave y las meta etiquetas. Pero casi nadie se percata que pueden tomar ventaja indexando su sitio antes de que sea lanzado. Con una pequeña preparación y unas horas de trabajo es muy fácil ser indexado por Google, Yahoo y MSN antes de tener el sitio funcionando.

La clave para ser indexado es obtener links de sitio que ya han sido indexados. Cuando los buscadores rastrean esos sitios tu link será rastreado también y estarás dentro de su base de datos. Sigue estos cinco sencillos pasos un mes antes del lanzamiento de tu sitio y estarás un paso adelante:

* Registra tu nombre de dominio. Quizá te sorprenda ver cómo muchas personas esperan hasta el último minuto para hacer esto. Registrar tu dominio antes, te asegura el que nadie ta lo gane además de que puedes sumar ventaja al lograr que se indexe.
* Pon una página de inicio. Haz una página de inicio con la leyenda “próximamente”, con tu logotipo, información acerca de tu sitio y una fecha tentativa de lanzamiento. También puedes poner la opción para que los visitantes se registren y sean avisados cuando el sitio sea lanzado, esto te ayuda a tener tu lista de e-mail para mercadotecnia antes de comenzar.
* Inicia un blog y regístralo en Feedburner. Pon un blog en tu sitio por ejemplo www.tusitio.com/blog. No importa la plataforma que utilices para el blog, asegúrate de escribir algunos posts acerca de tu sitio para que la gente pueda especular antes de su lanzamiento y el por qué tu sitio será único.
Antes de escribir tu primer post, registra una cuenta en Feedburner. Y en la opción ‘Publicize’ dentro de tu cuenta asegúrate de tener marcado ‘Ping Shot’. Esto notificará a algunos sitios sobre tu actividad y te ganarás algunos links.
* Escribe unos cuantos artículos y apunta a directorios. No importa la temática de tu sitio, siempre hay algo de que escribir, por ejemplo si tu sitio es para vender autos, puedes escribir un artículo sobre cómo comprar autos.
Después de haber escrito los artículos puedes enviarlos a algunos directorios de artículos cómo Ezine articles o iSnare. Asegúrate de escribir la descripción del sitio y un link de regreso.
* Obtén un link de un sitio ya indexado. Los pasos 3 y 4 deben dar lugar a algunos links de sitios ya indexados. Pero unos links más no vienen nada mal. Cuando lancé mi último sitio, Puse un link desde mi blog personal, el cual ya sabía que estaba indexado. Si tú no tienes esa opción, puedes pedirle a alguien que tenga un blog ya indexado que haga una mención a tu sitio.

El ser indexado antes del lanzamiento de tu sitio web, te da una ventaja en tu SEO y el impacto de tu sitio será más rápido y casi inmediato. así que ¿para qué esperar? recuerda hacer esto un mes antes del lanzamiento.

(tomado de http://www.lawebera.es )

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 3 | 2:02 PM 2009-07-03

Guía Robots.txt

Todos sabemos que la optimización de páginas web para buscadores es un difícil negocio, a veces posicionamos bien en un buscador para una frase clave en particular y asumimos que a todos los buscadores les gustarán nuestras página y por lo tanto estaremos bien posicionados para esa frase clave en cierto número de motores de búsqueda. Desafortunadamente esto sería un caso muy raro. La mayoría de los grandes buscadores difieren en algo, así que lo que te hizo estar bien posicionado en un buscador puede hacerte descender en otro.

Es por esta razón que a alguna gente le gusta optimizar páginas para cada buscador en particular. Normalmente estas páginas serian ligeramente distintas pero esa pequeña diferencia podría marcar distancias cuando se intenta posicionar bien arriba, sin embargo, a causa de que los spiders de los buscadores indexan todas las páginas que encuentran, podrían venir a través de las páginas optimizadas específicamente para ese motor de búsqueda y notar que son muy similares. Por lo tanto, los spiders pueden pensar que estás haciendo spam y harán una de estas dos cosas, eliminarán tu web de su buscador o penalizarán tu web haciéndola bajar de posición.

Que podemos hacer para decirle a Google que deje de indexar ciertas páginas que están pensadas para Altavista, bien, la solución es realmente simple y me sorprende que no se use más entre webmasters que optimizan para cada motor de búsqueda. Se hace usando un archivo robots.txt que reside en tu espacio web.

Un archivo robots.txt es una parte vital de la batalla de cualquier webmaster contra ser baneado o penalizado por el buscador si él o ella diseña distintas página para distintos buscadores.

El archivo robots.txt es simplemente un archivo de texto como sugiere su extensión. Se crea usando un simple editor de texto como Notepad o WordPad, procesadores de texto complicados como Microsoft Word no harían más que corromper el archivo.

Este es el código que necesitar insertar al archivo:

El texto rojo es obligatorio y nunca cambia mientras que el azul lo tienes que cambiar para adaptarlo al motor de búsqueda y a los archivos que quieras evitar.

User-Agent: (Spider Name)
Disallow: (File Name)

el User-Agent es el nombre del spider del buscador y Disallow es el nombre del archivo que no quieres que indexe el spider. No estoy completamente seguro de si el código es sensible a las mayúsculas o no pero sé que ese código funciona, así que, para estar seguro, comprueba que la U y la A están en mayúsculas al igual que la D de Disallow.

Tienes que empezar un nuevo lote de código para cada buscador, pero si quieres multiplicar la lista de archivos no permitidos puedes ponerlos uno debajo de otro.

Por ejemplo -
User-Agent: Slurp(El spider de Inktomi)
Disallow: internet-marketing-gg.html
Disallow: internet-marketing-al.html
Disallow: advertising-secrets-gg.html
Disallow: advertising-secrets-al.html

En el código de arriba he prohibido el acceso al spider de Inktomi a dos páginas optimizadas para Google (internet-marketing-gg.html & advertising-secrets-gg.html) y dos páginas optimizadas para Altavista (internet-marketing-al.html & advertising-secrets-al.html). Si Inktomi tuviera permiso para indexar estas páginas además de las páginas especificas para Inktomi, correría el riesgo de ser eliminado de sus búsquedas o penalizado por eso siempre es buena idea usar un archivo robots.txt

Antes he mencionado que el archivo robots.txt reside en tu espacio web, pero donde de tu espacio web? El directorio raíz es donde hay que subirlo, si lo subes a un subdirectorio no funcionará. Si quieres bloquear ciertos buscadores de indexar ciertos archivos que no residen en tu directorio raiz simplemente tienes que apuntar al directorio correcto y listar el archivo como otro cualquiera, por ejemplo -

User-Agent: Slurp (El spider de Inktomi)
Disallow: directorio/internet-marketing-gg.html
Disallow: directorio/internet-marketing-al.html

Si quisieras prohibir a todos los buscadores de indexar un archivo simplemente tienes que usar el carácter * donde estaría el nombre del buscador. Sin embargo, ten cuidado ya que el carácter * no funcionará en la linea Disallow.

Aquí están los nombres de unos cuantos grandes buscadores, realiza una búsqueda con las palabras 'search engine user agen names' en Google para encontrar más.

Excite - ArchitextSpider
Altavista - Scooter
Lycos - Lycos_Spider_(T-Rex)
Google - Googlebot
Alltheweb - FAST-WebCrawler/

Asegúrate de comprobar el archivo antes de subirlo, ya que probablemente hayas cometido algún pequeño error lo que significaría que tus páginas podrian estar siendo indexadas por buscadores que no quieres que las indexen, o peor aún, que ninguna de tus páginas sea indexada.
Una pequeña nota antes de acabar, tengo listados los nombres de User-Agent de unos cuantos grandes buscadores, pero realmente no vale la pena crear diferentes páginas para más de 6 o 7 buscadores. Se pierde mucho tiempo y los resultados serán similares que si hubieras creado diferentes páginas solo para los 5 primeros, más no siempre significa mejor.

Ahora ya sabes como hacer un archivo robots.txt para dejar de ser penalizado por buscadores. Fácil, ¿verdad? ¡Hasta la próxima!

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 4 | 4:58 PM 2009-07-06

Robots.txt : Todo lo que deberías saber

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan (¡ojo! recomendaciones, no obligaciones). Pero comencemos por el principio.

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:
• Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
• Googlebot-Image, robot indexador de imagenes del buscador de Google.
• Slurp, crawler de indexación del buscador Yahoo!
• noxtrumbot, del buscador Noxtrum.
• Scooter, del buscador Altavista.
Y muchísimos más. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

• Impedir acceso a robots determinados: puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos más tarde.
• Reducir la sobrecarga del servidor: podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
• Prohibir zonas: nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
• Eliminar contenido duplicado: uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
• Fijar mapas del sitio: también es posible acoplar un sitemap para indicar el buen camino a los robots.

¿Y entonces, que hay que hacer? Es muy sencillo.

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en el. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningún robots.txt):

Quote

User-agent: *
Disallow:

En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:
• Disallow: / prohíbe la entrada a todo el sitio.
• Disallow: /foro/ prohíbe la entrada a los documentos del directorio foro.
• Disallow: permite la entrada a todo el sitio.

En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definición es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que están permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Bien, algún ejemplo:

Quote

# Crawler de MSN
User-agent: msnbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/

Este código impide al crawler del buscador de Live (MSN) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp):

Quote

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*

Se está indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artículos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayoría de los blogs, puedes acceder a un mismo artículo por las direcciones:
• blog.com/articulo/titulo, la dirección principal.
• blog.com/2007/04/, el archivo del mes.
• blog.com/articulo/titulo/feed, feed RSS del artículo.
• blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.

Todo esto es contenido duplicado, una de las razones más importantes de penalización para un buscador, a no ser, claro, que te las ingenies para que sólo sea accesible desde una dirección. A la hora de ver los resultados te asombrarás lo bien que estarás quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que queríamos (carpeta pagina o artículos paginados), terminen bloqueando direcciones como /decorar-mi-pagina o /paginas-para-amigos/.

Si revisas estadísticas y demás, también puedes observar que a veces algunos crawlers «se pasan» revisando nuestro sitio, y funden a peticiones a nuestro pobre servidor. Existe una manera de tranquilizar a los robots:

Quote

User-agent: noxtrumbot
Crawl-delay: 30

Con esto le decimos al robot de noxtrum que espere 30 segundos entre cada acceso. Cuidado, porque Crawl-delay no lo soportan todos los crawlers (al menos MSNBot y Slurp si lo soportan, y Googlebot desde el panel de webmasters también).

Finalmente, podemos también incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Quote

Sitemap: http://www.nombredelsitio.com/sitemap.xml

En RobotsTXT.org podrás encontrar documentación oficial si quieres profundizar y en esta búsqueda de Google encontrarás muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu tipo de web. Además, también tienes un validador de robots.txt.

Recordar a todos que con el fichero robots.txt no podemos bloquear los accesos por «fuerza bruta». Robots.txt es una recomendación del webmaster a los buscadores, que como son «robots buenos», las seguirán al pie de la letra.

Existen otros «robots malos» (que buscan direcciones de correos o formularios para hacer SPAM) que no dudarán en acceder a los lugares que hayas prohibido si lo desean. Para bloquear estos, deberemos echar mano al fichero .htaccess, pero eso ya es otra historia...

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 5 | 12:36 PM 2009-11-12

6 razones típicas por las que tu sitio no es indexado

Una de las primeras cosas que hacemos cuando un potencial cliente nos dice la famosa frase: “mi página no aparece en la primera página de los buscadores” es ver la cantidad de páginas indexadas que tiene su sitio. Y lo cierto es que poco sentido tiene que se preocupe de aparecer en la primera página de los buscadores si su portal ni siquiera está indexado.

Normalmente, al hablar de motores de búsqueda nos referimos a Google, y el camino más sencillo y rápido de conocer que es lo que piensa el “gran Google” sobre tu página es realizar esta simple búsqueda en él:

site: www.tusitio.com (donde www.tusitio.com será la dirección de tu página)

Esta consulta te devolverá una lista con todas las páginas que Google ha indexado de tu sitio y de esta forma te resultará fácil calcular el porcentaje de indexación (que no es otra cosa que el número de páginas indexadas en relación al número de páginas totales de tu sitio). Y muy a menudo, cuando realizamos esta prueba comprobamos que Google no ha indexado todas las páginas que debería debido a algunos errores de optimización para motores de búsqueda.

Y estas son algunas de las más comunes:

1- El archivo robots.txt

Es un clásico error de optimización. Si has establecido el archivo robots.txt para inhabilitar completamente el paso a los motores de búsqueda luego no tue quejes de que sigan tus órdenes. Comprueba tu archivo robots.txt y asegúrate que está permitiendo el paso a las arañas de indexación. Sobre todo si encuentras que tu sitio no tiene ninguna página indexada, hazte un favor y asegúrate que en su interior no se encuentra el siguiente código:

Quote

User-agent: *
Disallow: /

Si es así tienes un grabe problema ya que estás indicando a todos los buscadores que no deben indexar tu sitio. Te recomiendo que lo cambies por este código:

Quote

User-agent: *
Disallow:

2- Tu servidor es demasiado lento

Google no te penalizará directamente por que tu servidor responda demasiado lento, pero si lo hará indirectamente. Si al rastrear tu página nota que tu servidor se sobrecarga o responde demasiado lento a sus peticiones abandonará el rastreo para dedicar su tiempo a alguien más. Esto significa que no se rastreará al completo tu sitio antes que el robot de Google abandone tu sitio. Lo que a su vez, se transforma en menor número de páginas indexadas. Pero no podemos culpar a Google, no quiere ser responsable de bloquear tu sitio. A sí que en lugar de ello, antes que bloquear tu sitio prefiere buscar la información en las páginas de tus competidores.

3- Pueden pensar que eres una fuente de spam

Si Google ha decidido que algunos comportamientos de tu sitio no son muy adecuados y están tratando de engañarlo o engañar a sus usuarios, probablemente tu página sea penalizada. Y si intentas aparentar lo que no eres, probablemente será consciente de lo que estás haciendo. A sí que si estas usando este tipo de prácticas para inmediatamente de hacerlo. Limpia tu sitio y envía una solicitud de readmisión a Google. Echarán un vistazo y si has hecho las cosas bien volverán a readmitir tu sitio e indexarte.

También cabe la posibilidad que acabes de comprar el dominio y pagues las consecuencias de una penalización anterior a tu compra. En este caso te aconsejo que intentes descubrir qué es lo que era o parecía tu sitio antes de que tomases el control sobre él. Si estaba involucrado en alguna variedad de PPC poco amistoso con los buscadores puede que tengas graves problemas.

4-Mala Navegación

¿Tu navegación esta diseñada en Flash? ¿El 90% de tus enlaces están rotos o no redirigen correctamente? Bueno, entonces las arañas probablemente no van a ser capaces de acceder a las páginas, ni hablar ya de indexarlas. Si esta es tu situación tienes camino por recorrer….

5-Poner innumerables trabas a las arañas

Puedes poner trabas a las arañas de búsqueda de muchas formas distintas. Podría ser que tu código JavaScript esté ocupando las primeras 2000 líneas de código, que tu sitio requiera cookies o cualquier acción del usuario para poder entrar, que tus URLs sean dinámicas y poco amigables a los buscadores, que tu página de inicio redireccione 7 veces antes de mostrar realmente algo. Todas estas cosas cosas son barreras enormes para una araña hambrienta tratando de llegar a tu contenido. Elimina estas trabas y permite un acceso fácil a los motores de búsqueda. De otro modo ya puedes ir gastándote el dinero en publicidad si quieres que tu sitio tenga algo de visibilidad…

6-Sitio caído con demasiada frecuencia

Si los buscadores intentan con frecuencia visitar tu sitio y este no está disponible, llegará un día en que dejen de intentarlo. No quieren indexar un sitio que no va a cargar cuando los usuarios intenten acceder a él. Asegúrate de que tu sitio Web no tiene problemas de alojamiento y alójalo en un servidor rápido. Si quieres hacer un diagnostico rápido, te recomiendo esta herramienta. Una sencilla y rápida herramienta que te devolverá una traza de las peticiones a tu sitio así como los tiempos de respuesta del servidor, enlaces rotos y posibles recursos no disponibles. Sencilla herramienta pero de gran utilidad.

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 6 | 4:18 PM 2010-02-22

Características de los robots de búsqueda

Indicando a los robots de búsqueda qué documentos de nuestra web deben indexar

Los robots de búsqueda de WWW (también llamados wanderers o spiders) son los programas que buscan las páginas en el World Wide Web indexándolas para los buscadores.

En 1993 y 1994 estos robots entraron en servidores de WWW e indexaron páginas que no debían: documentos personales, documentos confidenciales, duplicación de archivos, información temporal… Estos incidentes hicieron ver la necesidad de establecer los mecanismos necesarios para que los servidores de WWW pudiesen indicar a los robots de búsqueda las piezas a las que les estaba permitido acceder.

El 30 de de junio de de 1994 (robots-request@nexor.co.uk) se llegó a un consenso estándar para trata esta necesidad, alcanzándose una solución operacional.

Lo que sigue no es un estándar oficial promovido por una organización oficial. No es tampoco una obligación que se tenga que cumplir, por lo tanto no es seguro que todos los robots lo sigan. Se tiene que considerar como una facilidad a lo hora de proteger aquellos documentos y archivos que queremos que no indexen los motores de búsqueda.

Para hacer la exclusión se crea un archivo en el servidor que especifica a los robots de búsqueda a qué archivos no tienen acceso y se le llama robots.txt. El robots.txt es un documento sencillo de texto plano, no se debe escribir en HTML, ni incluir expresiones diferentes al estándar ya que los robots no las reconocerán. Un simple documento de texto redactado con el Bloc de Notas de Windows es lo correcto. Debe estar alojado en la raíz del sitio, justo dónde alojamos la página index. http://www.dominio.com/robots.txt

El formato del archivo está constituido por líneas que indican los valores para dos campos únicos: User-agent y Disallow.

Los motores de búsqueda mirarán en la raíz del domino llamando a ese fichero especial "robots.txt" (http://www.dominio.com/robots.txt). El archivo le dice al robot de búsqueda qué archivos puede indexar, a este sistema se le denomina The Robots Exclusion Standard. En caso de que no exista el fichero robots.txt el robot considera que no hay ninguna exclusión y rastreará cualquier página del web site sin excepción.

User-agent
El valor de este campo es el nombre del robot al que permitimos o no el acceso a determinado documento. Ejemplo:

Quote

User-agent: googlebot

Se puede también utilizar el carácter comodín * para especificar que se excluyen todos los robots. Ejemplo:

Quote

User-agent: *

Podemos comprobar los nombres de los User-agent que han visitado el dominio para saber si hay peticiones de ese buscador. La mayoría de los motores de búsqueda importantes tienen nombres cortos para sus spider. Se incluirá una relación con sus características en la parte final de este post.

Si es necesario determinar una política de acceso para varios robots de búsqueda se incluirán tantas líneas cuantos robots necesitemos especificar. Nunca se agruparán en una sola línea. Ejemplo:

Quote

User-agent: googlebot
User-agent: lycos
User-agent: roverdog

Es necesario que exista al menos un registro en el documento para que sea correcto.

Disallow
Es la segunda parte del registro, especifica los documentos y/o directorios que no queremos que indexen los motores de búsqueda. La URL parcial que no debe ser visitada. Por ejemplo, la línea siguiente ordena que no se indexe el documento email.htm:

Quote

Disallow: email.htm

También se pueden especificar directorios. Ejemplo: Para bloquear el directorio cgi-bin de manera que todos sus documentos permanezcan sin indexar en el motor de búsqueda.

Quote

Disallow: /cgi-bin/

Un archivo totalmente vacío para Disallow es exactamente igual cómo si no estuviera presente, por lo menos debe existir una línea de negación Disallow para que el directorio sea correcto.

Una línea en blanco para Disallow indica que todos los archivos pueden ser indexados, se escribiría así:

Quote

Disallow:

Si quisiéramos prohibir el acceso a todos los documentos “help” de nuestra web, tanto al http:www.dominio/cgi/help.htm como al http://www.dominio/help/index.html escribiríamos:

Quote

Disallow: /help

En cambio, si quisiéramos prohibir el acceso a cualquier documento y fichero incluido en la carpeta “help” http://www.dominio/help pero permitir el acceso al documento “help.htm” del fichero "cgi" http://www.dominio/cgi/help.htm , escribiríamos:

Quote

Disallow: /help/

Espacio y comentarios en blanco
Cualquier línea en el robots.txt que comience por # se considera un comentario . El estándar permite comentarios al final de líneas directivas, pero es un estilo poco aconsejable, por ejemplo si escribimos:

Quote

Disallow: email.html # recopilación del formulario

Algún spider no lo interpretaría correctamente e intentaría ignorar el documento email.html # recopilación del formulario.

Lo mejor es poner los comentarios en líneas independientes, por ejemplo:

Quote

# recopilación del formulario
Disallow: email.html

Un espacio en blanco al principio de una línea se permite pero no se recomienda por los mismos motivos, puede que sea mal interpretado por el spider.

Ejemplos de archivo robots.txt
Para permitir que todos los robots visiten todos los archivos del sitio:

Quote

User-agent: *
Disallow:

Para prohibir que todos los spider indexen cualquier documento:

Quote

User-agent: *
Disallow: /

Para evitar que todos los spider indexen nuestros directorios cgi-bin e images:

Quote

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Para prohibir al spider Roverdog, específicamente, que indexe cualquier archivo del sitio:

Quote

User-agent: Roverdog
Disallow: /

Para prohibir a googlebot que indexe el archivo cheese.htm:

Quote

User-agent: googlebot
Disallow: cheese.htm

Para indicar que ningún robot debe visitar cualquier URL que comience con "/cyberworld/map/" o "/tmp/", o "/foo.html":

Quote

User-agent: *
Disallow: /cyberworld/map/
# direccion virtual
Disallow: /tmp/
# pronto los eliminaré
Disallow: /foo.html

Para indicar que ningún robot debe visitar cualquier URL que comience con"/cyberworld/map/", a menos que el robot se llame "cybermapper":

Quote

User-agent: *
Disallow: /cyberworld/map/
# direccion virtual
User-agent: cybermapper
Disallow:

Documentos inaccesibles a todos los robots
Se pueden indicar de dos maneras:

Enumerándolos:

Quote

User-Agent: *
Disallow: /borrador.html
Disallow: /prueba.html

O incluyendo estos documentos en una carpeta llamada "norobots" y redactando el robots.txt así:

Quote

User-Agent: *
Disallow: /norobots/

Los documentos quedarán inaccesibles si tomamos la precaución de asegurarnos que nuestro servidor no está generando un listado del directorio norobots. Sin embargo, configurar un archivo de este tipo no es una garantía de que los documentos no puedan ser alcanzados por atacantes. Y hay que tener claro que el robots.txt es una medida de exclusión para los robots de búsqueda, no una medida de seguridad.

Si los datos que contienen esos ficheros son sensibles: contraseñas de usuarios, datos personales etc… lo más serio es usar además un sistema de autentificación o SSL que asegure la completa privacidad de los documentos.

Un ejemplo real de archivo robots.text es este: [http://www.google.com/robots.txt)

Errores al redactar el robots.txt
Uno de los errores más comunes es poner la sintaxis al revés:

Quote

Disallow: *
User-agent: scooter
Debe ser:
User-agent: scooter
Disallow: *

Otro error es hacer un rechazo múltiple en una línea poniendo en ella múltiples directorios como:

Quote

Disallow: /css/ /cgi-bin/ /images/

Porque la mayoría de los spider malinterpretarán esa línea . Algunos intentarán buscar el directorio /css//cgi-bin//images/ o tendrán en cuenta sólo un directorio olvidándose del resto.

La sintaxis correcta sería:

Quote

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Línea Enders en DOS: Se tiene que editar el robots.txt en el modo de UNIX y y hacer upload siempre en ASCII. Muchos clientes del ftp harán la transformación a la línea enders de Unix automáticamente (seamlessly), pero otros no.

Un error que el estándar permite son los comentarios al final de la línea:

Quote

Disallow: /cgi-bin/ #directorio privado

Tiempo atrás han existido motores que buscaban la línea entera considerando # parte del nombre del directorio. Ahora no se tiene noticia de que alguno se equivoque o no pero ¿ merece la pena arriesgarse en un error semejante por ahorrarnos una línea de código?

El estándar no trata específicamente los espacios de más en las líneas lo considera un mal estilo de escritura, pero tendríamos que preguntarnos una vez más si merece la pena arriesgarnos a ser malinterpretados por algo tan nímio.

En ocasiones el spide interpreta la página de error 404 y las páginas de redireccionamiento como un documento HTML válido. Lo más aconsejable es indicar en el archivo .txt o en los metas tags que este documento no tiene que indexarse.

El estándar determina que solo el User-agent y el Disallow pueden ir con máyusculas, lo que sigue es incorrecto:

Quote

USER-AGENT: EXCITE
DISALLOW:

Otro error común es especificar cada archivo en un directorio como aquí:

Quote

Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Se tiene que especificar con la opción del directorio de esta manera:

Quote

Disallow: /AL
Disallow: /Az

La barra invertida indica al spider el límite del directorio.

No hay que poner nunca Allow sólo Disallow, se rechazar para no permitir. Esto es incorrecto:

Quote

User-agent: Excite
Disallow: /cgi/
allow: /imagen/

Esto es correcto:

Quote

User-agent: Excite
Disallow: /cgi
Disallow:

¿Qué hace un spider cuándo no hay barra invertida cómo aquí?

Quote

User-agent: Excite
Disallow: cgi

Pues que dejará de indexar cualquier extensión de archivos con el nombre cgi y cualquier directorio nombrado cgi. Otro error es poner palabras clave en el directorio robots.txt o editarlo en formato HTML.

Usar etiquetas meta para autorizar a los motores de búsqueda
Se está poniendo muy de moda utilizar las etiquetas META para decir a los spider si se acepta o no que indexen un documento. Es también útil cuando no se tiene acceso al directorio raíz. Algunos motores de búsqueda, tales como Inktomi, obedecen completamente las indicaciones de los Meta Tag. Escribiendo Index, Follow en el []CONTENT[/b] seguirá todos los enlaces del index.

La etiqueta META se coloca en la sección HEAD del HTML. Un formato completamente simple sería (si queremos que no indexen los enlaces del index).

Quote

<HTML>
<HEAD>
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
<META NAME="DESCRIPTION" CONTENT=" Esta página es......">
<TITLE>...</TITLE>
</HEAD>
<BODY>
...

Opciones de las meta tags
La etiqueta CONTENT tiene cuatro opciones; el indice, noindex, follow, nofollow separados por comas.

INDEX especifica que se acepta incluir la web en el índice del buscador.

FOLLOW especifica que se acepta que se indexen también los enlaces existentes en nuestro documento index. No es cierto que los motores de búsqueda sigan los enlaces del index por defecto, Inktomi por defecto sigue la orden índice, nofollow.

Hay también dos órdenes globales que incluyen ambas acciones: all y none

ALL=INDEX, follow y NONE=NOINDEX, nofollow

Combinaciones posibles

Quote

Visit-time
Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan las páginas, por ejemplo:

Quote

# Permitir trabajar a los bots de 2 am a 7:45 am
# Las horas son siempre Greenwitch
Visit-time: 0200-0745
# Un documento CADA 30 minutos
Request-rate: 1/30m
# Combinado: 1 doc cada 10 minutos
# y solo de una a 5 tarde
Request-rate: 1/10m 1300-1659

(continuará)

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 7 | 4:18 PM 2010-02-22

¿Qué es un WWW robot?
Usando nuestra terminología de "andar por casa" son robots que entran en todos los servidores de todo el mundo, buscan los documentos que están alojados en ellos, los incluyen en su index y luego nosotros podamos ir a ese index a buscar lo que necesitamos.

¿Qué diferencia hay entre un www robot y mi navegador?
El www robot penetra en el servidor y recupera todos los documentos alojados en él indexándolos para su Agente, nosotros con nuestro navegador sólo podemos acceder a los documentos que el servidor quiere facilitarnos.

¿Qué es un Agente?
Podemos distinguir tres tipos de agentes:
• Agente autónomo: Es un programa que "viaja" entre los sitios web decidiendo por él mismo qué hacer. Sólo puede viajar entre sitios ubicados en servidores especiales. Este tipo de agentes no está muy difundido en el área de internet.
• Agente inteligente: Programas que ayuda al usuario, por ejemplo: a elegir productos, a rellenar formularios o a encontrar determinada cosa. Generalmente no tiene mucha tarea en la red.
• Agente de usuario: Es un nombre técnico para programas que ejecutan tareas para un usuario en la red. Un ejemplo de ellos son: Netscape Navigator, Microsoft Internet Explorer, y Email User-agent como Qualcomm Eudora etc.

¿Qué diferencia hay entre un www robot y un directorio?
Los Directorios no poseen robots, están operados por humanos y no recuperan automáticamente los enlaces incluídos en las páginas web, sino que sólo se limitan a hallar lo que las personas manualmente incluyen en ellos. Tienen una ventaja respecto a los robots , pueden clasificar por secciones la temática de las web al hacerse mediante un proceso manual.

¿Cuántas clases de ww robots hay?
A los robots se les suele denominar "Web Wanderers", "Web Crawlers", o "Spiders" hay quién piensa que son virus pero no es así, un robot simplemente visita los sitios y extrae los enlaces que están incluidos dentro de estos.
• Arañas (Spiders): Es un robot, pero otorga resultados más fríos.
• Gusanos (Worms): Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.
• Orugas (Web crawlers): Es lo mismo que un robot, pero un tipo específico de robot.
• Hormigas (WebAnts): Cooperativa de robots.

¿Qué es un Search Engine?
Un Search Engine es un programa que busca en una determinada base de datos. En el contexto del Web la palabra "Search Engine" se utiliza para denominar las formas de búsqueda que se realizan en una bases de datos de documentos HTML recopilados por un determinado robot. Para entendernos, "search engine" son Google, Altavista etc… y cada uno tiene su www robot de búsqueda.

Ventajas de la existencia de estos robots de búsqueda
La principal ventaja es su capacidad de indexar documentos, ya no sólo por el título o las palabras clave que queramos asignarles, si no por la capacidad de buscar en TODO el documento cómo tienen algunos. Es fácil hacer una prueba, vas a google cuál pitonis@ modern@, pones entre comillas una frase de una canción que no sabes ni quién la canta ni cómo se llama, pero de la que en algún momento escuchaste el estribillo, por ejemplo: " baila morena" , y nuestro " Oráculo" , con enorme generosidad, informa de todos los documentos en los que está incluida la frase:

2.860 resultados en 0, 14 segundos de búsqueda, ¿cómo no amarlo?.

Desventajas de los robots de búsqueda
Evidentemente nadie es perfecto, algunas desventajas tenía que tener el invento.

Los robots de búsqueda, con su afán de indexar, colapsaron ciertas redes en el pasado ya que cuando un www robot investiga un servidor adopta la apariencia de usuarios que visitan las web alojadas en él y cuanta más información exista en el servidor, más usuarios creará el robot para analizarla. Hoy en día existen mecanismos para que no se produzcan y la información suficiente para diseñar robots más eficientes.

No hay que perder de vista que son máquinas, diseñadas con los conceptos más pluscuamperfectos del momento, pero máquinas que no son capaces de discernir entre un documento privado, un documento que sólo le interesa a mi grupo de trabajo, un borrador de una tarea pendiente, un documento temporal….. Lo indexan todo y este fue el motivo por el que se crearon los archivos "robots.txt", para indicar a los robots de búsqueda qué documentos tenían o no tenían que añadir a su base de datos.

¿Cómo decide un robot las webs qué va a visitar?
Depende del robot y de su estrategia de búsqueda. Por lo general empiezan con una lista histórica de URLs, especialmente de aquellos documentos con muchos enlaces a otras webs y con aquellos sitios populares en el Web, es decir, a los que apuntan muchos enlaces de otras webs.

La mayoría de los buscadores permiten también que se ingrese una dirección manualmente de manera que después la visite el robot para su indexación definitiva.

Usan también otros recursos como listas de correo, grupos de discusión, etc. Todo esto les da un punto de partida para comenzar a seleccionar url’s para visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.

¿Cómo indexa un documento el robot de búsqueda?
Depende también del robot: algunos ponen en su índice los títulos de los documentos HTML, o los primeros párrafos del texto, o analizan el HTML entero y ponen en un índice todas las palabras, otros analizan la etiqueta del META, o los textos de las imágenes…

¿Cómo sé si un robot de búsqueda me ha visitado?
Comprobando los registros del servidor: Si existen solicitudes de muchos documentos en un cortísimo espacio de tiempo, imposible de realizar de forma manual, seguramente será porque un robot ha visitado el sitio. También se puede deducir cuantos robots nos han visitado comprobando las solicitudes realizadas al archivo robots.txt.

¿Por qué las solicitudes al archivo robots.txt orientan sobre las visitas realizadas por los robots de búsqueda a mi sitio?
Los robots que van buscando páginas para indexar en la base de datos de su Agente, lo primero que hacen al visitar un sitio es llamar al fichero robots.txt. Lo primero que busca el robot cuando llega a nuestra web es el fichero http//www.dominio.com/robots.txt. El número de peticiones que reciba este fichero y que constará en las estadísticas, nos indicará el número de veces que hemos sido visitados por un robot de búsqueda.

Un robot me ha visitado ¿qué tengo que hacer?
Nada, déjate querer :-). él trabaja de manera automática y sabe perfectamente qué tiene que hacer.

¿Cómo evito que un robot indexe mi sitio?
Creando un archivo llamado robots.txt y alojándolo en la raíz del sitio, ahí mismo dónde situamos la página index. En él se especifican las zonas del sitio que los robots NO TIENEN que indexar, no se especifican NUNCA las zonas que sí queremos que aparezcan en la base de datos de los buscadores, sólo indicaremos lo que NO QUEREMOS que un robot determinado o todos los robots de búsqueda indexen. Mucho ojo con este dato.
Pero si hago una relación de los archivos que no quiero que un robot añada a su índice, le estoy diciendo al resto de la gente qué documentos privados tengo. Los hago invisibles a los robots de búsqueda pero accesibles tecleando la dirección.

La manera óptima de organizar un sitio es incluir en un directorio secundario todos los documentos y archivos que no queremos que indexen los buscadores, prohibir la entrada de los robots en ese directorio y configurar el servidor con unas buenas medidas de seguridad en el caso de tener documentación sensible. El robots.txt no es una medida de seguridad que garantiza la privacidad de los documentos, para eso existen otros métodos, el robots.txt es el resultado de un consenso para evitar que los robots añadan automáticamente a sus índices esos documentos.

Mi proveedor no me da esa posibilidad ¿Existe otra manera para indicar a los robots qué zonas pueden indexar de mi sitio?
Si, en los META de los documentos.

¿Por qué encuentro llamadas /robots.txt en mis ficheros?
Ya he comentado que lo primero que hace un robot cuando entra en nuestro sitio siguiendo el estándar de exclusión, es una llamada al fichero robots.txt. Seguramente son esas las llamadas, son los robots que intentan ver si se ha especificado alguna norma para el acceso a los ficheros.

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 8 | 5:06 PM 2010-08-12

Domando a los robots de búsqueda: robots.txt

Los robots de búsqueda, (también llamados crawlers, spiders o indexadores), sirven para leer una página web, recuperar su contenido y seguir los enlaces que el sitio tenga a otras páginas web. Existen tantos robots como buscadores. Con el tiempo se ha desarrollado un protocolo mediante el cual se pueden dar instrucciones a los robots creando así los ficheros “robots.txt”. Este fichero es el que se utiliza para indicar a los robots de rastreo lo que pueden y lo que no pueden hacer en tu sitio web. En este artículo veremos algunos útiles trucos para manejar a estos robots.

Beneficios de un archivo robots.txt
• Impedir acceso a robots determinados: algunos robots solo nos nos darán problemas. De hecho ciertos robots no son ni de buscadores ni amigos.
• Reducir la sobrecarga del servidor: podrás controlar el flujo de rastreo de algunos robots. Muchos de ellos son un descontrol de peticiones que pueden llegar a saturar tu servidor.
• Prohibir el rastreo de algunas zonas de tu web
• Eliminar contenido duplicado o temporal: si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
• Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.

Algunas puntualizaciones
• El robot.txt es un documento de texto normal y corriente
• Solo puede haber un archivo robots.txt en cada sitio web y se tendrá que colocar en la raiz.
• Las urls son sensibles a mayúsculas y minúsculas
• El archivo estará compuesto de diversas directivas agrupadas en relación con el robot al que se aplican.
• Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco.
• El archivo robots.txt solo es necesario si su sitio incluye contenido que no desea que los motores de búsqueda indexen. Si va a permitir la indexación de su sitio por completo, el robots.txt no es necesario (ni siquiera uno vacío).

Establecer el buscador de referencia: User-Agent
La propiedad User Agent se establece el buscador al que quieres hacer referencia, Si quieres establecer que todos los buscadores sigan esas instrucciones, basta con poner el signo * en User-Agent (aunque dado que cada buscador premia unas u otras cosas aveces puede interesar permitir que unos indexen lo que otros no quieres que vean).

Existen tantos robots como buscadores, esta es una lista de algunos de ellos, pero te dejo los spiders mas conocidos:

• Google: Googlebot
• Yahoo: yahoo_slurp
• MSN: msnbot

Bloquear o eliminar páginas: Disallow
La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).
Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.
Siempre tiene que haber un campo Disallow>, pero si lo dejamos vacío indicamos que no contiene restricción ninguna. Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el robot.
• Para bloquear todo el sitio, utilice una barra inclinada.

Quote

User-agent: * # aplicable a todos los robots
Disallow: / # impide la indexacion de todas las paginas

• Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.

Quote

Disallow: /directorio-sintitulo/

• Para bloquear una página, insértala después de la línea Disallow.

Quote

Disallow: /archivo_privado.html

• Para eliminar una imagen de Google Imágenes, añade lo siguiente:

Quote

User-agent: Googlebot-Image
Disallow: /imagenes/perros.jpg

• Para eliminar todas las imágenes de su sitio de Google Imágenes, añada lo siguiente:

Quote

User-agent: Googlebot-Image
Disallow: /

• Para bloquear archivos de un tipo determinado (por ejemplo, .gif), añada lo siguiente:

Quote

User-agent: Googlebot
Disallow: /*.gif$

• Para impedir el rastreo de todo nuestro sitio, permitiendo que se muestren anuncios de AdSense, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Este robot no comparte páginas con el resto de user-agents de Google. Por ejemplo:

Quote

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

• La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?.
• La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?.

Concordancia mediante patrones
Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

• Puede utilizar un asterisco ([]*[/b]) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que comiencen por “privado”:

Quote

User-agent: Googlebot
Disallow: /privado*/

• Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (concretamente, cualquier URL que comience por el nombre de su dominio, seguido de cualquier cadena, signo de interrogación y cualquier cadena):

Quote

User-agent: Googlebot
Disallow: /*?

• Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:

Quote

User-agent: Googlebot
Disallow: /*.xls$

Por último, si quieres profundizar, en RobotsTXT.org encontrarás la documentación oficial, ejemplos, e incluso un validador de robots.txt.

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 9 | 4:06 PM 2010-09-15

UTILIZACIÓN CORRECTA DEL METATAG ROBOTS PARA LOS MOTORES DE BÚSQUEDA

Google nos explicó bien cómo un bot de búsqueda acepta el metatag ROBOTS.

Valores múltiples del content-parámetro
Se recomienda poner todos los valores del content-parámetro en un metatag. Esto lo hará más cómodo para la lectura y reducirá la probabilidad de las contradicciones. Por ejemplo:

Quote

Si una página contiene varios metatags de un mismo tipo, Google los unirá. Por ejemplo:

Quote

Quote

serán comprendidos como

Quote

Si los valores contradicen uno a otro, se tomará en consideración el más estricto. Así pues, si una página contiene los metatags

Quote

Quote

el bot se subordinará al valor NOINDEX.

Valores excesivos del content-parámetro
Por defecto Googe-bot va a indexar la página y todos los enlaces en ésta. Por eso no hay ninguna necesidad de marcar las páginas con los valores del parámetro content INDEX o FOLLOW.

Orientación del metatag ROBOTS directamente a Google-bot
Para presentar instrucciones a todos los motores de búsqueda, hay que configurar el nombre del metatag como “ROBOTS”.
Para presentar instrucciones solamente a Google-bot, el metatag ha de estar llamado “GOOGLEBOT”.

Pero si hay un deseo de crear diferentes instrucciones para diferentes motores de búsqueda, es mejor utilizar metatags especiales para cada motor de búsqueda, o sea, no crear un metatag ROBOTS junto con los específicos para un motor de búsqueda concreto.

Google-bot comprende cualquier combinación sea en mayúscula o minúscula. Por eso cada de los metatags siguientes se interpreta de manera igual:

Quote

Quote

Quote

Si tienes varios valores del content-parámetro, han de estar separados con coma. No importa si hay espacios o no. los metatags siguientes se interpretan de manera igual:

Quote

Quote

Utilización del archivo robots.txt y metatags ROBOTS
En caso de que haya una contradicción entre el archivo robots.txt y el metatag, Google-bot seguirá el más estricto de ellos.

Más concreto: si un usuario bloquea las páginas con robots.txt, Google-bot nunca las escaneará y nunca leerá los metatags de estas páginas.

Si en robots.txt no hay prohibición a indexar la página, perl ésta está bloqueada con ayuda del metatag, Google-bot abre la página, lee los metatags y en el futuro no la indexará.

Valores válidos del content-parámetro del metatag ROBOTS:
- NOINDEX – prohibe la indexación de la página;
- NOFOLLOW – prohibe al Google-bot seguir todos los enlaces en la página;
- NOARCHIVE – evita almacenaje en caché de una copia de la página para su exclusión de los resultados de la búsqueda;
- NOSNIPPET – prohibe la aparición de la descripción de una página en los resultados de la búsqueda, así mismo evita su almacenaje en caché;
- NOODP – bloquea la utilización de la descripción de la página que se toma del servicio dmoz.org para exponer en los resultados de la búsqueda;
- NONE – equivale a “NOINDEX” y “NOFOLLOW”.

Unas cuantas palabras sobre el valor de “NONE”
Como está definido en robotstxt.org, eso quiere decir «NOINDEX, NOFOLLOW»:

Quote

Pero hay web-masters que utilizan este tag para informar a los bots sobre la ausencia de cualesquiera limitaciones y así impremeditadamente bloquean el contenido de las páginas para todos los motores de búsqueda.

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

GUARAGUAO

Mensajes: 2362

Reputación: 81

Mensaje Nº 10 | 5:03 PM 2010-09-15

Robots.txt, nofollow y noindex

Hasta ahora he comentado los trucos y mejoras en tu web para permitir que los buscadores la indexen pero, como es normal, hay zonas o secciones que no queremos que indexen, como el área privada de los usuarios o páginas con el mismo contenido pero menor relevancia.

Pueden ser muchos los motivos por los que no quieras indexar una página o incluso una web entera, por ejemplo que está en BETA, es una página personal o no quieres problemas de contenido duplicado.

Para ello, hay que decirle a los spiders (que son los robots que usan los buscadores para rastrear tu web e indexarla), que no lo hagan.

Robots.txt
Si quieres que los spiders no rastreen una o varias de tus páginas, la forma mas segura es utilizar un archivo llamado robots.txt, y que no es mas que un simple archivo de texto (que puedes crear con el notepad) en el que se establecen ciertos criterios que informan a los buscadores sobre lo que no deben rastrear.

Para crear el robots.txt basta con crearlo usando el notepad y el siguiente código:

Quote

User-Agent: Googlebot
Disallow: /no-lo-indexes.html
Disallow: /carpeta-no-indexable/
Disallow: /*/subcarpeta-no-indexable/

En User Agent se establece el buscador al que quieres hacer referencia, y bajo el, en cada disallow una url de tu web que no quieres que sea indexada. Si quieres establecer que todos los buscadores sigan esas instrucciones, basta con poner el signo * en User-Agent (aunque dado que cada buscador premia unas u otras cosas aveces puede interesar permitir que unos indexen lo que otros no quieres que vean).

Para conocer los nombres de todos los buscadores busca aquí una lista, yo te dejo los spiders mas interesantes:

• Google: Googlebot
• Yahoo: yahoo_slurp
• MSN: msnbot
• Altavista: Scooter
• Lycos: Lycos_Spider_(T-Rex)

Cuidado al colocar varios spiders y un comodín, ya que los spiders no harán caso de lo que ponga el comodín si tienen su sección propia, de tal manera que lo siguiente permitiría a Google indexar tu web pero al resto de buscadores no:

Quote

User-Agent: *
Disallow: /
User-Agent: Googlebot
Disallow: /carpetita/

Lo mismo sucede si por error te olvidas de poner algo tras el disallow, estarías diciendo que permites que indexen toda la página:

Quote

User-Agent: *
Disallow: /directorio/
Disallow:

Respecto a las páginas que no quieres indexar, puedes colocar archivos, directorios enteros, tipos de archivos, parámetros, etc. Para ello puedes utilizar el asterisco como comodin (que representa uno o varios caracteres indefinidos) y el dólar ‘$’ que indica que la url debe finalizar ahí. Te muestro unos ejemplos:

Quote

User-Agent: *
Disallow: /*/primavera/
Disallow: /*?
Disallow: /*.gif$
Disallow: /*userid=
Disallow: /*/*id=

El anterior robots impediría el acceso al subdirectorio primavera, cualquier URL que contenga un QueryString (o el símbolo ?), los gifs y cualquier url en que se incluya el parámetro userid o subdirectorio en que se incluya el parámetro id.

Si no utilizamos bien el $ podemos tener problemas, ya que sin él se especifica que cualquier URL que empiece por la cadena establecida no sea recorrida por los spiders, pero con él, se establece que deben terminar en eso. De forma que “/usabilidad/” impide el acceso al directorio usabilidad, “/*usabilidad” impide el acceso a cualquier URL que contenga usabilidad y “/*usabilidad$” impide el acceso a cualquier URL que termine en usabilidad. Ahora imaginemos que por error ponemos esto:

Quote

User-Agent: *
Disallow: /*?

Pretendiendo denegar el acceso a las páginas que contengan un QueryString vacío, estaríamos denegando en realidad cualquier página que contenga un QueryString, para lo primero debe ponerse el $ al final, indicando que tras el ? no debe haber nada mas y, si lo hay, entonces sí debe indexarse.

Por último, si lo que buscas es cerrar la web entera a los buscadores, bastaría con poner la barra de la raíz así:

Quote

User-Agent:*
Disallow: /

Nofollow y Noindex
Por otro lado, es posible que en tu página des opción a los usuarios a colocar enlaces y te encuentres con el problema que tuvieron en Wikipedia, y es que todo el mundo metía enlaces a sus webs aprovechando el prestigio de la famosa enciclopedia y empezaba a llenarse de spam hasta que apareció el nofollow, propiedad que sobre un enlace le dice a Google que no lo tenga en cuenta, con lo que ya no puede servir a esos usuarios para incrementar su Page Rank.

Quote

<a href="www.googlecom rel="nofollow">No lo sigas!!</a>
<a href="entrecodigos.com/noindex/" rel="noindex">No lo indexes!!</a>

Además del nofollow, también existe el noindex, que le dice a Google que, aunque si puede seguir ese enlace (y por tanto tener en cuenta la página a la que apunta) no debe indexarla en sus búsquedas, esta etiqueta también puede ponerse en un meta de la página para asegurarse, aunque si pones este meta, recuerda quitar la página del robots.txt, o Google no pasará por la página y no podrá verlo.

Ten en cuenta que aunque le digas a Google en el robots que no rastree una de tus páginas, eso no implica que Google no la pueda indexar, ya que puede que haya un enlace a la misma en otras páginas, por lo que es necesario usar el meta noindex y quitar la página del robots para que vuelva a rastrearla y sepa que no la debe indexar.

Las vírgenes tienen muchas navidades pero ninguna Nochebuena.

piopio

Mensajes: 2

Reputación: 0

Mensaje Nº 11 | 0:25 AM 2011-04-29

Hola un saludo a toda la comunidad de ucoz,mi pregunta es, porque me sale esto en los rastreadores

(Googlebot se encuentra bloqueado para http://celularestuning.ucoz.es/.)

(Bloqueado por la línea 2: Disallow: /
Se ha detectado como directorio; los archivos concretos pueden tener distintas restricciones.)

http://celularestuning.ucoz.es/

Gracias anticipadas a todos biggrin

emmanuelb11

Mensajes: 204

Reputación: 3

Mensaje Nº 12 | 5:08 AM 2011-04-29

si la has creado hace menos de un mes ucoz pone un bloqueo para las web que dura dos semanas o máximo un mes (se quita automaticamente)http://celularestuning.ucoz.es/robots.txt

Compartir es vivir :)

piopio

Mensajes: 2

Reputación: 0

Mensaje Nº 13 | 8:50 PM 2011-04-29

Quote (emmanuelb11)

(se quita automaticamente)

Gracias por tu respuesta smile estoy desendo que me quiten el bloqueo,la pagina lleva mas de 15 dias y tiene cerca de 200 temas,haber si la desbloquean antes del mes y consigo mas adiencia.Un saludo emmanuelb11

Post editado por piopio - Viernes, 2011-04-29, 8:52 PM

emmanuelb11

Mensajes: 204

Reputación: 3

Mensaje Nº 14 | 0:27 AM 2011-04-30

okas saludos cordiales amigo wink

Compartir es vivir :)

Robots.txt – indexación del sitio web

Página 1 de 1
1

Últimos temas

Temas populares