Funciones y estructura de un spider

**thebosz** · 13-09-2004, 16:00

holas, realmente no se si el post debe ir justamente aqui, pero es dnd me parece que encaja mas.

Mi duda es si alguien posee las funciones estandar y funcionamiento estandar de un spider, es decir, si reacciona ante ciertos archivos o tags de las webs o cosillas asi. Lo basico para hacer un spider standar (si es q eso existe claro xD).

Muchas gracias y que vaya bien.

**Giskard** · 14-09-2004, 03:18

Spider? un Spider Man?
XDDDD
Disculpa mi ignorancia, no se que sea un spider (solo que es araña en inglés)

**thebosz** · 14-09-2004, 10:55

XDDD
No hombre, un spider (q tb tiene otros nombres que no recuerdo), es un programa q se mueve por internet: se conecta a una pagina web, baja el codigo fuente y busca nuevas urls para seguir moviendose. Es uno de los metodos que usan buscadores como google, yahoo!, etc. para actualizar sus bases de datos. Y se que hay partes de codigo fuente de las paginas web q estan especialmente creadas para los spider, codigos que le indican que no pase x tales webs o q le indican temas relacionados con las webs (ese es el mas famoso). Pues eso. Si alguien sabe de algun documento donde se explique todo el estandar que me lo indique por favor. Muchas gracias : )

**NeoGenessis** · 20-09-2004, 14:50

Hola,
El maximo spider que yo he creado es uno que recorre carpetas de tu disco duro. De hecho fueron dos, uno buscaba carpetas con un cierto nombre, y otro buscaba archivos en las carpetas.

De todos modos la idea no es muy compleja, almenos para un spider que recorra webs en html. Se le proporciona una direccion de parida. El spider se baja la pagina (como si fuera un navegador). Lee la pagina y busca los tags HTML que indican imagenes y se las baja. Modifica los tags de la pagina para que apunten localmente y de modo relativo. Añade la pagina a una base de datos (un archivo de texto que indica el nombre/direccion de la pagina). Revisa los tags de enlaces a archivos. Idem, se los baja y modifica la pagina para apuntar localmente. Revisa en busca de links a otras paginas, Comprueba que cunplan las condiciones y se las baja.

Por cada pagina que se baje, se hace lo mismo.

Las condiciones a cumplir son, basicamente, las dictaminadas por el usuario: Que sea o no un link externo, que sea de un tipo de archivo,...

Si sabes como hacer un programa que descarge una pagina web, y archivos "binarios" lo unico que te falta es añadir recursibilidad. Basicamente crea un archivo de texto con paginas ya descargadas y uno con pendientes,....

Pos eso, que la teoria es sencilla programarlo puede llevar algo de tiempo.

Espero haberte sido de ayuda.

**<PICCOLO>** · 20-09-2004, 17:58

hola thebosz respecto a lo que dices hay mucha info en internet.

para decirle al spider las páginas que no quieres que visite se utiliza el fichero robots.txt ( busca "robots.txt" en google).

Tambien, como tu dices desde la propia página se le puede informar al spider que no cachee nuestra web (usando las meta tags siguientes):

<META NAME="ROBOT" CONTENT="ALL|NONE|NO INDEX|NO FOLLOW">
(le dice qué queremos que indexe el spider)

<META NAME="REVISIT-AFTER" CONTENT="días">
(le dice al spider cada cuanto queremos que nos revisite)

<meta name="distribution" content="global">
(le dice al spider si la página tiene alcance gobal o no)

<meta name="classification" content="categoría">
(le dice al spider a qué tema se refiere la web) (tiene que ser una categoría de directorio (como bussiness and economy, health and beauty, etc)

para "gustarle" al spider de google y que te posicione con las palabras que quieras tienes varias páginas interesantes:

http://google.dirson.com
http://www.googlemania.com
http://www.1-en-buscadores.com

O bien puedes buscar posicionamiento web, o promoción web en el google. Cuando tengas dudas más concretas me puedes preguntar aqui, hasta entonces, a leer!!!
-salu2-

**thebosz** · 22-09-2004, 11:15

Holas, gracias por la ayuda y los enlaces, ahora ya empezaré a hacerle mejoras al spider.

Seguid dando caña!

**Lazaro** · 26-09-2004, 04:59

Hola thebosz,

Muy bueno el post de <piccolo>, como siempre. Tan solo aclarar algunas cosas referente a las META, y más bien como curiosidad para los "webmasters". La mayoría Google se las come, es decir no les hace ni caso, así que si queréis que no os indexen el contenido de ciertas páginas lo más seguro es el "robots.txt" que comenta <piccolo>. De todas formas no se si pasa de todas, desde luego a la de <META NAME="REVISIT-AFTER" CONTENT="días"> ni caso le hace a la pobre ( la frecuencia de visitas depende del PR - PageRank - de las páginas). De las otras no me fiaría demasiado.

Recuerdo un post ( de hace mucho tiempo, en una galaxia, muy muy lejana ... ) del amigo eXcalibur ( por cierto, hace poco estuve en un hotel que se llamaba, así; con motivos medievales y todo y tu nick en luces de neón, tentado estuve de sacar fotos XD ) ... bueno, como iba diciendo recuerdo un post en el que eXcalibur quería hacer algo parecido en VB, no se si quería montar un buscador o algo así.... puedes buscarlo.

Añadiría a las web de posicionamiento citadas por <piccolo> la de http://www.forobuscadores.com

Eso es todo,

Un Salud a tod@s

**thebosz** · 26-09-2004, 13:06

Okis, muchas gracias a ti tambien Lazaro. Realmente para lo que quiero el spider es para montar un buscador como una especie de proyecto q tenemos un grupo de colegas xD

Y bueno, para que lo sepan ya esta bastante avanzado el spider (con opcion de descargar imagenes...

).

Pues eso, que vaya bien y gracias

**NeoGenessis** · 03-10-2004, 02:42

si quieres el codigo fuente de un spider metete en sourceforge. Para win busca el htttrak (o algo asi que no estoy seguro de como se escribe) y para linux el wget. (el wget esta disponible para win tambien).

Lo de respetar los tags o no depende de ti, yo he leido algunos articulos de y dicen que al solicitar la descarga debes identificar el cliente que requiere la descarga, y que si te identificas con un nombre propio (Mozilla , IE, ...) que te identifique deberias respetar el archivo robots.txt. Si no lo haces dicen (eso pone en los articulos) que otros admin pueden denegar el acceso de tu spider.

Solo por curiosidad: ¿estas haciendo uno que descarge webs completas, o uno que las revise y las cataloge vara hacer algo parecido a un motor de busqueda?

**thebosz** · 03-10-2004, 12:42

Holas, en respuesta a tu post, entiendo que en principio el admin de la web, si mi spider se identifica de la forma standar que lo haria el mozilla o ie, o cualquier otro navegador, no deberia poder saber si lo que le esta visitando es un spider o un usuario normal (con mucha velocidad de clickeo, eso si xD) no? Gracias por los programas que me has dicho para ver el codigo, me seran de utilidad. Y finalmente respecto a tu ultima pregunta, el spider es para un buscador, pero hare que descargue las paginas webs enteras o el index.htm para poder verlas en caché.

**NeoGenessis** · 03-10-2004, 19:43

si lo que quieres es hacer un buscador yo te recomiendo una pequeña trampa: busca en buscadores todos los links disponibles, celimina los repetidos y haz las descargas y la revision de links. Si no lo haces asi sera mas complicado y puedes perder paguinas que pueden ser de interes.

Yo diria que lo peor de todo para un buscador es implementar la base de datos de modo que puedas decidir que paguinas se ajustan mejor a lo que estas buscando.

Buena suerte, y ya contaras.

Funciones y estructura de un spider

Herramientas

Visualizar

Temas similares

ONO: La insegura estructura de la red de clientes

Estructura EXE

Yahoo! Slurp Spider

Estructura pila

Estructura de puntero por parametro...

Marcadores

Marcadores