Resultados 1 al 11 de 11

Tema: Funciones y estructura de un spider

  1. #1 Funciones y estructura de un spider 
    Iniciado
    Fecha de ingreso
    May 2003
    Mensajes
    7
    Descargas
    0
    Uploads
    0
    holas, realmente no se si el post debe ir justamente aqui, pero es dnd me parece que encaja mas.

    Mi duda es si alguien posee las funciones estandar y funcionamiento estandar de un spider, es decir, si reacciona ante ciertos archivos o tags de las webs o cosillas asi. Lo basico para hacer un spider standar (si es q eso existe claro xD).

    Muchas gracias y que vaya bien.
    Solo los grandes lo consiguen
    Citar  
     

  2. #2  
    Moderador HH
    Fecha de ingreso
    Feb 2002
    Ubicación
    México
    Mensajes
    1.155
    Descargas
    4
    Uploads
    0
    Spider? un Spider Man?
    XDDDD
    Disculpa mi ignorancia, no se que sea un spider (solo que es araña en inglés)
    Mientras el mundo permanezca no acabarán la fama y la gloria de México-Tenochtitlan
    Citar  
     

  3. #3  
    Iniciado
    Fecha de ingreso
    May 2003
    Mensajes
    7
    Descargas
    0
    Uploads
    0
    XDDD
    No hombre, un spider (q tb tiene otros nombres que no recuerdo), es un programa q se mueve por internet: se conecta a una pagina web, baja el codigo fuente y busca nuevas urls para seguir moviendose. Es uno de los metodos que usan buscadores como google, yahoo!, etc. para actualizar sus bases de datos. Y se que hay partes de codigo fuente de las paginas web q estan especialmente creadas para los spider, codigos que le indican que no pase x tales webs o q le indican temas relacionados con las webs (ese es el mas famoso). Pues eso. Si alguien sabe de algun documento donde se explique todo el estandar que me lo indique por favor. Muchas gracias : )
    Solo los grandes lo consiguen
    Citar  
     

  4. #4  
    Avanzado
    Fecha de ingreso
    Dec 2001
    Ubicación
    BCN
    Mensajes
    469
    Descargas
    0
    Uploads
    0
    Hola,
    El maximo spider que yo he creado es uno que recorre carpetas de tu disco duro. De hecho fueron dos, uno buscaba carpetas con un cierto nombre, y otro buscaba archivos en las carpetas.

    De todos modos la idea no es muy compleja, almenos para un spider que recorra webs en html. Se le proporciona una direccion de parida. El spider se baja la pagina (como si fuera un navegador). Lee la pagina y busca los tags HTML que indican imagenes y se las baja. Modifica los tags de la pagina para que apunten localmente y de modo relativo. Añade la pagina a una base de datos (un archivo de texto que indica el nombre/direccion de la pagina). Revisa los tags de enlaces a archivos. Idem, se los baja y modifica la pagina para apuntar localmente. Revisa en busca de links a otras paginas, Comprueba que cunplan las condiciones y se las baja.

    Por cada pagina que se baje, se hace lo mismo.

    Las condiciones a cumplir son, basicamente, las dictaminadas por el usuario: Que sea o no un link externo, que sea de un tipo de archivo,...

    Si sabes como hacer un programa que descarge una pagina web, y archivos "binarios" lo unico que te falta es añadir recursibilidad. Basicamente crea un archivo de texto con paginas ya descargadas y uno con pendientes,....

    Pos eso, que la teoria es sencilla programarlo puede llevar algo de tiempo.

    Espero haberte sido de ayuda.
    La resitencia es futil, todos sereis asimilados.
    NeoGenessis
    Citar  
     

  5. #5  
    Moderador HH
    Fecha de ingreso
    Sep 2002
    Ubicación
    Entre C# y PHP
    Mensajes
    1.813
    Descargas
    3
    Uploads
    0
    hola thebosz respecto a lo que dices hay mucha info en internet.

    para decirle al spider las páginas que no quieres que visite se utiliza el fichero robots.txt ( busca "robots.txt" en google).

    Tambien, como tu dices desde la propia página se le puede informar al spider que no cachee nuestra web (usando las meta tags siguientes):

    <META NAME="ROBOT" CONTENT="ALL|NONE|NO INDEX|NO FOLLOW">
    (le dice qué queremos que indexe el spider)

    <META NAME="REVISIT-AFTER" CONTENT="días">
    (le dice al spider cada cuanto queremos que nos revisite)

    <meta name="distribution" content="global">
    (le dice al spider si la página tiene alcance gobal o no)

    <meta name="classification" content="categoría">
    (le dice al spider a qué tema se refiere la web) (tiene que ser una categoría de directorio (como bussiness and economy, health and beauty, etc)

    para "gustarle" al spider de google y que te posicione con las palabras que quieras tienes varias páginas interesantes:

    http://google.dirson.com
    http://www.googlemania.com
    http://www.1-en-buscadores.com

    O bien puedes buscar posicionamiento web, o promoción web en el google. Cuando tengas dudas más concretas me puedes preguntar aqui, hasta entonces, a leer!!!
    -salu2-
    Quien no sabe lo que busca no entiende lo que encuentra.
    Usa Firefox, Redescubre la web
    Citar  
     

  6. #6  
    Iniciado
    Fecha de ingreso
    May 2003
    Mensajes
    7
    Descargas
    0
    Uploads
    0
    Holas, gracias por la ayuda y los enlaces, ahora ya empezaré a hacerle mejoras al spider.

    Seguid dando caña!
    Solo los grandes lo consiguen
    Citar  
     

  7. #7  
    Avanzado
    Fecha de ingreso
    Mar 2002
    Mensajes
    357
    Descargas
    0
    Uploads
    0
    Hola thebosz,

    Muy bueno el post de <piccolo>, como siempre. Tan solo aclarar algunas cosas referente a las META, y más bien como curiosidad para los "webmasters". La mayoría Google se las come, es decir no les hace ni caso, así que si queréis que no os indexen el contenido de ciertas páginas lo más seguro es el "robots.txt" que comenta <piccolo>. De todas formas no se si pasa de todas, desde luego a la de <META NAME="REVISIT-AFTER" CONTENT="días"> ni caso le hace a la pobre ( la frecuencia de visitas depende del PR - PageRank - de las páginas). De las otras no me fiaría demasiado.

    Recuerdo un post ( de hace mucho tiempo, en una galaxia, muy muy lejana ... ) del amigo eXcalibur ( por cierto, hace poco estuve en un hotel que se llamaba, así; con motivos medievales y todo y tu nick en luces de neón, tentado estuve de sacar fotos XD ) ... bueno, como iba diciendo recuerdo un post en el que eXcalibur quería hacer algo parecido en VB, no se si quería montar un buscador o algo así.... puedes buscarlo.

    Añadiría a las web de posicionamiento citadas por <piccolo> la de http://www.forobuscadores.com

    Eso es todo,

    Un Salud a tod@s
    Citar  
     

  8. #8  
    Iniciado
    Fecha de ingreso
    May 2003
    Mensajes
    7
    Descargas
    0
    Uploads
    0
    Okis, muchas gracias a ti tambien Lazaro. Realmente para lo que quiero el spider es para montar un buscador como una especie de proyecto q tenemos un grupo de colegas xD

    Y bueno, para que lo sepan ya esta bastante avanzado el spider (con opcion de descargar imagenes... ).

    Pues eso, que vaya bien y gracias
    Solo los grandes lo consiguen
    Citar  
     

  9. #9  
    Avanzado
    Fecha de ingreso
    Dec 2001
    Ubicación
    BCN
    Mensajes
    469
    Descargas
    0
    Uploads
    0
    si quieres el codigo fuente de un spider metete en sourceforge. Para win busca el htttrak (o algo asi que no estoy seguro de como se escribe) y para linux el wget. (el wget esta disponible para win tambien).

    Lo de respetar los tags o no depende de ti, yo he leido algunos articulos de y dicen que al solicitar la descarga debes identificar el cliente que requiere la descarga, y que si te identificas con un nombre propio (Mozilla , IE, ...) que te identifique deberias respetar el archivo robots.txt. Si no lo haces dicen (eso pone en los articulos) que otros admin pueden denegar el acceso de tu spider.

    Solo por curiosidad: ¿estas haciendo uno que descarge webs completas, o uno que las revise y las cataloge vara hacer algo parecido a un motor de busqueda?
    La resitencia es futil, todos sereis asimilados.
    NeoGenessis
    Citar  
     

  10. #10  
    Iniciado
    Fecha de ingreso
    May 2003
    Mensajes
    7
    Descargas
    0
    Uploads
    0
    Holas, en respuesta a tu post, entiendo que en principio el admin de la web, si mi spider se identifica de la forma standar que lo haria el mozilla o ie, o cualquier otro navegador, no deberia poder saber si lo que le esta visitando es un spider o un usuario normal (con mucha velocidad de clickeo, eso si xD) no? Gracias por los programas que me has dicho para ver el codigo, me seran de utilidad. Y finalmente respecto a tu ultima pregunta, el spider es para un buscador, pero hare que descargue las paginas webs enteras o el index.htm para poder verlas en caché.
    Solo los grandes lo consiguen
    Citar  
     

  11. #11  
    Avanzado
    Fecha de ingreso
    Dec 2001
    Ubicación
    BCN
    Mensajes
    469
    Descargas
    0
    Uploads
    0
    si lo que quieres es hacer un buscador yo te recomiendo una pequeña trampa: busca en buscadores todos los links disponibles, celimina los repetidos y haz las descargas y la revision de links. Si no lo haces asi sera mas complicado y puedes perder paguinas que pueden ser de interes.

    Yo diria que lo peor de todo para un buscador es implementar la base de datos de modo que puedas decidir que paguinas se ajustan mejor a lo que estas buscando.

    Buena suerte, y ya contaras.
    La resitencia es futil, todos sereis asimilados.
    NeoGenessis
    Citar  
     

Temas similares

  1. Respuestas: 1
    Último mensaje: 23-11-2012, 09:09
  2. Estructura EXE
    Por biyonder en el foro GENERAL
    Respuestas: 1
    Último mensaje: 28-09-2009, 03:28
  3. Yahoo! Slurp Spider
    Por Nost en el foro OFF-TOPIC
    Respuestas: 1
    Último mensaje: 16-01-2008, 14:52
  4. Estructura pila
    Por valeronfor en el foro WINDOWS
    Respuestas: 0
    Último mensaje: 16-11-2006, 04:24
  5. Estructura de puntero por parametro...
    Por Dwarft en el foro GENERAL
    Respuestas: 9
    Último mensaje: 16-07-2004, 18:49

Marcadores

Marcadores

Permisos de publicación

  • No puedes crear nuevos temas
  • No puedes responder temas
  • No puedes subir archivos adjuntos
  • No puedes editar tus mensajes
  •