PDA

Ver la versión completa : Rastreador web



coMmut
03-08-2011, 13:32
hola a todos,

Soy mas programador web que de aplicaciones y por tanto estoy super desorientado en este tema, mi idea es crear un programa que copie cierta informacion de una web para despues copiarla a la base de datos. con la base de datos no tengo problema pues mas o menos me manejo pero el resto no tengo ni idea de como hacerlo ni por donde empezar ni que buscar por eso ojala me pudieseis dar nombres de aplicaciones o algun tipo de dato para poder empezar y yo ya busco el resto, desde ya muchas gracias, he escogido este foro porque creo que es el que mas conocimientos posee en programacion, un saludo y gracias de antemano!!

Goatse
03-08-2011, 14:13
Ni nos dices lenguaje, ni sistema operativo, ni base de datos, y la verdad es que magos no somos.

Con Perl puedes obtener el contenido de una página web mediante una petición GET o POST (lo que necesites) y, mediante bindings (tiene para prácticamente todas las bases de datos existentes) insertar los datos.

coMmut
03-08-2011, 14:36
Perdon... el sistema operativo es window 7, la base de datos que me gustaria usar es mysql (Pero si es mejor usar otra no tendria problemas), el lenguaje es que como ya te digo no tengo ni idea de con cual podria hacerlo. La idea es que el programa analice la pagina un par de veces al dia a unas horas determinadas y vaya obteniendo la informacion pero tambien que navegue a traves de ciertos menus,

Goatse
03-08-2011, 14:39
¿Menús? ¿JS, Flash, HTML normal? Tendrás que investigar qué peticiones se hacen al servidor al usarlos. Yo usaría Perl.

coMmut
03-08-2011, 22:35
bueno mi idea para que os hagais una idea seria:

por ejemplo en la pagina www.marca.com

que el programa vaya navegando por el menu (El menu el programa lo conoceria) por ejemplo entraria en futbol y aqui copiaria todos los articulos conociendo las etiquetas de titulo y noticia y despues lo pasaria a mi base de datos.

el rollo seria algo asi, y lo suyo tambien seria que el programa rastreara unas dos veces al dia mediante alguna funcion de tiempo, eso se podria hacer con perl??

gracias por la respuestas,

Goatse
03-08-2011, 23:24
Sí que se puede, pero vamos, es mejor coger el RSS por ejemplo.

netgea
04-08-2011, 14:02
bueno yo lo que creo que desea es crear es un copiador web pero muy direccionado

deseas programar algo que le haga copia cada cierto tiempo de esos datos y los mandaria ,
este programa podria estar en algun pc o server haria algo asi
conecta a www,laweb,es y realiza copia y descargar a www,miweb.es
estos datos podria ser redirecionado o incluso ser montado en su pc o server
bueno muy phishing , para hacer cositas asi me gusta php

netgea
04-08-2011, 23:28
hola de nuevo se me paso lo de las herramientas que podrias usas para copiar algunas webs
como copiar alguna desde linux el comando es wget

[user@localhost linux]# wget www,laweb,es


necesitamos descargar una página web entera para revisarla off-line

Wget podemos descargar un sitio web entero, o un archivo en particular, pausar y resumir la descarga, utilizar “comodines” para descargar ciertos archivos, etc.

Wget viene en todas las distribuciones por lo que no tenemos que instalarlo. Su uso es muy sencillo, si queremos descargar un archivo en particular, abrimos consola e ingresamos:

wget http://www,laweb,es/directorio/cualquiera/archivo.ext

esta claro, usando la dirección correcta en donde se encuentra el archivo deseado.

que deseamos descargar una página web entera, ejecutamos:

wget -r http://www,laweb.es/

La opción -r es para realizar una descarga “recursiva”, es decir ingresará a los subdirectorios del sitio web (ojo que si los enlaces a las demás páginas del sitio están hechos en flash no podrá descargarlos).

deseamos descargar todas las imágenes jpg y png de una página:

wget -r -A=.jpg,.png http://www,laweb,es

si con -A=.jpg,.png sólo bajara los archivos con dichas extensiones y -r es para que busque en forma recursiva.

Existe algunos programas que sirven como interfaz gráfica (GUI) a GNU Wget, uno de ellos es Kget

wget para windows (http://users.ugent.be/~bpuype/wget/)

coMmut
05-08-2011, 19:46
Al final me he decidido por perl y estoy empezando a usarlo, pero he de decir que me pone muuucho de los nervios, ya que no tiene compilador como C u otros lenguajes que te diga la linea en la que esta el error, cuando salta algo y no solo eso esque despues que salte un error ya no funciona... incluso si reduzco el script a una linea con un solo print me sigue dando error es impresionante...

Goatse
05-08-2011, 20:00
¿Cómo que no te dice la línea donde está el error?


~]$ cat lol.pl
print "heeey!\n";
fail
print "eehey!\n";
~]$ perl lol.pl
syntax error at lol.pl line 3, near "fail
print"
Execution of lol.pl aborted due to compilation errors.

coMmut
05-08-2011, 20:04
nose lo estoy usando con apache y en el fichero error.log me guarda el error pero no me dice la linea... al final he resuelto porque era:

me faltaba poner print "Content-type: text/html\n\n";

coMmut
07-08-2011, 16:53
Bueno ya he estado haciendo tutoriales de perl y se como va. He estado mirando alguna forma para hacer mi proyecto pero la verdad no lo veo nada claro... mi idea es crear algo como www.carritus.es pero con muchas mas novedades, claro que no se de donde han sacado ellos los productos, en mi caso la unica idea que se me ocurre es la de copiar los productos directamente de la pagina del carrefour y otros supermercados, pero claro lo veo bastante complicado, haber si podeis darme algun consejo, aunque sean catastrofistas :P.

un saludo!