PDA

Ver la versión completa : Consulta por herramienta



faktorqm_
25-11-2009, 14:35
Hola a todos, este es mi primer post en este foro.

Les queria consultar, por una herramienta que evidentemente no doy con el nombre, y que tampoco se si existe.

Lo que quiero buscar se trata, por ejemplo, de listar el arbol atras de un sitio web. ejemplo,

www.pagina.com.ar/sitio/hola.html;
www.pagina.com.ar/sitio/chau.html;
www.pagina.com.ar/sitio/carlitos.js;
www.pagina.com.ar/sitio/pedrito.php;
www.pagina.com.ar/fotos/1.jpg;
www.pagina.com.ar/fotos/2.jpg;

Algo asi hacian los viejos web spiders, que se encargaban de "bajar" el sitio web entero cuando teniamos dial up y era muy caro conectarse a internet, solo que no quiero bajar los archivos, sino simplemente listarlos.

Obviamente soy nuevo en esto, y ya busque en google varias cosas que no dieron resultado, por eso este post. (busque web files explorers, site explorers, y probe mil combinanciones sin exito...)

Desde ya, muchas gracias por su atención.

j8k6f4v9j
25-11-2009, 20:48
Hola faktorqm_,

wget --spider http://example.com

O



Description: Simple Web Indexing System for Humans - Enhanced
SWISH-Enhanced is a fast, powerful, flexible, and easy to use system
for indexing collections of HTML Web pages, or any XML or text files like
Open Office Documents, Open Document files, emails, and so on.
.
Key features:
* Quickly index a large number of text, HTML, and XML documents
* Use filters to index any type of files such as PDF, OpenOffice, DOC, XLS,
PPT, MP3.
* Includes a web spider for indexing remote documents over HTTP
* Can use an external program to supply documents including
records from a relational database.
* Word stemming, soundex, metaphone, and double-metaphone indexing for
fuzzy searching
* Powerful Regular Expressions to select documents for indexing or exclusion
* Limit searches to parts of documents such as certain HTML tags or to
XML elements.
* Index file is portable between platforms.
* A Swish-e library is provided to allow embedding Swish-e into your
applications for very fast searching.



Salu2



http://img359.imageshack.us/img359/6631/celliigy4.pngKeep on Rollin' :mad:

faktorqm_
26-11-2009, 01:36
Muchas gracias por tu respuesta j8k6f4v9j.

Respecto del wget en el man dice:


--spider
When invoked with this option, Wget will behave as a Web spider, which means that it will not download the pages, just check that they are there. For example, you can use Wget to check your bookmarks:

wget --spider --force -i bookmarks


This feature needs much more work for Wget to get close to the functionality of real web spiders.

fuente: http://linuxreviews.org/man/wget/

Dice, cuando es invocado con esta opción, wget será un <web spider> (tiene traducción?), lo que significa que no descargará las páginas, solo chequeara que ellas están allí. Por ejemplo, lo podes usar para chequear tus favoritos: balbla.

Voy a probar el otro que me recomendás. Muchas gracias por las referencias. Saludos!

Ktorce
26-11-2009, 10:51
Dice, cuando es invocado con esta opción, wget será un <web spider> (tiene traducción?),

Aqui tienes información un poco mas extensa:
http://en.wikipedia.org/wiki/Web_crawler

O Aqui informacion reducida, pero en español.

http://es.wikipedia.org/wiki/Ara%C3%B1a_web

Un saludo