bits4bytes: Web crawling sau despre cum sa obtii o baza de date….

....O baza de date cu linkuri care te-ar putea interesa, o baza de date cu adrese de email :D ,o baza de date cu temperaturile sa zicem pentru mai multe orase sau pur si simplu o baza de date cu titlurile dintr-o pagina de ziar.Totul se reduce la a reusi sa extragi dintr-o pagina web, avand in spate un cod uneori mult prea incalcit pentru muritorii de rand, bucatica aia de informatie de care ai nevoie.Normal ca de la pagina html pe care o obtii printr-un simplu “View Source” si pana la un XML curat, plin cu bunatati pentru baza ta de date si mai ales simplu de parsat, e un oarecare drum.Pai sa vedem, sa zicem ca vrei sa folosesti XPath sau..XQuery sau de ce nu poate chiar simplul DOM pentru a parsa un fisier XML.Dar de unde iei XML-ul ?

Pasul 1:Faci rost de Tidy.Tidy pentru Java, Tidy pentru Python,ce preferi.

Pasul 2:Faci putina “curatenie “ in fisierul html si utilizand Tidy, obtii un XHTML, adica un HTML mult mai ordonat, cu toate tagurile inchise.

Pasul 3:Tratezi XHTML-ul ca un XML si te apuci sa parsezi :)

Ce-i cu Tidy?Pai interfete evoluate, dar prea evoluate, prea….grabite.Cam 40% din paginile HTML din intreg Internetul sunt scrise “grabit”, cu erori de genul <br> in loc de <br/>, cu taguri neinchise, totul pentru ca browserele HTML accepta orice input, corect sau incorect, incercand sa-l interpreteze cum pot mai bine.Un parser insa va sesiza toate aceste erori iar modalitatea cea mai simpla de a ajunge de la un HTML astfel scris la un riguros XHTML este acest Tidy.

bits4bytes

Saturday, November 24, 2007

Web crawling sau despre cum sa obtii o baza de date….

No comments:

Tutoriale

Teme

Blog Archive

Prieteni

Contributors