luni, 5 ianuarie 2009

Crawlere web

Un crawler este un programel scris intr-un limbaj de programare ca - C, Java, Python, Perl - care parseaza continutul unei pagini web (preferabil xml valida) si poate extrage diferite informatii din acea pagina.

Este utila existenta acestor posibilitati, deoarece putem afla recursiv, pornind de la un utilizator, informatii despre anumite comunitati web de exemplu.

Daca documentul pe care doresti sa il parsezi nu respecta standardul xml, te poti folosi de GoogleApi, care in urma unor interogari iti ofera un document xml valid ce poate fi parsat cu usurinta, sau libraria Java HTMLParser daca nu este XML valid dar este totusi HTML valid

Pe site-ul nostru http://interfete-it.110mb.com/ gasiti alaturi de un articol explicativ si 2 programele ce analizeaza comunitatile Yahoo360 (cu HTML Parser) si Youtube (GoogleAPI & XML Parser).



Niciun comentariu: