Un crawler este un programel scris intr-un limbaj de programare ca - C, Java, Python, Perl - care parseaza continutul unei pagini web (preferabil xml valida) si poate extrage diferite informatii din acea pagina.
Este utila existenta acestor posibilitati, deoarece putem afla recursiv, pornind de la un utilizator, informatii despre anumite comunitati web de exemplu.
Daca documentul pe care doresti sa il parsezi nu respecta standardul xml, te poti folosi de GoogleApi, care in urma unor interogari iti ofera un document xml valid ce poate fi parsat cu usurinta, sau libraria Java HTMLParser daca nu este XML valid dar este totusi HTML valid
Pe site-ul nostru http://interfete-it.110mb.com/ gasiti alaturi de un articol explicativ si 2 programele ce analizeaza comunitatile Yahoo360 (cu HTML Parser) si Youtube (GoogleAPI & XML Parser).
Este utila existenta acestor posibilitati, deoarece putem afla recursiv, pornind de la un utilizator, informatii despre anumite comunitati web de exemplu.
Daca documentul pe care doresti sa il parsezi nu respecta standardul xml, te poti folosi de GoogleApi, care in urma unor interogari iti ofera un document xml valid ce poate fi parsat cu usurinta, sau libraria Java HTMLParser daca nu este XML valid dar este totusi HTML valid
Pe site-ul nostru http://interfete-it.110mb.com/ gasiti alaturi de un articol explicativ si 2 programele ce analizeaza comunitatile Yahoo360 (cu HTML Parser) si Youtube (GoogleAPI & XML Parser).
Niciun comentariu:
Trimiteți un comentariu