sebsauvage.net

Scrapy | An open source web scraping framework for Python

Wednesday 13 March 2013 at 16:24

Scrapy, une lib Python conçue pour extraire des données des pages web. Démonstration avec la récupération des torrents disponibles sur mininova: http://doc.scrapy.org/en/latest/intro/overview.html
Pratique quand des services web n'ont pas d'API ou des API pourries.

L'avantage de Scrapy est qu'il est relativement concis (la syntaxe n'est pas trop compliquée et on peut utiliser XPath pour exprimer les éléments à extraire). Il s'occupe de suivre les liens, récupérer les pages (selon les règles que vous fixez), supporte la compression http, l'authentification, le user-agent spoofing, gestion des encodages... ça évite de se taper tout ça à la main.
Il peut exporter les données récupérées en json/csv/xml.
(Permalink)

Source: http://scrapy.org/

sebsauvage.net

Update

Scrapy | An open source web scraping framework for Python

Wednesday 13 March 2013 at 16:24