sebsauvage.net

Ce site n'est pas le site officiel.
C'est un blog automatisé qui réplique les articles automatiquement

BeautifulSoup et html invalide

Monday 17 June 2013 at 13:43

Si vous êtes utilisateur de longue date de BeautifulSoup pour parser des pages html, et que tout à coup ce module n'arrive plus à parser du html invalide alors qu'il y arrivait très bien avant, c'est parce que désormais BeautifulSoup délègue le boulot au HTMLParser de Python, module qui n'est capable de parser que du html valide. Et merde. Tout l'intérêt de BeautifulSoup c'était **justement** de bien travailler même sur du html de merde.
ElementTree se prend aussi les pieds dans le tapis.
Quelqu'un aurait-ils une lib Python qui tienne la route pour parser de l'html de merde ?
http://sebsauvage.net/paste/?340905d7033fea2d#znGPa0PK/rEThv2oYghDoFBGJ0fdW9g7r9sOfbY7X0s=

EDIT: J'ai quelques pistes là: http://stackoverflow.com/questions/4114722/python-html-parsing-that-actually-works
(Permalink)

Source: http://sebsauvage.net/links/?PwAG5g