Cela peut se faire, c'est la bonne nouvelle, mais c'est laborieux et difficile d'assurer au 100%, dû à la structure de ce genre de fichiers. Le problème c'est qu'ils ne sont faits pour être analysés, mais simplement pour être présentés, et donc ils ne disposent pas d'informations sémantiques qui puissent nous aider à classifier leur contenu. Ce qui est très clair pour la vue humaine (par exemple à quelle image appartient une référence écrite) peut devenir difficile pour un programme dans certaines circonstances, et alors il faut l'aider avec des d'observations empiriques tirées de cas concrets. Cela veut dire qu'il faudra un certain temps d'essais et corrections avant que le programme soit totalement fiable. Quant à l'extraction d'images en soi, elle ne devrait poser aucun problème.
Salutations cordiales
L'Équipe Bramfeld