JPEG est un algorithme de compression avec perte. 21Autrement dit, un cycle de compression avec JPEG entraîne une modification de l’image. Mais l’efficacité de l’algorithme permet de garder ces modifications dans le domaine du raisonnable: il est possible d’obtenir un taux de compression d’environ 20:1 22sans que l’œil humain ne s’en rende compte! Lorsque le taux de compression est très élevé, une image compressée avec l’algorithme JPEG peut souffrir de l’apparition de petits carrés clairement visibles. Cela provient du fait que la compression se fait sur des blocs de 8 x 8 pixels.
En théorie, le taux de compression est au choix de l’utilisateur, mais un taux par défaut est souvent proposé par les logiciels.
L’efficacité de JPEG en fait un algorithme de compression et un format très répandu. Malgré la perte d’information que JPEG provoque, il est parfois utilisé pour conserver des images lorsque des questions de coûts et d’espace de stockage jouent un rôle important. Ainsi, comme exemple parmi d’autres, les Archives d’Etat de Genève (AEG) utilisent le format TIFF uniquement pour les cadastres et les plans, alors que les registres et les documents textuels sont numérisés et conservés selon le format JPEG. 23En effet, les images sont considérées comme un moyen de diffusion, alors que les documents originaux sont seuls considérés comme documents à archiver pour le long terme. Ainsi, les AEG ont la possibilité de numériser une deuxième fois un document pour lequel il y aurait une demande qui ne pourrait pas être satisfaite par l’image respectant le format JPEG.
De plus, la compression JPEG est acceptée par le format PDF/A. Ce format, dont il est question plus loin dans cet article, est très largement accepté pour l’archivage à long terme.
En ce qui concerne la gestion des couleurs, comme pour le format TIFF, il est nécessaire de consulter l’annexe de la spécification du format ICC pour obtenir la manière de procéder pour inclure un profil ICC dans un fichier JPEG.
A l’image de JPEG, JPEG 2000 est un algorithme de compression avant d’être un format. Toutefois, la spécification de JPEG 2000, rédigée par le comité JPEG, publiée et normalisée par l’ISO et l’UIT en 2004 (ISO/IEC 15444–1 et UIT-T T.800) contient la définition d’un format d’image en annexe. C’est de ce format, nommé JP2, que l’on parle lorsque JPEG 2000 est considéré comme un format.
Parmi les éléments différenciant JPEG 2000 de JPEG se trouve l’amélioration de la qualité visuelle des images. En effet, on obtient une qualité légèrement supérieure en utilisant JPEG 2000 pour un taux de compression équivalent. D’autre part, JPEG 2000 permet tant la compression sans perte qu’avec perte. La différence réside uniquement dans le degré de compression souhaité.
De plus, JPEG 2000 a été pensé pour faciliter toute une série de fonctionnalités. Par exemple, la transmission et la visualisation d’images à travers un réseau sont en principe facilitées. Toutefois, ce format ne s’est pas encore imposé aussi largement que JPEG, qui lui est encore très souvent préféré.
Dans le domaine de l’archivage à long terme, JPEG 2000 connaît un succès croissant, 24et il est accepté par les formats PDF/A-2 et PDF/A-3.
L’inclusion d’un profil ICC dans un fichier JPEG 2000 est prévue par la spécification de JPEG 2000, avec certaines restrictions. 25
Le format PDF (Portable Document Format)
Le format PDF est un format créé par Adobe. Il a été normalisé par l’ISO en 2008 (ISO 32000–1). Le format PDF n’est pas un format d’image. C’est un format de type plus général dont le but est la description de documents, de sorte à pouvoir représenter un document donné exactement comme l’auteur l’a conçu. C’est un format très couramment utilisé, en particulier pour échanger des documents. Ainsi, de nombreuses bibliothèques numériques utilisent ce format.
Il existe une version du format, appelée PDF/A, qui a été standardisée par l’ISO en 2005, 2011 et 2012 (ISO 19005–1 pour PDF/A-1, ISO 19005–2 pour PDF/A-2 et ISO 19005–3 pour PDF/A-3), et dont le but est de satisfaire le mieux possible aux exigences de l’archivage à long terme. Ces trois standards sont valides en parallèle, l’un ou l’autre peut être utilisé selon les besoins.
Il est courant de convertir des documents numériques au format PDF/A lorsque l’on veut archiver ces documents pour le long terme, à l’image de la pratique des Archives fédérales suisses qui exigent le format PDF/A pour les documents bureautiques. 26
Le statut légal de l’algorithme de compression LZW, qui était protégé par des brevets, a incité un groupe ad hoc à créer un format pouvant remplacer le format GIF. C’est ainsi que la spécification de PNG a été publiée en 1996. Ce format est un standard depuis 2004 (ISO/IEC 15948). Quelques-unes des caractéristiques de ce format sont:
— un algorithme de compression sans perte efficace, surtout pour les images de synthèse;
— des couleurs pouvant aller jusqu’à 48 bits par pixel;
— de ne pas être restreint par des questions légales.
Le format PNG est souvent reconnu comme un format apte à l’archivage à long terme. Mais en raison de la concurrence des formats déjà vus ci-dessus, il est rarement utilisé dans ce cadre.
Le choix d’un format d’images pour un projet de numérisation: méthodes existantes
Différents auteurs se sont intéressés à la manière d’évaluer et de choisir un format d’images parmi d’autres formats. Par exemple, la Bibliothèque nationale des Pays-Bas 27et le Centre de coordination pour l’archivage à long terme de documents électroniques (CECO) 28ont étudié et établi de telles méthodes d’évaluation, orientées vers la conservation des images à long terme.
Une tendance se dégage de ces études: l’idée générale est de déterminer des critères importants pour la conservation à long terme, et ensuite de noter les différents formats envisagés vis-à-vis de ces critères. Cette façon de faire permet d’établir aisément un classement des formats en fonction des notes attribuées. De plus, le procédé pour arriver à ce résultat semble relativement facile à appliquer, puisqu’il suffit de suivre une «recette de cuisine». Celle-ci consiste à confronter chaque format aux différents critères pour en tirer une note.
Par exemple, les critères définis par le CECO sont les suivants: «Ouverture du format», «Licence libre», «Diffusion», «Fonctionnalités», «Implémentation», «Densité de mémorisation», «Vérifiabilité», «Bonnes pratiques» et «Perspectives». La signification plus précise de chacun de ces termes est expliquée dans le travail du CECO.
Ensuite, ce dernier attribue une note à chaque format et ce pour chaque critère. Finalement, un calcul de moyenne est fait en tenant compte du facteur de pondération attribué à chaque critère. Cette moyenne permet d’établir le classement suivant pour les formats d’images matricielles, étant précisé que les formats qui ne sont pas indiqués n’ont pas été évalués.
1. |
TIFF 6.0 sans compression et PDF/A-2 |
Note: 1,51. |
3. |
JPEG, JPEG 2000 et DNG |
Note: 0,89. |
6. |
PNG |
Note: 0,73. |
L’étude de la Bibliothèque nationale des Pays-Bas établit une méthode similaire, dotée de quelques raffinements. Ainsi, les sept critères (Openness, Adoption, Complexity, Technical Protection Mecanism (DRM), Self-documentation, Robustness, Dependencies) sont chacun partagés en différentes caractéristiques. Par exemple, le critère Openness admet les trois caractéristiques suivantes: «Standardisation, Restrictions on the interpretation of the file format» et «Reader with freely available source». Finalement, un type de moyenne pondérée est établi à partir des notes qui correspondent aux diverses caractéristiques. Cette moyenne permet d’aboutir au classement suivant, seuls les formats indiqués ayant été évalués.
Читать дальше