Il est important de noter qu’il s’agit ici de choisir un ou plusieurs formats d’images pour un projet de numérisation à venir, et qu’il ne s’agit pas de déterminer si des images déjà produites doivent être converties en un format mieux adapté.
Les images numériques matricielles
Le concept d’image numérique matricielle
Une image numérique matricielle est une image, codée numériquement, obtenue par la description d’un ensemble de petits carrés de couleur unie placés l’un à côté de l’autre dans un tableau rectangulaire. L’idée est d’utiliser des carrés suffisamment petits pour que l’œil ne se rende pas compte que l’image est en réalité un assemblage de ces carrés.
On voit cet assemblage de carrés dans l’image de la figure 2qui est un détail de l’image de la figure 1. Chacun de ces carrés est appelé «pixel», par contraction de «picture element».
Toute image numérique n’est pas nécessairement matricielle. En effet, il est également possible de décrire une image sous une forme vectorielle. Une image vectorielle est une image composée d’éléments géométriques de base, tels des segments de droite ou des arcs de cercles. L’avantage d’une description vectorielle, pour les images s’y prêtant bien, est double. D’une part, cela permet d’obtenir des fichiers de taille modeste puisqu’il est bien plus court de spécifier quelques caractéristiques (taille, couleur, position) d’un nombre relativement faible d’objets géométriques, que de spécifier la couleur d’une très grande quantité de pixels. D’autre part, il est possible de changer l’échelle d’une image vectorielle facilement et sans perte de qualité (dans le cas d’un zoom par exemple), alors que cela n’est pas possible sans perte de qualité pour une image matricielle. Cela se voit dans l’image de la figure 2, qui montre qu’un zoom important fait apparaître les pixels.
Toutefois, les descriptions vectorielles sont bien adaptées pour les images de synthèse. Pour les images naturelles obtenues à l’aide d’appareils photographiques ou de scanners de documents, une description matricielle est la règle.
Il est à noter que les images matricielles sont souvent appelées images bitmap ou images raster.
Formats d’images numériques matricielles
La description des pixels d’une image matricielle est souvent accompagnée par d’autres informations concernant l’image. Citons la date de création de l’image, la dimension de l’image, des informations concernant les couleurs utilisées dans l’image, l’auteur de l’image. Il est évident que toutes ces informations doivent être organisées. De même, les données décrivant l’image doivent être structurées et codées d’une manière bien définie. Dans le cas contraire, aucun logiciel ne pourrait lire l’image concernée. Cette organisation et ce codage sont déterminés par un format de fichier. Pour les images matricielles, il existe une très grande quantité de formats.
Figure 1: Fleurs
Figure 2: Fleurs (détail): image formée par des petits carrés de couleur homogène
A titre d’exemple, 3une organisation simple en deux blocs, que l’on retrouve dans certains formats d’images matricielles est celle représentée dans la figure 3.
En-tête (Header)
Contient typiquement les informations suivantes:
– le format dont il s’agit;
– type de l’image (noir-blanc, niveaux de gris ou couleur);
– dimension de l’image;
– date (de création, de modification, etc.);
– algorithme de compression utilisé;
– etc.
Description de l’image
Contient la description (couleur et position) de chaque pixel.
Figure 3: Organisation en deux blocs d’un format d’image matricielle
D’autres formats adoptent une structure plus complexe, mais qui a l’avantage de s’adapter à de nombreux besoins. C’est le cas du format TIFF, dont on donne brièvement une idée de la structure. Un fichier respectant ce format débute toujours par un en-tête (header), qui contient quelques informations de base et qui pointe vers un répertoire (image file directory). Celui-ci contient l’essentiel des métadonnées liées à l’image, et il indique où se trouvent les données décrivant cette image et où se trouve le prochain répertoire s’il y en a un autre. On peut relever que les données relatives à une même image peuvent être structurées de différentes façons, puisque le répertoire peut être situé avant ou après les données décrivant l’image.
Algorithmes de compression 4
Décrire une image matricielle nécessite une grande quantité de données. En effet, puisqu’une image est composée d’un très grand nombre de pixels qui ont tous une couleur parmi un nombre de couleurs qui peut être gigantesque, le poids d’une image peut être très important. Par exemple, à une résolution de 300 ppp, 5une image de 10 cm x 15 cm est composée de plus de 2 millions de pixels. Si chaque pixel peut avoir une couleur dans un ensemble de plus de 16 millions de couleurs (un cas tout-à-fait usuel pour les images naturelles), il est alors nécessaire de disposer de 24 bits par pixel. 6Un calcul montre que l’on obtient un fichier d’un poids de plus de 6 Mo.
C’est considérable, et cela pose la question du stockage des images lorsqu’elles sont en grande quantité, et aussi celle de leur transmission à travers un réseau. Pour y répondre, une intense activité de recherche est menée dans le domaine de la compression des données numériques. En effet, on peut (et il faut!) se demander s’il est possible de décrire une image de manière plus économique. Les succès dans ce domaine de recherche sont grands, et il est aujourd’hui courant de compresser efficacement les images matricielles avec toute sorte d’algorithmes de compression.
Essentiellement, il existe deux types d’algorithmes de compression: les algorithmes «sans perte», et les algorithmes «avec perte». Les algorithmes sans perte permettent de conserver la totalité de l’information originale, alors que les algorithmes avec perte ne permettent pas de retrouver l’image originale. L’utilisation de ce deuxième type d’algorithme permet des taux de compression spectaculaires.
Mais la compression est un sujet délicat dans le monde des archives et des bibliothèques puisqu’elle est souvent considérée comme un élément à éviter dans le cadre de l’archivage à long terme. 7
De sorte à permettre une meilleure appréhension du sujet, quelques algorithmes simples et standards sont brièvement présentés dans la suite de cet article.
Pour ce faire, rappelons que toute information numérique se présente sous la forme d’une suite de 0 et de 1. Une telle suite est appelée un mot dans l’alphabet {0,1}. Le nombre de 0 et de 1 qui forment un mot est appelé la longueur de ce mot. Un algorithme de compression a comme objectif de remplacer un mot contenant une information d’intérêt par un mot d’une longueur plus faible. De plus, ce remplacement doit se faire sans perte d’information, ou avec une perte acceptable. Pour obtenir cet effet de compression, l’idée est de supprimer toutes les formes de redondance qui apparaissent.
Il est à noter qu’il est impossible de définir un algorithme de compression capable de remplacer n’importe quel mot par un mot de longueur plus faible. Plus précisément, cela est impossible sans perte d’information. En d’autres termes, pour tout algorithme de compression sans perte d’information, il existe au moins un mot que l’algorithme n’arrive pas à remplacer par un mot de longueur plus petite (en fait, il est possible de prouver que pour tout algorithme sans perte, il existe un nombre infini de mots qui ne peuvent pas être compressés en des mots de longueur plus faible).
Читать дальше