La théorie de l'information est due à Shannon (vers 1948), avec bien sûr l'influence des grands théoriciens de l'informatique (Turing, von Neumann, Wiener). À noter des convergences avec les travaux de Fisher.
Le problème est celui de la communication entre une source et un récepteur : la source émet un message que le récepteur lit. On voudrait quantifier l'« information » que contient chaque message émis. Par exemple, il est clair que si l'émetteur dit toujours la même chose, la quantité d'information apportée par une répétition supplémentaire est nulle.
Le cas le plus simple est le suivant : le récepteur attend une information de type oui/non, le oui et le non étant a priori aussi vraisemblables l'un que l'autre. Lorsque la source transmet soit un oui soit un non, on considère que le récepteur reçoit une unité d'information (un bit). Autrement dit : une unité d'information, c'est quand on a a priori un ensemble de deux possibilités, et que l'une d'elles se réalise.
L'entropie existe en version combinatoire, en version de probabilités discrètes ou encore en probabilités continues (ce dernier thème étant très proche de problématiques d'analyse). On commence par la première.
Que se passe-t-il si on a plus de possibilités ? Supposons d'abord qu'on a un ensemble de possibilités , et que le message consiste à spécifier un élément de . Si tous les éléments de sont aussi vraisemblables a priori (on verra ci-dessous ce qui se passe si on dote d'une probabilité), quelle est l'information transmise par le message « telle possibilité s'est réalisée » ?
Si a deux éléments, on transmet une information d'une unité. Si comporte éléments, on peut spécifier un élément de en donnant n informations élémentaires (par exemple par dichotomie de type « moitié de droite / moitié de gauche » ou bien en numérotant les éléments de et en donnant la décomposition en base ). On a donc envie de dire que spécifier un élément parmi un ensemble de possibilités revient à transmettre unités d'information. (Désormais dans cette partie, tous les logarithmes seront implicitement pris en base .)
À noter que la quantité d'information n'est pas une propriété intrinsèque d'un certain objet, mais une propriété de cet objet en relation avec un ensemble de possibilités dans lequel on considère qu'il se trouve : comme l'entropie en physique, la quantité d'information est une notion relative à la connaissance préalable de l'observateur du système, du récepteur du message.
À ce stade, en notant la quantité d'information de l'événement x appartenant à l'ensemble , on a donc
Avant d'en venir à un cadre probabilisé, regardons quelle est l'information d'une phrase telle que « l'événement réalisé appartient à un sous-ensemble A de l'ensemble des possibilités ». On applique le principe intuitif suivant : si on dit que l'événement réalisé appartient à une partie A, puis qu'on spécifie ensuite de quel événement de A il s'agit, on a totalement spécifié l'événement, comme si on l'avait donné directement dès le début. Spécifier directement l'événement réalisé, c'est transmettre unités d'information. Spécifier un événement en sachant déjà qu'il appartient à un sous-ensemble A, peut se faire en transmettant unités d'information. On en déduit qu'en précisant que l'événement appartient à A, on avait déjà transmis unités d'information d'où
Supposons maintenant que toutes les possibilités ne sont pas équiprobables mais qu'on sait que certaines, a priori, apparaîtront plus souvent que d'autres. L'idée est que les événements plus rares contiennent plus d'information (exemple : complétez les mots français de cinq lettres Z___E et E___E).
On peut s'inspirer de la version combinatoire ci-dessus : on sait que l'appartenance à une partie A dans un ensemble est un événement de unités d'information. Si on suppose qu' est un ensemble probabilisé où tous les événements sont équiprobables, la probabilité de la partie A est ; l'information apportée par la réalisation d'un événement de A est donc .
Si désormais est un espace probabilisé, et un événement, on pose donc
et en particulier, pour un élément xCette définition a bien la propriété qu'on attendait, à savoir que la survenue d'un événement rare contient plus d'information. Inversement, la survenue d'un événement certain (de probabilité ) n'apporte aucune information.
La quantité d'information dépend plus de la distribution de probabilité que d'un événement x particulier. On va donc définir l'entropie d'une distribution de probabilité : c'est l'information moyenne qu'on obtient si on tire un élément de suivant la probabilité p :
Revenons au modèle de l'émetteur et du récepteur : on suppose qu'à chaque instant, l'émetteur envoie une lettre a de l'alphabet avec la probabilité ; l'entropie est alors la quantité moyenne d'information apportée par chaque nouvelle lettre transmise, ou encore, l'incertitude moyenne sur la prochaine lettre qui va arriver.
L'entropie est maximale quand toutes les possibilités sont a priori équiprobables ; s'il y a n possibilités, l'entropie est alors . Inversement, si la mesure est concentrée en un point de probabilité , alors un tirage sous cette loi n'apporte aucune information car le résultat est connu d'avance, l'entropie est nulle.
L'entropie d'une loi de probabilité est ainsi une mesure de sa dispersion.
La formule ci-dessus est celle obtenue par Boltzmann (à un facteur k près, la constante de Boltzmann, qui est un changement de l'unité d'information) pour la thermodynamique : Boltzmann suppose qu'on a un système composé de N particules indiscernables, et on sait que la proportion de particules se trouvant dans l'état i est . Quelle est la quantité d'information apportée par la spécification complète de l'état microscopique des particules, autrement dit, la liste qui pour chaque particules dit dans quel état elle se trouve ? Le nombre de possibilités de répartir les N particules en respectant les proportions est
et la quantité d'information moyenne par particule est quand N est grand. (On a simplement utilisé .)Si toutes les probabilités sont égales à , on trouve en particulier la formule célèbre qui (avec la constante de proportionnalité k) est gravée sur la tombe de Boltzmann. Dans ce cas, l'entropie de la distribution de probabilité est bien sûr égale à la quantité d'information apportée par chaque événement particulier. (Ce qui est à l'origine d'un certain nombre de confusions, du fait que l'entropie est une notion globale définie pour une mesure de probabilité, et que parler de l'entropie d'un état particulier n'a pas de sens. En physique, l'entropie d'un état macroscopique donné est en fait l'entropie de la mesure uniforme sur tous les états microscopiques donnant cet état macroscopique.)
Tous ces raisonnements intuitifs sont justifiés par le théorème suivant, dû à Shannon, sans doute le premier théorème de théorie de l'information :
Le dernier axiome est un axiome de regroupement, qu'on avait déjà utilisé ci-dessus pour calculer la quantité d'information apportée par une partie . Supposons par exemple que le message soit constitué de lettres, mais qu'on confonde les lettres E et F. Alors la quantité d'information reçue à la transmission est seulement et pour reconstituer le message, il faut, dans une proportion des cas, demander une information supplémentaire qui départage entre E et F, ce qui transmet exactement unités d'information.
Si X et Y sont deux variables aléatoires, on peut définir l'entropie du couple : . On peut bien sûr généraliser à un nombre quelconque de variables.
Il résulte de la définition que si X et Y sont deux variables aléatoires indépendantes, on a
autrement dit, pour des variables indépendantes, l'information conjointe est égale à la somme des informations.Ceci n'est pas toujours vrai : il se peut que la variable X contienne de l'information sur ce que va être Y. Par exemple, si on répète toujours deux fois de suite la même chose, l'information de la deuxième répétition est nulle : . En fait on a toujours
avec égalité si et seulement si X et Y sont indépendants. Ceci peut servir par exemple à définir une information partielle c'est la quantité d'information réellement apportée par Y si on connaît déjà X, ainsi qu'une information mutuelle c'est la quantité d'information présente « en double » dans X et dans Y.
Revenons à une source qui émet régulièrement des signaux. Soit le signal émis au temps t, c'est une variable aléatoire à valeurs dans un certain alphabet. Ces variables ne sont pas forcément indépendantes (cas d'un texte en français : chaque lettre dépend des précédentes). L'entropie de la suite infinie est définie par
si cette limite existe, où est l'entropie de la distribution jointe du n-uplet .Si les lettres successives du message sont toutes indépendantes et équidistribuées (la loi de est égale à la loi de pour tout n), alors on a bien sûr
Autrement dit, dans le cas d'une source qui émet des lettres successives et indépendantes toujours avec la même loi, la quantité d'information moyenne pour chaque nouvelle lettre, est égale à l'entropie de la loi.
La base des définitions ci-dessus était la constatation qu'un élément d'un ensemble de taille peut être codé par n unités d'information. C'est le premier lien entre théorie de l'information et codage.
Un codage sur un alphabet A est une application injective de A vers l'ensemble des mots sur un alphabet B (souvent ). On dit que le codage est instantanément décodable s'il n'existe pas deux lettres de A telles que le code de a soit un préfixe du code de . Tous les codages ci-dessous seront supposés instantanément décodables.
On étend le codage aux mots sur A par concaténation des codes des lettres. La propriété d'être instantanément décodable garantit alors que le codage des mots est non ambigu.
Le problème est le plus souvent de trouver les codages les plus courts possibles. La stratégie de base consiste à attribuer des codes courts aux lettres fréquentes, et des codes longs aux lettres moins fréquentes.
Soient des variables aléatoires identiquement distribuées à valeurs dans un ensemble A. Soit C un codage de A utilisant un alphabet B. On définit la longueur moyenne du codage :
où représente la longueur d'un mot sur l'alphabet B. On a alors le théorème de codage de Shannon, qui identifie entropie et taux de compression maximal :
La preuve qu'aucun code ne fait mieux que cette valeur est simple : c'est essentiellement le fait que si , alors est maximal quand , et la remarque que si les sont les longueurs des codes d'un codage instantanément déchiffrable, on a .
L'idée de la preuve que l'optimum peut être approché est la suivante : les mots de longueur n obtenus par tirage des peuvent être décomposés en deux classes, une classe de mots « typiques » et une classe de mots « rares ». Les mots typiques sont environ au nombre de , chacun d'entre eux étant de probabilité environ ; les mots rares ont une probabilité totale négligeable. Pour coder dans un mot typique, on met un « 0 » suivi du code en base du numéro du mot typique parmi les mots typiques (ce qui prend nS chiffres en base ) ; pour un mot rare, on met un « 1 » suivi simplement du code en base du numéro du mot rare parmi l'ensemble des mots possibles sur l'alphabet de départ.
Un codage plus simple, proche du codage optimal, est le codage de Shannon-Fano : il consiste à attribuer à la lettre a un code en base de longueur (arrondi à l'entier supérieur), ce qui est toujours possible : par exemple, arranger les probabilités de manière croissante sur l'intervalle , ce qui donne une partition en sous-intervalles, si un intervalle est de longueur on peut trouver un nombre binaire à chiffres qu'on lui associe, de manière à former un codage sans préfixes. Autrement dit on code les lettres plus fréquentes par des mots plus courts.
On s'intéresse désormais au codage par des canaux de communication qui peuvent introduire des erreurs. Soit X le message à la source, Z le message codé transmis dans un canal (qui est une fonction aléatoire de X). Soit une fonction de décodage, on veut que le plus souvent possible, mais le passage de X vers Z n'est pas forcément injectif. Le théorème suivant, dû à Fano, affirme que la probabilité minimale d'erreur est liée à l'entropie :
Un canal de communication binaire étant donné, avec des probabilités d'erreur, il y a un arbitrage à faire entre concision du codage et probabilité de décodage correct : si on prend un codage sans aucune redondance, le décodage est très sensible à toute erreur ; si on répète trois fois chaque mot, on a de meilleures chances d'être compris.
Supposons donc qu'un émetteur fait transiter une lettre X d'un alphabet A au travers d'un canal binaire . Auparavant, il code X par une suite binaire Y de longueur . Le récepteur, lui, reçoit à la sortie du canal une suite binaire Z qui est une fonction aléatoire de la suite binaire Y donnée à l'entrée du canal.
On définit la capacité d'un canal par , le sup étant pris sur toutes les lois de probabilité possibles pour le mot binaire Y. Cette quantité ne dépend que du canal.
Par exemple, imaginons que le canal transmette des et des , mais, avec une faible probabilité p, change un en ou un en . La capacité est alors . Dans le cas où , aucune information ne peut être tirée, la capacité est nulle.
Un canal étant donné, on peut se demander quel codage adopter. Soit A l'alphabet de départ, un codage binaire est une application pour une certaine longueur (pour simplifier, on considère des codages à longueur constante). On définit la probabilité d'erreur d'un codage C (avec fonction de décodage D) par . On définit aussi le taux de compression du codage par .
Shannon montre alors le théorème suivant, qui identifie la capacité du canal avec le taux de compression optimal :
La preuve de ce théorème est hautement non constructive (on choisit le codage au hasard!), et comme ci-dessus elle utilise des mots « typiques ». Ce domaine de recherche est encore très ouvert.
On s'intéresse désormais à la situation où on cherche à transmettre une quantité continue (intensité, voltage...). Cette fois-ci on a donc des lois de probabilité sur . Par analogie avec le cas discret, l'entropie d'une distribution de probabilité f sur est égale à .
On remarque que, si on multiplie par c la variable transmise par le canal, on ajoute à l'entropie de l'information transmise (ce qui est naturel : en multipliant par on a une précision deux fois plus grande, ce qui donne un bit d'information en plus). Pour obtenir des résultats pertinents, on suppose en général que les canaux utilisés sont limités en puissance, par exemple qu'ils ne peuvent pas transmettre une variable dont la variance est supérieure à un certain seuil (sans cette hypothèse, on peut facilement transmettre une quantité infinie d'information).
Un simple calcul variationnel montre que, parmi les distributions de probabilité de variance fixée, les gaussiennes sont celles d'entropie maximale. En effet, soit f une fonction maximisant , et calculons l'entropie d'une fonction voisine de même variance. Comme et sont des mesures de probabilité, donc d'intégrale , on a . On peut supposer que f et sont de moyenne nulle (par translation), et donc . Alors le fait que ait même variance que f s'écrit . Maintenant, la variation d'entropie est . Pour tout vérifiant , on doit donc avoir si f est un extrémum d'entropie. Cela implique , d'où la gaussienne.
Intéressons-nous au cas où on cherche à transmettre une information X à travers un canal limité en puissance, la limite étant p (autrement dit l'espérance de doit être inférieure à p). Mais ce canal est bruité ; plus exactement, on a un ennemi qui a accès à ce canal et qui peut transmettre du bruit Y (indépendant de X), la puissance du bruit transmis étant inférieure à . Le récepteur reçoit , qui fait perdre de l'information par rapport à X. Ce qui intéresse le transmetteur est de maximiser à Y donné, tandis que l'ennemi cherche à minimiser cette quantité à X donné (si chacun connaît la stratégie appliquée par l'autre).
À noter que même si , il reste encore quelque chose du message initial.
La preuve utilise des inégalités fines. Par analogie avec le fait que les variances de variables indépendantes s'ajoutent, on définit la puissance-entropie d'une variable X comme la variance qu'aurait une gaussienne de même entropie que X. (On vérifie qu'en dimension d, on a .)
On a alors l'inégalité de puissance-entropie de Shannon pour des variables indépendantes : . Pour conserver l'information on doit monter en puissance... Autre forme équivalente : pour , si X et Y sont des variables aléatoires indépendantes, alors . Ceci peut servir à montrer par exemple que si sont des variables aléatoires indépendantes identiquement distribuées, alors ressemble à une gaussienne (au moins si n est une puissance de )...
Ces inégalités n'ont pas été rigoureusement démontrées par Shannon (elles le sont désormais). Elles sont à rapprocher, par exemple, de l'inégalité de Brunn-Minkowski, ou encore à des problèmes de constantes optimales dans l'inégalité de convolution de Young pour ...
Le sujet est donc loin d'être clos.