En physique, l'entropie d'un système hamiltonien à l'énergie E est définie comme le log du volume de l'espace des phases qui est à l'énergie E :
On veut définir un analogue en théorie des probabilités. L'idée est que, comme en physique statistique, on va regarder une variable dépendant d'un grand nombre N d'événements élémentaires. La constante de Boltzmann ci-dessus, k, est égale à la constante des gaz parfaits divisée par le nombre de particules impliquées (le nombre d'Avogadro), on est donc tenté de remplacer cette constante par . Le volume s'interprète tout naturellement en terme de probabilité, et on pose :
où on écrit un signe parce qu'une probabilité est inférieure à .L'idée est qu'on arrive souvent à évaluer l'entropie d'un événement au moyen de la théorie de l'information. Cela fournit alors directement une évaluation de la probabilité d'un événement : presque par définition, un événement apportant une quantité d'information H a une probabilité .
On commence par donner l'exemple le plus simple d'une telle situation, avant d'expliquer en termes d'entropie les théorèmes plus généraux.
On considère un alphabet fini à n lettres . On se donne une loi de probabilité sur cet alphabet et on tire, de manière indépendante, une suite de lettres selon cette loi. La proportion de qui sont égales à une lettre est, d'après la loi des grands nombres, . Ce qui nous intéresse est le comportement asymptotique de la probabilité que, sur les N premières lettres, cette proportion ait une valeur très différente, mettons . Autrement dit : quelle est la probabilité qu'un dé non pipé sorte des « six » un quart du temps ? (Ou : si un dé prétendu non pipé sort des « six » un quart du temps, que doit-on conclure ?)
On définit donc la mesure empirique des par
est une variable aléatoire dont la valeur est une mesure de probabilité sur . (À noter que n'importe quelle mesure sur ne peut pas être une mesure empirique : les fréquences doivent être des multiples de .)
Ce qui nous intéresse est d'évaluer la probabilité que soit proche d'une certaine mesure sur . Pour cela, on va évaluer la quantité d'information H fournie par l'événement « la mesure empirique est », et la réponse sera alors : la probabilité est .
On rappelle qu'en théorie de l'information, l'occurrence d'un événement x qui était de probabilité apporte une information
et que l'entropie d'une mesure de probabilité est l'espérance de la quantité d'information obtenue en tirant un élément selon :Spécifier un élément d'un ensemble, sachant que cet élément allait être tiré selon la loi , apporte donc en moyenne une information .
Maintenant, on peut se demander quelle information (par rapport à ) est apportée par l'affirmation suivante : « en fait, l'élément va être tiré selon une autre loi ». Cela apporte assurément une information : par exemple, si est concentrée en un point x, cela revient à donner directement x ce qui apporte une information . On définit l'information relative :
et l'entropie relativeOn montre que , d'où le choix des signes (c'est essentiellement la convexité de ).
L'interprétation est la suivante : si on tire un élément sous la loi , l'information moyenne qui sera au final obtenue sera , par rapport à . Or effectuer un tirage selon une loi ne fait apparaître, dans l'absolu, qu'une information . C'est donc qu'en sachant que l'élément allait être tiré selon , on possédait dès le départ une information , par rapport à la loi .
Moralement, cette quantité d'information peut servir à définir une distance sur l'espace des mesures de probabilité sur un ensemble (mais elle n'est pas symétrique).
Revenons à la loi de la mesure empirique de variables aléatoires tirées dans selon la loi . Un raisonnement intuitif, à ce point, permettrait d'obtenir le résultat. En effet, si la loi empirique est , c'est comme si on avait tiré N fois de suite les selon la loi . Ceci apporte une information . Un événement d'information H ayant probabilité , on en conclut que la probabilité que la mesure empirique soit égale à une certaine loi se comporte comme .
Cela se passe presque ainsi. Soit donc une loi sur . Soit une suite de lettres de , telle que la proportion de égaux à une lettre soit . Calculons la probabilité (sous ) que . Cette probabilité est , et ou encore , soit encore
Pour évaluer la probabilité que la fréquence empirique soit , il reste donc à multiplier cette quantité par le nombre de suites telles que la proportion des égaux à la letrte soit . Pour cela, on suppose bien sûr que est réalisable comme une telle fréquence, i.e. que les valeurs de sont multiples de .
Ce nombre vaut , qui, par un calcul très simple (essentiellement, celui de Boltzmann), vaut environ quand N est grand (à un facteur polynomial en N près), ce qui est bien naturel quand on sait que spécifier une suite particulière parmi l'ensemble des suites de fréquence empirique , fournit une information .
Conclusion : si est réalisable comme fréquence d'une suite à N termes, alors la probabilité, sous , que la fréquence empirique soit égale à est donc environ , soit
Pour se débarrasser des problèmes de lois réalisables ou non, on va plutôt calculer la probabilité que tombe dans un petit ensemble autour de . On énonce alors le théorème de Sanov :
Autrement dit, c'est la mesure la plus « proche » de au sens de la distance qui contrôle le taux de décroissance de cette probabilité.
Le principe des grandes déviations est une généralisation de la situation précédente. En particulier, on ne demande plus forcément l'indépendance. On considère donc une suite de mesures de probabilité sur un espace X régulier (par exemple, métrisable avec sa tribu borélienne). On comprend que la mesure dépend de N « événements de base ». L'information ne croît pas forcément linéairement en N, on considère donc une suite de nombres qui jauge cette croissance.
On considère une fonction candidate à être la fonction entropie des . On suppose en général que I est semi-continue inférieurement (c'est-à-dire que les sont fermés), et on qualifie cette fonction de « bonne fonction de taux » si les sont compacts.
On dit alors que la famille satisfait le principe des grandes déviations pour la bonne fonction de taux I, si pour tout fermé , on a
et pour tout ouvert , on aLe principe de grandes déviations est donc analogue à l'existence d'une entropie.
Si on a des variables satisfaisant un principe de grandes déviations, et que la fonction d'entropie I admet un minimum (qui vaut alors forcément , la probabilité totale étant ) et est régulière, il est tentant de développer I à l'ordre au voisinage de ce minimum, pour trouver que la renormalisation en plutôt qu'en , autour de la moyenne, donne une gaussienne... Bien sûr, on aurait aussi pu développer la probabilité à l'ordre au voisinage de son maximum, on aurait trouvé que localement la probabilité se comportait comme une parabole osculant la gaussienne ci-dessus à l'ordre . Pour que la probabilité ressemble vraiment à une gaussienne, il faut donc vérifier que le développement de I est valable (par exemple, il suffit que la dérivée troisième soit contrôlée).
Alors, si I a un unique minimum au point z, on peut vérifier que et que la probabilité correspondante est donc , autrement dit qu'on a une gaussienne de variance .
On avait vu en théorie de l'information que les gaussiennes maximisaient l'entropie à variance donnée, c'est exactement le phénomène qu'on retrouve ici : notre estimation de probabilités provient d'une maximisation d'entropie, et on renormalise à l'ordre deux au voisinage du maximum. Une fois de plus, les gaussiennes trouvent leur origine dans une quantité d'information...
À ce stade, on peut donner une première généralisation : plutôt que de s'intéresser à la mesure empirique des , on peut considérer une fonction quelconque , et s'intéresser à sa moyenne empirique . Si on prend et qu'on prend égal au k-ième vecteur d'une base de , on retrouve bien évidemment le cas précédent.
Si , cela signifie que la fréquence empirique des vérifie , par définition. On est donc tenté de dire que la probabilité que est la somme, pour toutes les mesures sur satisfaisant , de la probabilité que . Cette probabilité, comme ci-dessus, est asymptotiquement .
Quand N est grand, seule la contribution du meilleur (c'est-à-dire celui minimisant la « distance » ) compte, les autres devenant négligeables. Posons donc, pour :
c'est la quantité d'information contenue dans l'événement . On peut alors énoncer le théorème suivant :
On va désormais illustrer ce principe dans un cas un peu plus général que le théorème de Sanov. Soient des variables aléatoires à valeurs dans , éventuellement non indépendantes, ni identiquement distribuées. On considère la moyenne empirique . Soit la loi de . On va montrer que sous certaines hypothèses, satisfait un principe de grandes déviations, pour une fonction de taux à déterminer.
Comme précédemment, on a envie de dire que si , cela signifie qu'en fait, les ont collectivement une distribution empirique qui est de moyenne y, i.e. .
On voudrait alors dire que la probabilité d'une telle situation est , ou plutôt , l'inf étant pris sur toutes les mesures satisfaisant la contrainte d'être de moyenne y : asymptotiquement, les contributions des mesures ne réalisant pas l'inf sont négligeables.
Comme les ne sont pas indépendantes, on va plutôt travailler avec la loi jointe du N-uplet dans . On cherche maintenant des lois sur soumises à la contrainte que , où est la loi de la i-ième composante de : la somme des moyennes sur chaque composante doit être égale à Ny. Parmi celles-ci on cherche celle qui a l'entropie minimale par rapport à la mesure .
Ici intervient la remarque fondamentale suivante : à moyenne fixée, les distributions qui minimisent l'entropie sont les distributions exponentielles (ou maxwelliennes) de la forme , où est la constante de normalisation, appelée fonction de partition par les physiciens. Ceci se démontre par un calcul variationnel simple, identique à celui qui montre qu'à variance fixées, ce sont les gaussiennes.
Soit l'application « somme des composantes ».
Pour minimiser l'entropie par rapport à la mesure , il est donc suffisant de chercher parmi les mesures de la forme où est un élément de , le produit étant un produit scalaire. Cet élément est à déterminer de sorte que la moyenne soit égale à Ny.
Ce qui nous intéresse est l'entropie de la distribution. Or pour les distributions exponentielles, il y a une relation simple entre entropie et moyenne. La moyenne de la distribution est et son entropie est .
On voit donc qu'une distribution exponentielle de moyenne a une entropie .
Reste quand même à déterminer . Là encore la forme exponentielle de la loi de probabilité joue : la dérivée de par rapport à est précisément l'espérance de la distribution exponentielle. En effet, on a
Le recherché vérifie donc , autrement dit le recherché est un extrémum de . C'est en fait un maximum car est une fonction convexe de .
Dans le principe de grandes déviations , on doit donc poser :
où
On a donc réussi, grâce à la remarque que les minima d'entropie sont obtenus pour les distributions exponentielles, à donner une recette de calcul de l'entropie de l'événement « la moyenne est égale à y ».
Ceci nous amène donc à énoncer le théorème de Gärtner-Ellis. Cependant, il faut faire attention à l'énoncé : par exemple, nos raisonnements ci-dessus étaient à N fixé ; il faut donc que converge quand , vers une certaine valeur, ce qui ne se produit que si les n'ont pas des distributions trop sauvages.
De plus, lorsque la limite n'est pas différentiable, il n'y a pas forcément de donnant une exponentielle de moyenne y pour tout y, ce qui n'empêche pas que ait une certaine valeur. Un même peut ainsi maximiser pour plusieurs y. Disons que est un point exposé si le maximisant cette quantité ne maximise pas aussi cette quantité pour un autre , cela revient à dire que y est exposé s'il existe un tel que pour tout , on a . Les points exposés sont ceux pour lesquels le fait que maximise l'entropie implique bien que l'espérance de la distribution exponentielle de paramètre vaut y.
L'énoncé est alors le suivant. Il se place dans un cadre un peu plus général où on ne considère pas forcément une somme de variables aléatoires ; de plus, il se peut que la bonne renormalisation ne soit pas N mais où est une suite tendant vers l'infini.
Reconnaissons que sans explication par la théorie de l'information, l'énoncé pourrait rester mystérieux.
Là encore, le sujet n'est pas clos : on peut chercher à montrer qu'un principe des grandes déviations est satisfait dans des contextes plus généraux (par exemple des chaînes de Markov), vouloir obtenir des bornes explicites plutôt que des relations asymptotiques, montrer que les grandes déviations sont contrôlées uniformément pour un grand nombre de fonctions-tests de la variable étudiée, ou encore étudier les innombrables et délicates applications à la physique statistique...