dimanche 15 février 2009

Lorsque la philatélie s'intéresse aux mathématiques

Introduction

Les philatélistes qui se spécialisent dans les émissions du milieu du dix-neuvième siècle finissent un jour ou l'autre par s'intéresser aux variétés positionnelles. Ces variétés constantes permettent d'identifier la position d'un timbre dans la planche d'impression. Cette identification peut être triviale comme sur les premiers timbres émis par l'Angleterre où deux lettres dans les coins du timbre identifient de façon claire la position du timbre, de AA à TL. La plupart du temps cependant l'identification nécessite un examen attentif d'infimes détails d'impression et la comparaison de ceux-ci avec un ouvrage de référence.

Mis en vente par Spink, vente aux enchères n° 8042 du 03.12.2008, lot n° 149.

Cote : 20 000£
Valeur estimée : 2500 à 3000£
Prix de vente : Invendu

La question du philatéliste

Supposons que je veuille débuter une reconstruction de planche, c'est-à-dire trouver, pour un timbre donné, un exemplaire pour chaque position de la feuille complète. Combien de timbres dois-je m'attendre à acheter ou examiner avant d'obtenir une collection complète ?

L'analyse du mathématicien

La première hypothèse à faire, c'est que la probabilité d'obtention de chaque position est équiprobable. C'est à priori le cas puisque les timbres sont imprimés en feuilles complètes. Notre hyporhèse est donc parfaitement acceptable, sauf si l'une des positions présentait un caractère exceptionnel (comme une variété nettement visible), auquel cas les philatélistes auront porté attention à cette variété et il est plausible que plus d'exemplaires de cette position que des autres auront traversé le temps. Nous maintenons néanmoins notre hypothèse.

La seconde hypothèse qui permet de simplifier considérablement l'analyse est de supposer que le tirage du timbre considéré a été très important en terme de volume. En effet, s'il ne l'avait pas été, une fois une position ajoutée à notre collection, la probabilité d'occurence de cette position diminuerait. Cas extrème, si une seule feuille a été imprimée, une fois que j'ai ajouté une position à ma collection, je n'ai plus aucune chance d'obtenir la même position. Nos calculs supposerons en fait que le tirage a été infini.

Le troisième point qu'il est important de considérer est de savoir qu'elle est exactement la question. La réponse mathématique est simple, notre ami philatéliste souhaite connaître l'espérance du processus aléatoire qu'il décrit implicitement. L'espérance est une moyenne pondérée par la probabilité de chaque événement.

Faisons une parentèse pour illustrer l'espérance mathématique. Est-il plus rentable d'assurer une Peugeot 206 valant 12 000€ contre le vol pour 75€ / an, sachant que le taux de vol est de 100 véhicules / 100 000. Si j'assure mon véhicule, je dépense avec certitude 75€ / an. Sinon, je peux « espérer » perdre 12 000€ multiplié par un millième, soit 12€ / an. Sur une très longue période, il est donc nettement plus avantageux de ne pas assurer son véhicule. Cependant, à peu près tout le monde assure son véhicule contre le vol, et je vous laisse le soin de méditer sur le sujet.

Notre ami philatéliste, connaissant l'espérance, voudra également avoir une idée plus précise de ce à quoi il doit s'attendre. Nous lui fournirons donc le nombre de timbres qu'il devra examiner pour avoir par exemple 75% ou 90% de chance de compléter sa collection.

Un exemple concret

Avant de nous lancer dans nos calculs, prenons l'exemple concret d'un philatéliste qui voudrait avoir les deux moitiés d'un Double de Genève. Les deux premiers timbres qui lui seront offerts peuvent être
  1. Le gauche puis un deuxième gauche.
  2. Le gauche et le droit.
  3. Le droit d'abord et ensuite un gauche.
  4. Le droit puis un deuxième droit.
On voit qu'il a donc une chance sur deux de réussir sa collection avec les deux premiers timbres. Dans le premier et le quatrième cas, il devra attendre un qu'un troisième exemplaire soit offert et il sera face aux possibilités suivantes :
  1. Gauche, gauche, gauche.
  2. Gauche, gauche, droit.
  3. Droit, droit, gauche.
  4. Droit, droit, droit.
Ainsi, s'il a échoué à la compléter en deux fois, il a encore une chance sur deux de la compléter en trois fois, et ainsi de suite.

En résumé, notre collectionneur a 50% de chance de réussir sa collection dès les deux premières offres qui se présentent, 75% en trois, 87,5% en quatre, etc. Son espérance est égale à


ce qui donne, en ajoutant tous les termes jusqu'à l'infini, 3, tout simplement. Le collectionneur doit donc s'attendre à examiner trois exemplaires avant d'en voir un gauche et un droit.

Cas général

La solution du cas général nécessite quelques compétences en analyse combinatoire. Le problème est équivalent à étudier les mots qui contiennent au moins une fois chacune des lettres d'un alphabet donné. Si n est le nombre de lettres de l'alphabet et k est la longueur d'un mot, alors


est le nombre de mots de longueur k qui contiennent au moins une fois chaque lettre de l'alphabet, si k est bien sûr supérieur ou égal à n. Pour avoir une idée d'où cette formule sort, il faut se rappeler des diagrammes de Venn. Le privilège du mathématicien est de pouvoir dire que le résultat est évident et que le soin de la démonstration est laissé au lecteur...

La probabilité qu'un mot de k lettres contiennent toutes les lettres de l'alphabet est donc donnée par


et la probabilité qu'un mot de k lettres contiennent toutes les lettres de l'alphabet mais que ce ne soit pas le cas pour le même mot auquel on enlève la dernière lettre est


Nous avons donc toutes les billes pour calculer ce qui nous intéresse, y compris l'espérance, qui est donnée par


Exemples de calculs

Il est maintenant temps de sortir la calculatrice :

Nombre de positions 2 4 25 100 240
Espérance, en nombre de timbres
3,00 8,33 95,40 518,74 1454,38
50% de taux de réussite
2 7 90 497 1403
75% de taux de réussite
3 10 111 584 1613
95% de taux de réussite
6 16 152 754 2025
99% de taux de réussite
8 21 192 916 2415
99,9% de taux de réussite
11 29 249 1146 2967

Ce tableau donne, pour quelques tailles de planche, l'espérance ainsi que le nombre de timbres requis pour avoir une probabilité donnée de compléter la collection. Ainsi, si je souhaite reconstruire une planche de 100 timbres, je dois m'attendre à devoir examiner 518,74 exemplaires avant d'en avoir vu un de chaque position. Il faut 754 exemplaires pour avoir 95% de chance d'en avoir vu un de chaque.

Les valeurs données ici sont arrondies, l'espérance pour n = 100 est par exemple exactement égale à


Ce logiciel est impressionnant !

La courbe de distribution de probabilité cumulative

Pour terminer, une courbe pour le cas n = 100 :


Une autre approche

Suite aux commentaires d'Emeric, je me dois de présenter une approche alternative pour calculer l'espérance. Supposons que parmi les n timbres que je souhaite obtenir, il m'en manque m. J'ai donc une probabilité m / n que le prochain timbre que j'examinerai ne fasse pas déjà partie de ma collection.

Plus généralement, la probabilité qu'il me faille examiner k nouveaux exemplaires avant d'en trouver un que je ne possède pas déjà est donnée par


Cette formule se comprend aisément; il me faut k - 1 échecs suivi d'un succès. L'espérance de ce processus, c'est-à-dire le nombre moyen de timbres que je devrai examiner avant d'en trouver un qui ne fasse pas déjà partie de ma collection est donnée par


Cette somme infinie est en fait une série géométrique et c'est probablement l'une des plus simple à résoudre, d'où la solution élégante et concise. Remarquez que lorsque m = n, c'est-à-dire lorsque je ne possède encore aucun timbre, l'espérance est égale à 1, ce qui le résultat attendu puisque le premire timbre que j'examinerai ne fera forcément pas partie de ma collection.

Compléter notre collection revient à ajouter un timbre à la fois, donc d'appliquer le processus aléatoire décrit ci-haut pour m = n, m = n - 1, m = n - 2, ... jusqu'à m = 1. L'espérance pour le processus complet est donc donnée par


ce qui, vous en conviendrez, est une formule infiniment plus simple que celle que j'ai donnée plus haut. À l'aide d'une calculatrice, on peut vérifier que les résultats sont identiques à ceux obtenus précédemment :

Nombre de positions 2 4 25 100 240
Espérance, en nombre de timbres
3,00 8,33 95,40 518,74 1454,38

Une approximation lorsque n est grand

En utilisant une propriété des nombres harmoniques découverte par Euler, on obtient l'approximation suivante lorsque n est grand :


où gamma est la constante d'Euler-Mascheroni, qui vaut 0,5772156649... et des poussières. L'approximation est-elle bonne ?

Nombre de positions 2 4 25 100 240
Espérance, en nombre de timbres
3,00 8,33 95,40 518,74 1454,38
Valeur approchée
3,04 8,35 95,40 518,74 1454,39

Même pour n = 2, l'erreur n'est que de 0,04. C'est ce qui s'appelle une convergence rapide !

L'équivalence des deux formules

Les deux formules pour l'espérance donnent le même résultat. Peut-on en faire la démonstration rigoureuse ? Sûrement, mais je n'y suis pas encore arrivé !

Pour terminer, j'ai découvert en furetant que le problème discuté dans cet article est connu sous le nom du coupon collector's problem.

Mise à jour du 22 avril 2009

Puisque cet article était illustré d'un bloc des premiers timbres anglais, faisons-nous plaisir avec ce rare bloc de six du fameux « penny black » :

Mis en vente par Cherrystone Philatelic Auctioneers, vente aux enchères du 29.04.2009, lot n° 467.

Cote : 135 000£
Mise à prix : 95 000$
Prix de vente : 100 000$

Si son prix est si élevé, c'est qu'il s'agit d'exemplaires de la planche n° 11, la dernière utilisée pour ce timbre. Contrairement au un penny rouge de 1864, le numéro de planche n'est pas imprimé dans les ornementations sur les bords du timbre; il doit donc être déterminé par l'examen des infimes différences qui caractérisent cette planche. Un certificat d'authenticité est donc incontournable.

4 commentaires:

  1. Oui c'est une formule approchée valable pour n grand. On peut l'obtenir comme ceci :

    Si on a déjà obtenu k variétés, alors la probabilité d'obtenir avec le timbre suivant une variété déjà dans la collection est k/n. En appliquant la formule de Bernouilli, la probabilité de devoir recourir à s tirages exactement pour en obtenir une nouvelle est : P(k, s) = (k/n)^(s-1)*(1-k/n).

    En sommant sur tous les s on trouve que le nombre moyen de tirages pour obtenir une nouvelle variété quand on en a déjà k est : N(k) = somme des s * P(k, s) = 1/(1-k/n) (je passe les manips techniques).

    On en déduit que le nombre moyen de tirages nécessaires pour obtenir les n variétés est N = somme des N(k), avec k compris entre 0 et n-1. Comme N(k) = n/n-k, la somme des N(k) est en fait la série harmonique Hn = somme 1/k à l'envers multipliée par n. On sait que Hn est approximé par ln n, d'où le résultat.

    RépondreSupprimer

  2. Merci pour tous ces détails ! J'en ai profité pour compléter mon article avec ta méthode... et pour rectifier la valeur approchée.


    RépondreSupprimer
  3. Très intéressant !

    J'ajouterais qu'on peut estimer le nombre moyen de timbres qu'il faudra acheter pour compléter la collection par une formule simple : si n est le nombre de variétés différentes, il en faudra en moyenne n ln n.

    RépondreSupprimer

  4. Comment arrive-t-on à n*ln(n) ? Pour n = 100, on arrive à 460,52 alors qu'avec ma formule on arrive à 518,74. Il y en a forcément un des deux qui a tort, sauf si bien sûr le problème à
    résoudre n'est pas le même... À moins que ce soit la limite lorsque n tend vers l'infini ?


    RépondreSupprimer