Bibm@th

Forum de mathématiques - Bibm@th.net

Bienvenue dans les forums du site BibM@th, des forums où on dit Bonjour (Bonsoir), Merci, S'il vous plaît...

Vous n'êtes pas identifié(e).

#1 14-06-2010 08:46:53

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Adéquation à une loi équirépartie

Bonjour à toutes et à tous,

Un type de problème me chiffonne depuis un certain temps : il s'agit de l'adéquation à une loi équirépartie. Ce type de problème est vu en 1eS et en Term ES et peut faire l'objet d'une question dans un sujet de bac.
Le but est de sensibiliser les élèves à la variabilité de l'échantillonnage.
L'expérience type consiste à lancer un dé n fois et se poser la question s'il est équilibré ou non. Pour ce faire, on calcule la somme des carrés des écarts des fréquences obtenues lors de cette expérience avec les probabilités théoriques : on obtient un indicateur dobs2.
Ensuite, dans le problème, on donne la loi de répartition d'un indicateur similaire mais issu de la simulation théorique d'une loi équirépartie (qui est en fait une loi de khi2).
Et on compare notre dobs2 au 9e décile de cette simulation théorique, qui vaut D9.

La formulation de ce problème telle que je l'ai vue dans des livres et aussi sur internet ( Adéquation à une loi équirépartie : http://pagesperso-orange.fr/gilles.cost … deqloi.pdf ) me pose problème.

Ex de formulation dans le Declic TermES (relatif à un jeu de pile ou face)
Théorème admis : 90% des valeurs de d2 obtenues lors de la simulation de la loi équirépartie sont inférieurs à D9, si la valeurs dobs2 trouvée lors de l'expérience sur la pièce testée est telle que dobs2<D9
Alors on conclut, avec un risque d'erreur de 10% que la pièce est équilibrée.

Si on extrapole ce théorème, et qu'on utilise le 99e centile comme valeur de comparaison, on conclut la même chose avec seulement 1% d'erreur. C'est d'ailleurs le raisonnement que fait l'auteur du papier cité plus haut, tout en reconnaissant qu'il y a là un paradoxe.

Et on peut aller plus loin…
En clair, plus le dé est pipé, plus on prouve avec une marge d'erreur de plus en plus faible qu'il est équilibré !!!

Ce raisonnement est celui que j'ai retrouvé un peu partout (sachant que dans certains manuels, le résultat au test reste suffisament évasif pour ne pas prêter à la polémique).
Maintenant, j'ai révisé plusieurs documents afin d'y voir clair, et dans wikipédia (test d'hypothèse), j'ai trouvé ça :

Il y a deux façons de se tromper lors d'un test statistique:
    ▪    la possibilité de rejeter à tort l'hypothèse nulle lorsqu'elle est vraie. On appelle ce risque le risque de première espèce et en général on note α la probabilité de se tromper dans ce sens. α est alors la probabilité d'avoir un faux négatif : de rejeter une hypothèse alors qu'en fait elle était vraie.
    ▪    la possibilité d'accepter à tort l'hypothèse nulle lorsqu'elle est fausse. On appelle ce risque le risque de deuxième espèce et en général on note β la probabilité de se tromper dans ce sens. β est alors la probabilité d'avoir un faux positif : d'accepter une hypothèse alors qu'en fait elle était fausse.

J'ai bien l'impression que dans les manuels, il y a confusion entre les risques α et β
Reprenons notre test et posons l'hypothèse nulle : le dé est équilibré.
le risque α correspond donc à la possibilité de REJETER à tort notre hypothèse nulle. Ca paraît logique : au delà de D9, il n'y a que 10% de chances pour que notre dobs2 corresponde à de la variabilité d'échantillonnage.

Ca reviendrait donc à reformuler le théorème précédent de la manière suivante : si dobs2>D9, on conclut, avec un risque de 10% que la pièce N'est PAS équilibrée.

Si on compare avec le 99e centile, on n'a plus que 1% de possibilité d'erreur, donc en clair on est quasi sûr que la pièce (ou le dé) est pipée, ce qui rejoint le bon sens.

Les commentaires qui pourraient éclairer ma chandelle sont extrêmement bienvenus !

Dernière modification par Domi (14-06-2010 10:49:50)

Hors ligne

#2 14-06-2010 10:38:26

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Adéquation à une loi équirépartie

Bonjour Domi,

tu as tout à fait raison !

Tout d'abord, il faut que tu saches qu'il y a des mètres linéaires de publications sur ces sujets qui recouvrent le champ de l'inférence statisique. Donc le sujet est loin d'être épuisé.

Ensuite, je relève deux points importants dans tes questions.

Premièrement, quand le test du CH2 est satisfait, on ne dit pas qu'on accepte H0 (l'hypothèse qu'on teste), mais on dit qu'on n'a aucune raison de la rejetter, au seuil de 10, 5 ou 1 %,  ce qui est totalement différent au plan de l'interpétation.

De plus,  il faut bien comprendre ce que l'on dit quand on formule H0. On dit "supposons que la pièce soit équilibrée".
Et donc on déduit théoriquement qu'on doit avoir  prob(P)=prob(F) = 1/2 et on en déduit le calcul du carré de la distance entre la loi observée et celle supposée (qui est variable aléatoire qui, sous certaine condition, suis une loi du KHI2).

Or l'hypothèse est la déduction d'un calcul théorique qu'on pourrait vérifier si on pouvait effectuer un nombre infini de lancer ... ce qui est bien entendu impossible.

Je t'invite à prendre connaissance de http://www.bibmath.net/dico/index.php3? … /test.html qui constitue un bon résumé de la problématique que tu viens d'exposer.

A te lire !

Dernière modification par freddy (14-06-2010 12:46:08)

Hors ligne

#3 14-06-2010 12:40:05

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

C'est toujours un plaisir de te lire, Freddy ! Merci pour tes commentaires.
J'ai regardé le dico Bibmath (PS : dans ton lien, tu as englobé la virgule après le .html et donc le lien ne marche pas…), ça résume bien en effet.
J'ai lu un peu la même chose dans un livre du CERESTA. En fait, le point clé comme tu le dis, c'est le fait qu'un test d'hypothèse est négatif par nature, qu'on peut traduire en Normand par : on ne dit pas "c'est vrai", mais "ce n'est pas faux", ce qui est effectivement très différent.
Ce que j'ai vu aussi, dans le livre du CERESTA, c'est que les risques α et β ne sont pas complémentaires (α ≠ 1-β) dans le cas général. Intuitivement, je l'avais pressenti, car à priori, on ne connaît rien de la manière dont notre pièce (ou dé) est pipée et de la répartition des d2 qu'on obtiendrait en la lançant une infinité de fois.
Ce n'est donc pas parce que le dobs2 nous permet de dire à 1 ou 10% qu'on n'a pas affaire à de la fluctuation d'échantillonnage que ça signifie que le dé (la pièce) est pipé. Il peut y avoir d'autres causes !
Mais là, c'est clair, j'ai dépassé ma limite d'incompétence depuis longtemps, la théorie qui va avec a l'air vraiment très compliquée !
Reste le truc qui me choque : je ne comprends pas qu'un sujet pareil, qui fait débat et dont on trouve dans des documents "officiels" (manuels, publications) des conclusions contraires puisse faire l'objet de questions de bac.

Hors ligne

#4 14-06-2010 12:57:36

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Adéquation à une loi équirépartie

Re,

c'est toujours un plaisir de répondre à des questions intelligentes ...

En fait, le test du CHI2 est très largement complété par bcp d'autres. Il est considéré comme un test à faire avec une batterie d'autres, il ne se suffit pas à lui seul.

Par contre, et comme tu le montres si bien, il permet de bien faire comprendre aux aspirants statisticiens la subtilité des tests statistiques et comment on peut facilement se tromper par des conclusions hâtives.

Sinon, je pense que c'est un choix fait par l'éducation nationale pour montrer aux élèves que les mathématiques ont des domaines d'application très variés.

Je me souviens comment, à une époque, on montrait aux élèves à quoi servaient le calcul du maximum d'une fonction dans l'application du principe du maximum de vraisemblance à partir d'un échantillon.

Le sujet figure dans la bibliothèque de bibmath : comment deviner la proportion de poisson d'une couleur donnée  à partir du résultat d'un coup d'épuisette ! (le lien est là http://www.bibmath.net/dico/index.php3? … rais.html)

PS : j'ai enlevé la virgule du lien ci dessus.

Hors ligne

#5 14-06-2010 17:38:55

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

freddy a écrit :

Sinon, je pense que c'est un choix fait par l'éducation nationale pour montrer aux élèves que les mathématiques ont des domaines d'application très variés.

C'est sûr, et non seulement je ne conteste pas la démarche mais au contraire, je me réjouis que les maths se soient ouvertes à la vie courante et qu'on ait abandonné la philosophie type "médecins de Molière" comme je l'ai connue dans les années 70. Il est clair que sur 100 élèves qui rentrent au lycée, combien feront des maths pures ? L'enseignement doit en tenir compte.
Maintenant, quand un sujet est un peu flou comme celui dont on discute, on peut le laisser au programme tout en évitant de le poser aux examens comme le bac (après, les concours, c'est autre chose…).
Mais c'est vrai que si ce sujet n'apparaît pas au bac, il ne sera sans doute pas traité en classe… C'est dommage, ça pourrait être l'occasion pour les profs de montrer aux élèves que même en maths, tout n'est pas "blindé", et qu'il y a des sujets à polémique et discussion !

Hors ligne

#6 14-06-2010 22:28:37

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Adéquation à une loi équirépartie

Bonsoir Domi,

je viens de prendre connaissance de l'article que tu as joint à ton post. L'analyse s'appuie sur la répétition de la même expérience 10.000 fois, simulés sous ordinateur.

Là encore, le problème évoqué cache un autre problème connu de tous ceux contraints de travailler avec des générateurs de nombres aléatoires. La question non triviale et qui n'est pas encore réglée est de trouver un vrai générateur de nombres aléatoires, c'est à dire de trouver un procédé déterministe générateur de nombres dont on peut affirmer qu'ils sont le résultat du tirage d'une table de nombres aléatoires équidistribués.

Le problème sous jacent est simple : au bout d'un certain temps, il est possible qu'on répète la même série de nombres déjà obtenus, ce qui élimine le caractère aléatoire au tirage. (cf "le calcul, l'imprévu", de Ivar Ekeland).

Et l'article que tu as joint passe à côté de ce problème (majeur), ce qui enlève, de mon point de vue, de la force à l'énoncé de son paradoxe.

Si j'ai un peu de temps, je soumettrais la procédure à un générateur "industriel", sous SAS, de l'expérience de la pièce plus ou moins bien équilibré, et communiquerais les résultats.

Une bonne lecture : http://fr.wikipedia.org/wiki/G%C3%A9n%C … %A9atoires

Dernière modification par freddy (14-06-2010 22:33:12)

Hors ligne

#7 15-06-2010 08:55:17

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

Dis moi, Freddy, je ne voudrais pas t'empêcher de dormir avec mon problème (cf l'heure de ton post) !
Le "pseudo" nombre aléatoire (c'est sa vraie dénomination, les concepteurs de programmes qui utilisent cette fonction sont conscients de ce que tu dis) pose effectivement souci.
Pour la répétition éventuelle des séries, il doit y avoir moyen de faire un genre de test d'autocorrélation assez simple, pour vérifier si oui ou non sur un certain nombre de tirages on retrouve des séries sinon égales, du moins fortement corrélées.
Je te propose le test suivant, que je vais tenter avec le logiciel Octave :
- tirage d'une série de nombres aléatoires (disons 1 million)
- on prend les mille premières valeurs (n°1 à 1000) : c'est notre série de référence
- on prend les mille premières valeurs mais décalées de 1 (n°2 à 1001)
- on calcule le coef de corrélation (enfin, c'est Octave qui bosse !) entre cette série et celle de référence
- on recommence l'opération en décalant encore de 1 (n°2 à 1002)
et ainsi de suite jusqu'au décalage 1million - 1000
On examine les valeurs des coefs de corrélation qui doivent être très faibles si les nombres sont vraiment aléatoires.
Qu'en penses-tu ?
Allez, je sens que l'ordi va chauffer sec aujourd'hui !

Hors ligne

#8 15-06-2010 09:05:45

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Adéquation à une loi équirépartie

Bonjour Domi,

j'ai l'habitude de veiller tard !... et ton sujet ne me hante pas :-)))

Avec ta méthode, je conjecture des coeffs de corrélation très proche de 1, par construction ;-)))

Teste plutôt : les mille premiers, puis les mille qui suivent les mille premiers, and so one ... Là encore, il y a des mètres linéaires de littérature sur "comment être sûr que la série est bien aléatoire ?".

Hors ligne

#9 15-06-2010 09:52:24

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

Ben non, va falloir revoir ta conjecture : les coefs de corrélation sont très proches de 0, et ça ne m'étonne pas. Vu que les nombres sont théoriquement aléatoires, si on corrèle une série avec la même décalée d'un cran, il n'y a aucune raison pour que les valeurs soient corrélées.
J'ai lancé ma moulinette, mais auparavant, j'ai fait un test de mon programme en prenant 100 valeurs parmi 1000 en glissant comme indiqué. Pour les coefs de corrélation, j'ai obtenu un truc à distribution qui peut ressembler à une gaussienne (ok, ok, je ferais le test de khi 2 pour vérifier ça !), avec des valeurs min / max aux alentours de -0.27 à +0.27 (c'est symétrique / 0).
Pour info, en prenant 2 séries de 1000 consécutives comme tu l'indiques, j'avais eu un coef de -0.06, soit une corrélation quasi nulle => sur 1000 valeurs, on doit pouvoir considérer que le générateur est à peu près bon ?
A ± 0.27, je trouve que la corrélation n'est plus si nulle que ça !

Pour info, voilà mon programme (si Yoshi traîne par là, il verra que comparé au python, y'a pas beaucoup de code pour le boulot que ça fait !) :

% test de nombres pseudo aléatoires

% Vecteur de nombres aléatoires
ech=rand(1001000,1);

% on le sauve
save ech

% Echantillon témoin de 1000 valeurs
echt=ech(1:1000);

% init du vecteur de corrélation
corgliss=zeros(1000000,1);

% Calcul des coefs de corrélation
for j=1:1000000
    echj=ech(j+1:1000+j);
    corgliss(j)=corrcoef(echt,echj);
end

% Résultat des coefs de corrélation
hist(corgliss,20); grid on
min(corgliss)
max(corgliss)

Hors ligne

#10 15-06-2010 10:22:55

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

Ah, ça a été plus rapide que prévu !
Pour info, la fonction corrcoef d'Octave calcule la valeur suivante :
corrcoef(x,y) = cov(x,y)/(std(x)*std(y))
Au niveau des résultats, on a un min à -0.15483 et un max à 0.16543, soit des valeurs très faibles.
L'histo des répartitions des coefs de corrélation est le suivant :

Image2.png

et voilà ce que donne le plot des deux séries les "mieux" corrélées (une série en X, l'autre en Y) :

Image1.png

Globalement, on ne voit pas franchement de corrélation, mais localement, on peut voir des petits motifs.
Ce qui est bizarre, c'est qu'avec des séries plus courtes (100 valeurs consécutives), j'ai eu des coefs de corrélation plus élevés

=> je relance avec des séries de 30 pour voir

Hors ligne

#11 15-06-2010 11:18:26

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

Les séries de 30 sont beaucoup plus intéressantes !
On trouve un min de -0.79 et un max de 0.82 !!!
Environ 5 pour 1000 des coefs de corrélation ont une valeur absolue supérieur à 0.5.
L'histo donne ceci :

Image4.png

et la meilleure corrélation donne ceci :

Image3.png

Là, c'est vraiment très net.

Conclusion (à la hache, je te laisse cogiter ça car il y a sûrement plein de paramètres qui m'échappent) :
Sur 1 million de tirages consécutifs, il n'y a pas de répétition absolue des mêmes nombres (on serait tombés sur une corrélation =1 qqpart)
Sur 2*1000 échantillons pris dans la série, il n'y a pas non plus de franche corrélation (<0.15 en valeur absolue)
Sur des séries de 30 échantillons en revanche, on peut trouver de fortes corrélations, mais avec une occurence inférieur au pourcent.
Peut-on conclure que les manips de lycée qui sont basées sur des tirages de 1000 ou 10000 échantillons sont fondamentalement biaisées par cette corrélation ? Au vu des résultats, je ne pense pas vraiment, mais pour des analyses fines, peut-être que ça pose souci…

Hors ligne

#12 15-06-2010 11:31:19

freddy
Membre chevronné
Lieu : Paris
Inscription : 27-03-2009
Messages : 7 457

Re : Adéquation à une loi équirépartie

Re,

ma conjecture est erronée, au temps pour moi !

Pour le reste, je regarde ... mais je fais attention de ne pas y passer le corps entier, car le sujet est loin d'être résolu (origine d'un ensemble de tests polus ou moins sophistiqué  que tu peux facilement imaginer ...)

Pour le sujet du Pile ou Face, j'ai répété l'expérience et te confirme, sans surprise, que le khi 2 seul n'a pas bcp de sens tout seul : regarde la plage de variation quand tu modifie légèrement le "pipage" du dé, calcule la moyenne et sa variance, ...

A te lire, je retourne justifier ma présence au bureau !

Hors ligne

#13 16-06-2010 09:58:01

Domi
Membre
Inscription : 12-05-2009
Messages : 35

Re : Adéquation à une loi équirépartie

Bonjour Freddy,
j'ai regardé l'article wikipédia sur les nombres pseudo aléatoires : intéressant en effet.
Ce que j'en tire, c'est que même s'ils sont imparfaits, pour des "petits" tests (ex : 10000 valeurs), il n'y a pas de soucis de périodicité (je pense que mon test prouve qu'il n'y a pas de périodicité "simple" sur 1 million de valeurs avec le générateur d'Octave, car on ne retombe pas sur les mêmes valeurs de la suite après n échantillons. Après, il y en a peut-être d'autres formes de périodicité, en prenant par exemple une valeur sur deux, une sur trois… une sur n et en répétant mon test !).
Les ordis actuels sont quand même des monstres de puissance et de capacité mémoire (j'ai commencé avec un oric atmos 48k de RAM, processeur 8bits à 1MHz en 1984, ce qui n'est pas si vieux…) et permettent de faire des calculs à but pédagogique sans arrières pensées sur la validité des résultats.
De toutes façons, dans le pb qui m'intéressait, le souci était beaucoup plus dans l'interprétation du test que dans la validité de la pseudo-distribution de khi2, qui, vu la manière dont elle est générée, est aussi forcément source de variabilité !

Hors ligne

Pied de page des forums