De Weg

Weg · Entraide (collège-lycée)

En tant qu’étudiant, tu a probablement accès gratuit à la BU science de ta ville. Tu y trouvera des bouquin de tout niveaux.

Weg · Entraide (supérieur)

Ok, donc la deuxième égalité est bien fausse. C’est ce qui me semblait.

Et l’astuce qui me manquait, c’est de soustraire $(X_i - μ)$ au deux termes de la soustraction. Ce qui permets d’obtenir des variables indépendantes dans la suite du calcul.

Effectivement, comme ça, ça marche. Merci

J’ai l’impression que la lecture du bouquin va pas être facile…

Weg · Entraide (supérieur)

Bonjour,

Je viens de commencer un bouquin sur les stats géospatiale. Dès le départ je suis largué. Voilà ce qu’écrit l’auteur à propos de la variance d’un échantillon X :

$(n-1)s^2(x)$

$=\sum_{i=1}^{n}(X_i - \bar{X})^2$

$=\frac{1}{n^2}\sum_{i=1}^{n}(n(X_i-μ) - (\bar{X} - μ))^2$

$=\frac{1}{n^2}\left(
(n-1)^2\sum_{i=1}^{n}(X_i - μ)^2 -
2(n-1)\sum_{i=1}^{n}(X_i - μ)\sum_{j=1, j≠i}^{n}(X_j -μ) + \sum_{i=1}^{n}(\sum_{j=1, j≠i}^{n}(X_j - μ))^2
\right)$

La première égalité, c’est la formule de la variance habituelle, jusque-là ok.

La deuxième : on ajoute μ et on soustrait μ, ça ok. On multiplie et on divise par $n^2$, ok, mais… il manque pas un $n$ avant le $(\bar{X} - μ)$ ??? ou des parenthèses, je sais pas. Mais telle quelle, l’égalité me semble fausse. Non ?

Quand à la troisième égalité, je ne comprends absolument pas ce qu’il fait. Je me doute que c’est basé sur le développement de $\bar{X}$ en $\frac{1}{n}\sum_{j=1}^{n}X_j$, mais comment passe-t-il de $n$ à $n-1$ dans le premier et le deuxième terme ? Pourquoi exclu-t-il $j = i$ dans le deuxième et le troisième terme ? En vertu de quoi transforme-t-il la somme de somme en produit de somme dans le deuxième terme ? Quand au troisième terme, je trouve la même chose sous réserve d’accepter qu’il ne manque pas de $n$ à la deuxième égalité.

Bref, ça sort d’où tout ça ?

Weg · Programmation

Bonjour,

Je cherche a tester si deux échantillons sont significativement différents. H_0: μ_x == μ_y.
Hypothèses de normalité non remplie, donc pas de test de Student classique.
Voici quelques exemples de code :

from scipy import stat

import numpy as np

import pandas as pd

# […]

column = "column name"                  # Test the column you want

x = df.loc[df["classe"] == 0, column]  # First sample

y = df.loc[df["classe"] == 1, column]  # Second sample

z = df[column]                                   # Concatenated sample

B = 9999                                           # nb répetition

# (1) Permutation wth built-in scipy*:

ttr = stats.ttest_ind(x, y,

                      equal_var = False,

                      alternative = "two-sided",

                      method = PermutationMethod(n_resamples=B, batch=100)

                     )

t_obs = ttr.statistic

ttr.pvalue

# (2) Handmade permutation test:

def statistic(x, y):

    num = y.mean() - x.mean()

    denom = 1  # np.sqrt(y.var()/y.shape[0] + x.var()/x.shape[0])

    return num/denom

t_obs = statistic(x, y)

t_dist = np.zeros(shape=B)

for i in range(B):

    z_ = np.random.permutation(z)

    x_ = z_[:len(x)]

    y_ = z_[len(x):]

    t_dist[i] = statistic(x_, y_)

    #t_dist[i] = stats.ttest_ind(x_, y_,

    #                            equal_var = False,

    #                            alternative = "two-sided").statistic  # give a little higher p-value

ASL = np.sum(np.abs(t_dist) >= abs(t_obs))/B

np.sum(np.abs(t_dist) >= abs(t_obs))

ASL

# (3) Bootstrap for means equality:

def statistic(x, y):

    num = y.mean() - x.mean()

    denom =  np.sqrt(y.var()/y.shape[0] + x.var()/x.shape[0])

    return num/denom

t_obs = statistic(x, y)

t_dist = np.zeros(shape=B)

for i in range(B):

    x_ = np.random.choice(x - x.mean() + z.mean(), len(x), replace=True)

    y_ = np.random.choice(y - y.mean() + z.mean(), len(y), replace=True)

    t_dist[i] = statistic(x_, y_)

ASL = np.sum(np.abs(t_dist) >= abs(t_obs))/B

np.sum(np.abs(t_dist) >= abs(t_obs))

ASL

# (4) Bootstrap for distribution equality:

t_dist = np.zeros(shape=B)

for i in range(B):

    z_ = np.random.choice(z, len(z), replace=True)

    x_ = z_[:len(x)]

    y_ = z_[len(x):]

    t_dist[i] = statistic(x_, y_)

ASL = np.sum(np.abs(t_dist) >= abs(t_obs))/B

np.sum(np.abs(t_dist) >= abs(t_obs))

ASL

Le (1) est un test de permutation avec scipy. Le (2) est une réimplémentation manuelle censée faire exactement la même chose. Il semble cependant y avoir un léger biais entre les deux approches. C’est difficile à estimer dans la mesure où les valeurs peuvent changer d’un tirage aléatoire à un autre, mais sur certaines colones, il semble que la p-value données par la méthode scipy soit systématiquement plus faible de quelques % par rapport à la méthode manuelle. Pourquoi?

Ensuite j’ai mis deux implémentations du bootstrap. Le premier est présenté comme servant à tester l’égalité de deux moyennes. Le deuxième comme servant à tester l’égalité de deux distribution (Efron & Tibshirani). Ils donne des pvalue similaire voire un peu plus élevées que (2). J’ai du mal à comprendre les nuance entre les deux. (4) est identique à (2), à ceci près que les tirages sont effectués avec replacement. (3) est un peu différent et je ne comprends pas trop ce que signifie le centrage sur la moyenne de z. Pourquoi (3) testerait-il plus l’égalité des moyenne et (4) l’égalité des distributions?

Merci d’avance.

* forum bug : si j’ajoute le i de « wth», j’ai un message «no spam please». Il est donc interdit de lire «avec» en anglais sur ce forum!

Weg · Entraide (supérieur)

Bonjour,

Je disposerai d’un peu de temps à la rentrée prochaine et j’aimerai en profiter pour faire une formation de renforcement en statistiques. J’ai regardé du côté de l’ENSAI-ENSAE, ils ont des trucs intéressant, mais les formations courtes ne sont pas éligibles au CPF.

Est-ce que certains d’entre vous ont connaissance d’autres organismes fournissant des formations de qualité dans ce domaine?

Weg · Entraide (supérieur)

prenons $X \sim \mathcal{N}\left(μ; σ^2\right)$

On peut estimer $μ$ grâce à $\overline{x}_n = \frac{1}{n}\sum_{i=1}^{n}x_i$ et $σ$ grâce à $s_n^2 = \frac{1}{n}\sum_{i=1}^{n}\left(x_i - μ\right)^2$ ou ${s^*}_n^2 = \frac{1}{n-1}\sum_{i=1}^{n}\left(x_i - \overline{x}_n\right)^2$ selon que $μ$ est connue ou non.

On peut ensuite trouver leurs intervalles de confiance car on a $\overline{x}_n \sim \mathcal{N}\left(μ; \frac{σ^2}{n}\right)$ ou $\sqrt{n}\frac{\overline{x}_n - μ}{{s^*}_n} \sim \mathcal{T}_{n-1}$ selon que $σ$ est connue ou non, et $\frac{n}{σ^2}s_n^2 \sim \mathcal{X}_n^2$ et $\frac{n-1}{σ^2}{s^*}_n^2 \sim \mathcal{X}_{n-1}^2$.

Jusque là très bien, on trouve ça dans tous les bouquins.

Maintenant, prenons $X \sim \mathcal{L}$, avec $\mathcal{L}$ une loi quelconque d’espérance $μ$ et de variance $σ^2$. En vertu du TCL, les résultats précédents sont toujours valables sous réserve que $n$, la taille de l’échantillon, soit suffisamment grand. Jusque-là, j’ai toujours bon? C’est évident pour l’espérance, je suis moins sûr pour la variance.

Ok. Maintenant ça veut dire quoi «$n$ suffisamment grand»? Généralement on parle d’au moins une trentaine, mais pourquoi? Ou plutôt à quelle approximation ça correspond? Ça me semble avoir peu de sens de se donner un intervalle de confiance si la précision de ses bornes n’est pas connue. Existe-t-il une méthode pour déterminer la précision (ou un majorant de cette précision) en fonction de $n$?

Merci d’avance.

Weg · Entraide (supérieur)

Merci de ta réponse.

Bon, elle peut un peu se résumer à «c’est à l’instinct». Ça me satisfait pas pleinement en terme de rigueur scientifique. Je vais pas insister plus, mais si quelqu’un passe par là et à une idée plus précise sur la question, qu’il n’hésite pas à déterrer le sujet.

Weg · Entraide (supérieur)

800 vues et aucune réponse?

Bon, commençons par reformuler d’une façon plus simple.

Vous avez prélevé un échantillon d’une variable quelconque. La loi est *a priori* inconnue. Pour pouvoir effectuer une analyse quelconque vous allez devoir faire une hypothèse ou une inférence sur la loi que suis cette variable.

Comment justifier de façon rigoureuse la loi utilisée? En particulier sur des échantillons relativement petits (la réponse pouvant être «en dessous n valeurs c’est impossible», ou «en dessous de n valeurs la probabilité de se tromper est de…».)

J’imagine que je suis pas le premier à me poser cette question. Est-ce qu’il y a des méthodologies connues pour ce genre de problème?

Weg · Entraide (supérieur)

Le sujet a quelque semaines, mais vu que personnes n’a répondu.

En gros conservation de l’energie => conservation du travail de ta force => G·dx = F·dz, avec G la force de pesanteur sur ta charge, F la force exercée sur ton vérin, dx le déplacement horizontal du vérin, dz le déplacement vertical de la table.

Ensuite, écris l’équation qui lie z à x (tu a juste besoin du théorème de pythagore). Tu dérives cette équation pour obtenir dz/dx. Tu as ton ratio.

Au passage la force initiale est d’autant plus grande que tes ciseaux sont écartés au départ. Donc tu as besoin de connaître le x initial pour dimensionné ton vérin.

Weg · Entraide (supérieur)

> Pour moi, si dx est la différentielle de x c'est que x est une fonction (quelle est la variable ?). Et dans ce cas, dx est une application linéaire mais diviser dx par x serait étrange. C'est comme écrire dx/dP en laissant croire que c'est un quotient !

x est la quantité achetée par les consommateurs. C’est bien une fonction, mais totalement empirique. Il n’y a pas d’équation a priori. Ça peut-être linéaire ou pas. On constate juste que si le prix d’un produit augmente, le nombre de produit vendu diminue. Si c’est un produit totalement dispensable, il diminue très vite. Si c’est un bien de première nécessité, il continuera à se vendre relativement bien même si le prix augmente fortement. Cette notion de réaction de la consommation au prix du produit s’appelle l’élasticité en économie. Encore une fois, ce n’est pas quelque chose qu’on obtient en dérivant une équation (sauf à avoir réussis à définir un modèle), mais en mesurant directement. Peut-être que la notation Δx et ΔP serait effectivement plus appropriée. Ensuite les économistes ne raisonnent pas en variation absolue, mais en variation relative par rapport à la valeur actuelle («le prix augmente de 10%» plutôt que «le prix augmente de 15€») pour avoir quelque chose de comparable d’un bien à l’autre (si on veut comparer l’élasticité du kilo de tomate et de l’immobilier, ça va être compliqué de comparer les réactions à une variation de 15€ du prix d’achat, par contre, un variation de 10% pourrait avoir un sens, même si c’est très discutable). D’où le fait de diviser la variation par la valeur actuelle.

Moi je suis convaincu que les économistes commettent plein d’erreur. Mais j’ai pas souvent eu l’occasion d’en avoir un sous la main pour en discuter. La dernière fois, c’était un de mes prof qui essayait de m’expliquer qu’on pouvait faire une relance keynésienne en investissant dans un projet qui n’aboutirait jamais. De mon point de vu sa démonstration démontrait simplement l’existance (évidente) de possibilités de décorrélation entre le PIB et la production. Je crois qu’aucun des deux n’a réussi à convaincre l’autre.

Weg · Entraide (supérieur)

dx c’est la différentielle de x, c’est à dire une variation infinitésimale de x, localement.

x/P, c’est la rapport entre le quantité et le prix. dx/dP, c’est le ratio entre la variation de quantité et une variation du prix. dit autrement lorsque le prix augmente de dP, la quantité consommée augmente de dx (avec dx probablement négatif si tu le note comme ça).

Ensuite tes profs raisonnent en relatif. Donc au lieux de dire «x augmente de dx lorsque P augmente de dP», ils disent « x augmente de n% lorsque P augmente de m%.». Donc ils divisent dx par x pour avoir cette variation relative de x en fonction de la variation relative de P.

Pour répondre en une phrase, dx/x est la différentielle relative de x en P lorsque P subit une variation relative de dP/P.

Weg · Entraide (supérieur)

Bonjour à tous,

Je suis nouveau sur le forum. Pour présenter un peu le contexte, j’ai repris les
études dans le domaine des science de l’environnement, où j’ai eu quelques cours d’analyses de données. Bien sûr on est dans le domaine des maths appliqués : le but n’est pas de refaire toute la théorie de la mesure, mais de comprendre les différents outils, leurs principes de fonctionnement, leurs limites, etc.

De même, côté enseignants, aucun d’eux n’est mathématicien. Ils connaissent ces
outils parce qu’ils en ont besoins dans leurs travail de tous les jours, mais
certains maîtrisent mieux que d’autres et en comprennent mieux que d’autre le
fonctionnement sous-jacent. La conséquence, c’est qu’ils ont un peu tendance à
retransmettre leur savoir tel qu’ils ont appris l’utiliser, mais j’ai encore un
peu de mal à trouver les réponses à certaines intérrogations.

Je commence donc par ouvrir un topic sur les tests les plus simples : Fisher &
Student. D’autres questions suivront.

Ces deux tests ont pour principale hypothèse la normalité des données. Et celui
de Student a en plus une hypothèse d’homoscédasticité.

Le problème c’est qu’ils s’agit d’échantillons prélevés sur le terrain, pas toujours très nombreux, pour lesquelles on a pas forcément de raison *a priori* de préviligier une loi plutôt qu’une autre.

Une des méthodes présentées en cours peut se résumer à peu près comme suit :

1. test de Shapiro-Wilk;
* Si p<0.95 tentative de normalisation et on reprends au 1.
* Sinon, on passe au 2.
2. test de Fisher.
* si p<0.95 on déduit avec 95% de certitude que les données n’appartiennent pas au même échantillon.
* Sinon on passe au 3.
3. test de Student
* si p<0.95 on déduit avec 95% de certitude que les données n’appartiennent pas au même échantillon.
* sinon, on ne peux rien déduire.

La méthodo me titille un peu. Le test de SW permets de prouver la non-normalité,
mais pas la normalité. Et celui de F permets de prouver l’hétéroscédasticité,
mais pas l’homoscédasticité. Au mieux, ils permettent de dire «les jeux de
données sont indicernables de jeux de données gaussiens de même variance».
Surtout que lorsqu’il s’agit d’environnement, on a pas toujours la chance
d’avoir des jeux de données de 200 échantillons (les prélèvements peuvent être
destructifs, prendre du temps, etc), Donc les tests auront beaucoup de mal à
invalider H0.

Premiere série de questions :

1/ Qu’est-ce que vous pensez de ce genre de raisonnement. Est-ce que ça vous
parait rigoureux?
2/ Quelles sont les conséquences si on fait un test-t sur des données qu’on
suppose gaussiennes, et que ces dernières de le sont pas.
3/ Faire un test de SW est-il vraiment plus fiable que de simplement vérifier
l’histogramme? Est-ce juste un moyen de quantifier cette normalité par la
valeur de p?

Ensuite, j’ai posé la question à un autre prof qui nous a fait un cours succins
sur les GLM. Lui, il a un avis complètement différents. Il ne l’a pas formulé
comme ça, mais en gros, c’est : «c’est une méthodologie obsolette, tous les
scientifiques ont arrêté de l’utiliser depuis 20 ans, sauf en sciences de
l’environnement. Les tests de Fisher et de Student ont été développés pour des
besoins très particuliers, et ne sont pas adaptés dans notre contexe. Vous ne
devais pas essayer d’inférer a posteriori de la distribution de vos données
d’après vos échantillons, mais vous devais faire vos hypothèses a priori en
fonction des propriétés attendus, et modéliser ensuite avec le bon GLM.».

Cette dernière phrase fait allusion à ce type d’arbre de décision : https://bedeffinianrowedavies.com/stati … nk-1-1.png

D’une certaine manière son raisonnement me parait plus honnête
intellectuellement : on fait une hypothèse parce qu’on a des raisons de la
faire, plutôt que d’essayer de se convaincre par des tests qui ne prouve rien
qu’une hypothèse est bonne parce qu’on en a besoin (enfin c’est mon impression).

D’un autre côté, je ne suis pas non plus certains de la justification des ces
hypothèses. Après tout, une loi de probabilité, c’est à peu de chose près
n’importe quelle fonction dont l’intégrale est égale à 1. Donc lorsqu’il dit
qu’il faut prendre une loi de Poisson si la données est discrète, définie
positive et non majorée, j’ai une peu envie de demander pourquoi pas n’importe
quelle autre loi discrète positive et non majorée. Après tout, il ne doit pas
être difficile de construire une infinité de loi de probabilité qui respecte ces
critères non?

Donc dernière question (pour le moment) :

5/ Est-ce qu’il y a une justification rigoureuse à ce genre de diagramme?
Qu’est-ce que vous pensez de cette méthodologie?

Merci d’avance pour vos réponses.

Forum de mathématiques - Bibm@th.net

#1 Re : Entraide (collège-lycée) » J'aimerais m'initier aux Mathématiques » 18-09-2025 10:52:32

#2 Re : Entraide (supérieur) » Expression de la variance d’un échantillon. » 18-09-2025 10:48:04

#3 Entraide (supérieur) » Expression de la variance d’un échantillon. » 17-09-2025 12:27:27

#4 Programmation » permutation test et bootstrap » 10-07-2025 13:50:32

#5 Entraide (supérieur) » Formation continue statistique éligible CPF » 10-05-2025 19:52:11

#6 Entraide (supérieur) » [proba] estimateur moyenne et variance. » 05-01-2025 22:38:55

#7 Re : Entraide (supérieur) » [proba-stats] tests f et t, hypothèse distribution des données. » 10-12-2024 22:09:03

#8 Re : Entraide (supérieur) » [proba-stats] tests f et t, hypothèse distribution des données. » 26-11-2024 11:36:21

#9 Re : Entraide (supérieur) » Table élévatrice double ciseau » 20-11-2024 19:17:01

#10 Re : Entraide (supérieur) » Microéconomie : que signifie dx/x » 19-11-2024 21:38:51

#11 Re : Entraide (supérieur) » Microéconomie : que signifie dx/x » 16-11-2024 17:56:28

#12 Entraide (supérieur) » [proba-stats] tests f et t, hypothèse distribution des données. » 16-11-2024 12:37:25

Pied de page des forums