Louise

De knowledge
Aller à la navigation Aller à la recherche

Page pour expliquer les statistiques de base à Louise

Les données.

On dispose de données mesurées (données quantitatives discrètes)

On mesure le nombre de mises en causes par la police en fonction de la taille de l'agglomération (la variable explicative)

Exemple de valeurs

Taille Agglo Nb Mise en cause
0.00 0.33
30.30 0.30
60.61 0.46
90.91 0.64
121.21 0.45
151.52 0.50
181.82 0.83
212.12 0.76
242.42 0.62
272.73 0.84
303.03 0.73
333.33 0.78
363.64 0.95
393.94 0.64
424.24 0.73
454.55 0.98
.... ....

On voit intuitivement que le loi qui régie le phénomène observé semble être une droite. Comment confirmer cela. On peut d'abord demander à Excel 😊

Il y a une fonction dans Excel pour faire cela. Il est même capable de calculer l'équation de la droite (y=ax+b avec a=0.0018 et b=0,2309). Il nous donne bien entendu la valeur de R².

Mais c'est trop facile calculons le nous même

Rappels de mathématiques

On va avoir besoin de quelques concepts mathématiques pour nos calculs à venir. Je les détaille dans cette section avec leurs convention d'écriture.

Le concept d'écart

Dans la suite on va utiliser le concept d'écart d'une valeur par rapport à une valeur de référence. Dans notre cas on a 3 types de valeurs.

  1. Les mesures. Ce sont les valeurs que l'on se propose d'étudier (ici le nombre de mis a cause en fonction de la taille de l'agglomération)
  2. La corrélation : C'est la loi qui nous semble exprimer le mieux la répartition de nos valeurs. (Ici c'est une droite mais, dans des cas plus complexe on pourait penser à une autre courbe).
  3. Les moyennes : On peut utiliser des valeurs statistiques diverses comme ici la moyenne. La moyenne de X correspond à la taille moyenne des agglomérations dans notre étude. La moyenne Y correspond au nombre moyen de mises en causes quelle que soit l'agglomération.

Dans la suite on va parler des écarts d'une valeur par rapport à une autre. Par exemple l'écart des laveurs de l'étude par rapport à la moyenne.

Attention
Pour la suite, je prends un exemple avec seulement 3 points paracerque ça me saoule de faire les dessins pour les 1000 points des graphiques vus plus haut mais normalement on fait les calculs pour TOUS les ponts de la série

Dans cet exemple on a trois valeurs V1, V2 et V3 les trois écarts sont indiqués pas des flèches (rouge c'est négatif et vert c'est positif).


Ici mon mesure l'écart entre la valeur que l'on a mesurer par rapport à la valeur donnée par notre droite y=ax+b (la loi qui nos semble donner une meilleure idée de ce que nous observons).


Le dernier écart que nous pourrions avoir a mesurer c'est celu entre la valeur issue de y=ax+b et la moyenne.

On a toujours un écart entre la moyenne et le résultat de la fonction y=ax+b pour x=x1.

Le concept de somme

Dans la suite du cours on aura souvent des sommes d'écarts.

Cette somme est notée avec la lettre Sigma Σ(...) qui signifie la somme de tous les éléments donnés dans la parenthèse.

Dans le cas du dessus avec un écart entre f(x) et la moyenne de y on écrira : En dessous du Σ on a la variable qui sera utilisée dans la parenthèse (i) et qui variera de 1 (i=1) à n (le n au dessus du Σ) Dans notre cas ci dessus on à 3 mesures et donc : C'est la somme des trois flèches du graphique ci dessus. Pour les données complètes (les 1000 valeurs) on aurait :

Calcul de la droite f(x)=y=ax+b

f est la fonction qui pour une valeur de x (taille de l'agglo) donne la valeur estimée par notre intuition qu'une droite explique le phénomène observé. On note la valeur pour un x donné f(x).

Par définition on sait que :

La pente de la droite a correspond au rapport entre le covariance des deux variables et la variance de la variable explicative (x)

La formule de la covariance est :

Donc c'est la somme (Σ) du:

la multiplication entre l'écart entre une valeur de x et la moyenne des x (x avec une barre dessus) et l'écart entre y et sa mpyenne.

Le tout divisé par le nombre de mesures n.

Les calculatrices savent, en général, faire ce calcul.

On remarque que c'est la même formule que si on calculait la covariance de la variable x avec elle même:

Donc, d'après la définition le coefficient a:

b est la valeur de y pour x=0.