- Statistique
- Du latin moderne statisticus, « relatif à l’État » (1672), le mot a d’abord désigné l’étude méthodique des faits sociaux qui définissent un État par des procédés numériques. Il prend ensuite (1830) le sens d’« ensemble de techniques d’interprétation mathématique appliquées à des phénomènes », notamment les faits sociaux [puis] désigne l’objet des statistiques (1862), un ensemble de données numériques concernant une même catégorie de faits.
Les méthodes d’étude statistique ont aujourd’hui envahi bien d’autres domaines d’étude, en sciences humaines comme en sciences dures, avec de nombreuses applications scientifiques et technologiques (infrastructures, médecine, organisation militaire, commerce…) L’exploration de données (data mining) représente même un enjeu économique majeur du début du XXIe siècle, avec le succès des réseaux sociaux.
Une série statistique est une liste finie de données dont les valeurs appartenant à un même ensemble. Ces valeurs peuvent être simples (à une variable) ou composées (à plusieurs variables), comme par exemple la donnée simultanée du nom, du genre, de la date de naissance et de la taille pour une liste d’individus. On distingue en général les variables quantitatives et qualitatives.
Une variable quantitative a des valeurs numériques, dans un ensemble d’entiers (variable discrète) ou dans un intervalle réel (variable continue). Les variables discrètes proviennent essentiellement de dénombrement, tandis que les variables continues représentent des grandeurs physiques ou économiques exprimées avec une unité, ou de positions calculées dans un repère. On exclut des variables quantitatives celles dont les valeurs s’expriment en chiffres mais ne représentent pas des grandeurs significatives (code postal, numéro de salle, identifiant INSEE).
On appelle variable qualitative toute autre variable. Une telle variable est dite ordinale si son ensemble de valeurs est muni d’un ordre total significatif (date de naissance, rang, mention au bac, niveau d’étude) et nominale dans le cas contraire (nom, genre, couleur des yeux, groupe sanguin, orientation politique…)
Les valeurs sont aussi appelées modalités et peuvent éventuellement regroupées en classes disjointes. Cependant, la pertinence du regroupement pour une variable qualitative doit s’appuyer sur une analyse qui sort du cadre des mathématiques.
On définit quelques indicateurs qui permettent de produire des diagrammes statistiques.
Pour une série statistique fixée, l’effectif d’une valeur ou d’une classe est le nombre de termes associés dans la série. On note souvent (x1, …, xq) la liste des valeurs ou des classes et (n1, …, nq) la liste des effectifs associés.
L’effectif total est le nombre de termes de la série, c’est-à-dire la somme des effectifs : N = ∑i=1q ni.
La fréquence d’une valeur ou d’une classe est le quotient de l’effectif associé par l’effectif total fi = niN.
En particulier, toute fréquence appartient à l’intervalle [0 ; 1] et on trouve ∑i=1q fi = 1.
Les fréquences sont souvent données sous forme de pourcentage, avec pour tout p ∈ [0 ; 100], p % = p100
La donnée des seules fréquences associées aux différentes valeurs est appelée répartition statistique.
On dit qu’une valeur est un mode si l’effectif associé est maximal (c’est-à-dire si la fréquence associée est maximale). Il peut y avoir plusieurs modes si plusieurs valeurs sont associés à la fréquence maximale. On parle plutôt de classe modale si les valeurs ont été regroupées en classes.
Si les valeurs peuvent être totalement ordonnées, en supposant que la liste (x1, …, xq) est croissante, on définit la liste des effectifs cumulés croissants par (∑k=1i nk) et les fréquences cumulées croissantes par (∑k=1i fk). Ces dernières s’obtiennent aussi en divisant les effectifs cumulés croissants par l’effectif maximal.
On définit alors la valeur médiane Me comme étant la première valeur pour laquelle la fréquence cumulée dépasse 0,5.
Plus généralement, on définit le quantile associé à une proportion p comme la plus petite valeur associée à une fréquence cumulée supérieure ou égale à p. En particulier, le premier quartile Q1 et le troisième ou dernier quartile Q3 sont les quantiles associés aux proportions 0,25 et 0,75. Les déciles Di sont les quantiles associés aux dixièmes et les centiles Ci sont les quantiles associés aux centièmes.
Le minimum et le maximum sont les quantiles associés aux proportions 0 et 1.
La moyenne d’une variable quantitative discrète s’écrit x = ∑i=1q fixi = 1N∑i=1q nixi.
La variance de la série est la moyenne des carrés des écarts à la moyenne, autrement dit V = ∑i=1q fi(xi − x)2 = 1N ∑i=1q ni(xi − x)2.
On en déduit l’écart type σ = √V.
L’écart interquartile ΔQ est la différence entre le premier et le troisième quartile.
L’étendue est la différence entre le minimum et le maximum.
On modifie aussi légèrement la définition des quantiles dans le cas où une fréquence cumulée est exactement de la proportion p voulue : on relève la première valeur associée à une fréquence cumulée de p et la première valeur associée à une fréquence cumulée strictement supérieure à p et on définit le quantile comme la moyenne de ces deux valeurs.
Lorsque les valeurs sont classées dans des intervalles réels, on calcule la densité d’un intervalle [a, b[ associée à un effectif n en posant d = nb−a. La classe modale est alors redéfinie comme la classe qui a la plus forte densité.
La moyenne se calcule comme pour une série statistique discrète en remplaçant chaque intervalle [a, b[ par sa valeur centrale d = a+b2.
Les quantiles se calculent au prorata à l’intérieur de chaque intervalle. Si un intervalle [a, b[ a pour fréquence f et pour fréquence cumulée fc avec fc − f < t < fc, alors le quantile associé à la proportion t s’écrit qt = b − fc−tf (b − a).
La variance se calcule enfin comme la somme de deux termes :
La médiane et la moyenne sont des indicateurs de position, au sens où ils satisfont les trois propriétés suivantes.
L’écart-type et l’écart interquartile ou l’étendue sont des indicateurs de dispersion, au sens où ils satisfont les trois propriétés suivantes.
On peut aussi rapprocher la moyenne et l’écart type comme indicateurs globaux, sensibles aux valeurs extrêmes. Ils ont en outre l’avantage de se prêter aux calculs par agrégation.
Si une variable est mesurée sur une population partitionnée en classes alors la moyenne globale est la moyenne des moyennes partielles x = ∑i=1q fixi où, pour toute classe i, on note fi sa fréquence et xi sa moyenne partielle.
Au contraire, les quantiles et écart interquartile sont des indicateurs majoritaires, insensibles aux valeurs extrêmes. Mais ils ne peuvent se calculer à partir d’indicateurs partiels.
Par contraste, le nombre moyen d’enfants par femme est un bon indicateur pour le renouvellement des générations, tandis que le nombre médian d’enfants par femme intéresse les constructeurs de voiture, pour qui les habitudes majoritaires vont influer sur les ventes. De même, le salaire moyen (2130 euros net par mois dans le secteur privé en France en 2011) est pertinent pour évaluer la masse imposable en fonction du nombre d’habitants, mais il est préférable de consulter le salaire médian (1713 euros net par mois) voire l’intervalle interquartile (entre 1365 et 2330 euros net par mois) pour évaluer le pouvoir d’achat d’une majorité des salariés, dont découlent des souhaits politiques et donc de mouvements électoraux.