Diagrammes statistiques

La représentation graphique permet de transmettre des informations visuellement de façon non linéaire, c’est-à-dire que ces informations ne sont pas données dans un ordre a priori, mais sont accessibles par déplacement de l’attention dans un plan. Cette présentation facilite la structuration de l’information mais peut occasionnellement escamoter une information importante au regard du lecteur qui ne dispose plus de moyen sûr de parcours exhaustif.

Diagrammes statistiques

La statistique est étymologiquement l’étude des faits de l’État.

Variables et séries statistiques

Une série statistique est une liste finie de données dont les valeurs appartenant à un même ensemble. Ces valeurs peuvent être simples (à une variable) ou composées (à plusieurs variables), comme par exemple la donnée simultanée du nom, du genre, de la date de naissance et de la taille pour une liste d’individus. Chaque variable peut être numérique ou non et même parmi les variables non numériques certaines peuvent être ordonnées. Parmi les variables numériques, certaines sont des grandeurs cumulables.

Pour une variable ordonnée, il est possible de regrouper les valeurs en classes continues, souvent exprimées sous forme d’intervalles.

Une série statistique peut être obtenue au sein d’une population par un recensement exhaustif des individus ou par sondage. Le mot « population » désigne ici n’importe quel ensemble d’objets individualisés (atomes, produits d’une chaine de montage, bactéries et autres êtres vivants, pays et organisations, devises monétaires…).

L’échantillonnage consiste à fournir une série statistique par répétition d’une même expérience. Cela peut en particulier constituer une méthode de sondage, même si dans ce cas un même individu peut être sondé plusieurs fois.

Les séries temporelles sont obtenues par répétition d’une mesure dans des conditions qui peuvent évoluer dans le temps. La date associée à chaque mesure peut être vue comme une variable associée.

Étant donnée une série statistique à une variable, il est possible de dénombrer les données associées à chaque valeur. Lorsque ces valeurs sont trop disparates (par exemple les dates de naissance dans une population de moins de cent personnes, ou dans le cas d’une variable continue comme la taille ou le poids), on peut regrouper les valeurs en classes disjointes. Ce dénombrement permet de construire une nouvelle série statistique sur l’ensemble des valeurs de la variable (ou sur l’ensemble des classes).

Principaux diagrammes

nuage de points
il est généralement adapté aux séries à deux variables, chacune étant associée à un axe ; les données sont représentées par des points placés en fonction de leurs coordonnées
bulles
elles complètent les nuages de points en visualisant une troisième variable à chaque donnée pour définir le rayon ou l’aire de chaque bulle
lignes
elles complètent les nuages de points, notamment pour les variables numériques non cumulables de séries temporelles
diagramme en bâtons ou en barres
horizontal ou vertical, il sert pour des variables numériques, notamment des effectifs ou pour des séries temporelles à temps discret ; les barres permettent de différencier les variables par des couleurs
histogrammes
ils affinent la représentation en barres d’une variable numérique cumulable le long d’une variable continue, par des rectangles dont l’aire est la variable à représenter
diagramme circulaire ou camembert
Il convient pour des séries statistique à une variable non ordonnée sur une population ou dans le cadre d’un échantillonnage. Chaque classe est représentée par un secteur circulaire dont l'angle est proportionnel à la fréquence de la classe. Les secteurs sont en général ordonnés par angle décroissant, dans le sens des aiguilles d'une montre à partir du rayon vertical au dessus du centre. Éventuellement, s'il y a une classe « Autres », elle peut être placée en dernier. On évitera absolument les effets de perspective 3D pour ces diagrammes.
toiles
ils sont parfois utilisés pour des séries temporelles faisant apparaitre des phénomènes cycliques, ou pour indiquer des tendances avec trois variables (la lecture est biaisée à partir de quatre variables)
crête de coq
inroduits par Florence Nightingale, ces diagrammes sont visuellement très frappants mais sont sujets à des biais de lecture