Analyse de données

Série de valeurs non structurées

À partir d'une liste de valeurs, on peut construire un tableau d'effectifs, donnant pour chaque valeur le nombre d'occurrences dans la liste. Les valeurs correspondant à l'effectif le plus élevé sont appelés modes.

Au besoin, les valeurs peuvent être regroupées en classes statistiques disjointes pour dégager un caractère discret. Les classes ayant l'effectif le plus élevé sont alors appelés classes modales.

Différents choix de regroupement de valeurs peuvent mener à des classes modales disjointes. Ce phénomène est essentiel dans les tractations entre listes de candidats aux élections municipales françaises, par exemple, où la classe modale obtient d'office la moitié des postes de conseillers.

Le quotient de chaque effectif par l'effectif total (somme des effectifs) donne la fréquence de chaque classe, et s'exprime en général par un pourcentage.

Calculer les effectifs et fréquences des sections d'origine au baccalauréat pour l'ensemble des élèves de la classe.

Un tableau d'effectifs ou de fréquences associé à une partition d'une population peut donner lieu à une représentation graphique sous forme de diagramme circulaire, aussi appelé « camembert ».

  1. Représenter la répartition des sections d'origine au baccalauréat pour les élèves de la classe à l'aide d'un diagramme circulaire.
  2. Représenter la répartition des heures de cours de son emploi du temps de la semaine.

Un tel diagramme circulaire ne doit pas être utilisé pour un tableau d'effectifs qui n'est pas associé à une partition de la population. Par exemple, si chaque élève peut suivre un ou plusieurs cours d'option prévu au programme, le tableau d'effectifs des élèves suivant chaque option ne correspond pas à une partition de l'ensemble des élèves : les classes ne sont pas disjointes. On préfèrera alors utiliser un diagramme en barres horizontales.

Représenter les effectifs des différents groupes de pays associés en Europe (UE, zone euro, espace Schengen, Corps européen, Association européenne de libre échange, Conseil de l'Europe, GUAM).

Si l'ordre d'énonciation des valeurs est significatif, on peut aussi représenter la liste par une frise avec une succession de couleurs.

Représenter l'alternance politique des gouvernements successifs de la Ve République française.

Série de points dans un espace

Si les valeurs peuvent être situées dans un espace (points sur une droite, un plan, une sphère…), la liste peut être représentée par un nuage de points, souvent notés à la main par une petite croix (« + » ou « × »).

  1. Représenter la liste des positions géographiques des principales unités urbaines de France, avec une échelle de 1,5 cm pour 1° de latitude et 1 cm pour 1° de longitude. Attention à ne pas confondre les minutes d'angle avec des centièmes de degré.
  2. Représenter la liste des dates de naissance des élèves de la classe.

Dans le cas d'une série temporelle, on peut relier les différents points par des flèches dans l'ordre d'énonciation.

Classes ordonnées ou cycliques

Lorsqu'une série représente un caractère discret ordonné, le tableau d'effectifs ou de fréquences associé peut être représenté par un diagramme en bâtons. On peut aussi calculer dans ce cas les quantiles de la série (médiane, quartiles, voire déciles ou centiles) à l'aide du calcul des effectifs cumulés croissants ou des fréquences cumulées croissantes.

Dans le cas d'une série de valeurs dans un espace cyclique, on peut construire un diagramme radial ou choisir une classe initiale pour se ramener à une série de valeurs ordonnées. Les quantiles n'ont alors pas de sens.

  1. Représenter la série des mentions obtenues au baccalauréat en précisant le mode, la médiane et les quartiles.
  2. Représenter la série des jours de naissance et celle des mois de naissance pour les élèves de la classe.

Ces diagrammes peuvent ensuite s'étudier comme des séries temporelles numériques.

Dans le cas d'une série temporelle, on peut aussi utiliser un diagramme en ligne (brisée ou lisse, marquant éventuellement les points).

Série de valeurs numériques discrètes

Lorsque les valeurs d'une série statistique sont des nombres réels, représentant éventuellement une grandeur avec une unité, on peut calculer leur moyenne et leur écart type.

  1. Calculer le nombre moyen d'enfants par familles ainsi que l'écart type.
  2. Calculer la moyenne et l'écart type d'une série de résultats de lancers d'un dé standard à six faces.
  3. Calculer aussi les principaux quantiles et représenter graphiquement la série dans chacun des deux exercices précédents.

Ces différents indicateurs statistiques sont alors résumés par un diagramme en boite.

Classes numériques

Si les valeurs d'une série numérique sont assez disparates, il est pratique de les grouper en classes sous forme d'intervalles, en général semi-ouverts à droite. Dans ce cas, les indicateurs statistiques se calculent un peu différemment.

L'intervalle de valeurs de chaque classe est marqué sur un axe horizontal avec une échelle régulière, linéaire ou logarithmique.

Chaque classe est ensuite représentée par un rectangle d'aire algébrique graphique proportionnelle à sa fréquence, ce qui nécessite en général de construire un tableau listant les largeurs graphiques des bases, les aires puis les hauteurs des différents rectangles.

  1. Construire l'histogramme associé au nombre d'enfants par tranche d'âge.
  2. Classer les départements français selon leur superficie puis construire un histogramme représentant leur répartition selon ce caractère. Réaliser de même un histogramme montrant la répartion des départements selon leur population.
  3. Construire l'histogramme de répartition des salariés à temps plein en France selon leur revenu mensuel.

Le calcul des effectifs cumulés ou des fréquences cumulées permet de déterminer les classes correspondant à chaque quantile, mais on donne plutôt une valeur précise calculée au prorata. Cette valeur peut aussi se lire graphiquement à l'aide du tracé de la courbe polygonale des fréquences cumulées croissantes.

Le calcul de la moyenne se fait en remplaçant chaque intervalle de valeurs par son centre.

Série temporelle numérique

On distingue plusieurs cas selon que les termes de la série décrivent des instants isolés (donnant lieu à un diagramme en bâtons) ou des intervalles de temps, auquel cas une grandeur cumulative (extensive) sera représentée par un diagramme en colonnes, tandis qu'une grandeur non cumulative (intensive) sera représentée par un diagramme en ligne (brisée ou lisse).

Représenter l'évolution de la température et des précipitations dans sa ville dans l'année.