Statistiques descriptives

Utilisez ce module pour calculer un ensemble de statistiques descriptives pour une ou plusieurs variables, qualitatives ou quantitatives, et produire des représentations graphiques ou semi-graphiques utilisées en analyse exploratoire des données.

Liste des statistiques calculées dans le cas des données quantitatives (les descripteurs qui tiennent compte des poids éventuels sont figurés en gras) :

  • Nbr de valeurs utilisées : nombre de valeurs effectivement utilisées dans les calculs, c'est-à-dire les valeurs non manquantes et de poids différent de 0,
  • Nbr de valeurs ignorées : nombre de valeurs ignorées lors des calculs, c'est-à-dire les valeurs manquantes ou de poids nul,
  • Nbr de val. min. : nombre de valeurs égales à la valeur minimale,
  • % de val. min. : pourcentage du nombre de valeurs égales à la valeur minimale,
  • Minimum : valeur minimale,
  • 1er quartile : valeur en deçà de laquelle se trouvent 25 % des données,
  • Médiane : valeur en deçà de laquelle se trouvent 50 % des données,
  • 3ème quartile : valeur en deçà de laquelle se trouvent 75 % des données,
  • Maximum : valeur maximale,
  • Etendue : différence entre le maximum et le minimum,
  • Somme des poids : dans le cas de données pondérées, indique la somme des poids des valeurs utilisées dans les calculs,
  • Total : somme des valeurs, éventuellement pondérée,
  • Moyenne : somme des valeurs, éventuellement pondérée, divisée par le nombre de valeurs utilisées, ou par la somme des poids si les données sont pondérées,
  • Moyenne géométrique : moyenne peu influencée par les valeurs élevées. La moyenne géométrique n'est pas définie pour les données contenant des valeurs négatives ou nulles,
  • Moyenne harmonique : moyenne peu influencée par quelques valeurs beaucoup plus élevées que l'ensemble des autres valeurs, mais sensible aux valeurs beaucoup plus petites. La moyenne harmonique n'est pas définie pour les données contenant des valeurs nulles,
  • Aplatissement (Pearson) : coefficient caractérisant la forme de pic ou l'aplatissement d'une distribution par rapport à une distribution gaussienne. Pour une distribution gaussienne (loi normale), l'aplatissement vaut 0. Une valeur négative correspond à une distribution plus plate que la loi normale (distribution platicurtique) tandis qu'une valeur positive correspond à une distribution plus pointue que la loi normale (distribution leptocurtique),
  • Asymétrie (Pearson) : coefficient caractérisant le degré d'asymétrie d'une distribution par rapport à sa moyenne. Pour une distribution gaussienne (loi normale), l'asymétrie vaut 0. Une valeur négative correspond à la présence d'une queue de distribution vers la gauche tandis qu'une valeur positive correspond à une queue de distribution vers la droite,
  • Aplatissement : coefficient d'aplatissement tel qu'il est calculé par Excel,
  • Asymétrie : coefficient d'asymétrie tel qu'il est calculé par Excel,
  • CV (écart-type/moyenne) : coefficient de variation mesurant la dispersion relative obtenu en divisant l'écart-type par la moyenne. Ce coefficient permet de comparer la dispersion de variables dont les unités sont différentes, ou qui ont des moyennes très différentes,
  • Variance d'échantillon : variance des données,
  • Variance estimée : estimation de la variance d'une population dont les données constituent un échantillon (estimateur sans biais),
  • Ecart-type d'échantillon : racine carrée de la variance des données,
  • Ecart-type estimé : racine carrée de l'estimation de la variance de la population d'origine des données,
  • Ecart absolu moyen : mesure de dispersion indiquant la moyenne des valeurs absolues des écarts de chaque valeur par rapport à la moyenne,
  • Variance de la moyenne : racine carrée du rapport de la variance estimée par le nombre de valeurs utilisées dans les calculs. Cette estimation de la variance de la moyenne n'est valide que si les données constituent un échantillon prélevé au hasard (et sans remise) au sein d'une population infinie (échantillon aléatoire simple d'une population infinie).

    Graphiques produits dans le cas des variables quantitatives :

  • graphiques " boîte à moustaches " ou box plots,
  • nuages de points univariés ou scattergrams,
  • collection de nuages de points bivariés,
  • graphiques " Quantile-Quantile " ou Q-Q plots,
  • graphiques " probabilité-probabilité " ou p-p plots,
  • diagrammes " tige et feuille " ou stem and leaf plots.

    Liste des statistiques calculées dans le cas des données qualitatives

    Synthèse pour toutes les variables :

  • Nbr de modalités : nombre de modalités de la variable,
  • Mode : le mode est la modalité dont l'effectif est le plus élevé ou dont le poids est le plus élevé (si les données sont pondérées),
  • Effectif mode : dans le cas de données non pondérées, effectif du mode,
  • Poids mode : dans le cas de données pondérées, poids du mode,
  • % mode : pourcentage du mode,
  • Fréq. rel. mode : fréquence relative du mode.

    Tableau des statistiques pour chaque variable :

  • Effectif : dans le cas de données non pondérées, effectif de la modalité,
  • Poids : dans le cas de données pondérées, poids de la modalité,
  • % : pourcentage de la modalité,
  • Fréq. rel. : fréquence relative de la modalité.

    Graphiques produits dans le cas des variables qualitatives :
  • histogrammes,
  • secteurs.
  • Accueil