Mathématiques

Définitions

Terme	Définition
Population:	Une population est l’ensemble de toutes les unités faisant l’objet d’une étude. On étudie une population lorsque l’on effectue un recensement.
Échantillon:	Un échantillon est un sous-ensemble d’une population. Une sélection aléatoire de l’échantillon nous permet de généraliser les résultats obtenus à la population, sous certaines conditions. On étudie un échantillon lorsque l’on effectue un sondage.
Statistiques descriptives:	Méthodes résumant l’information pour la rendre plus intelligible, plus utile ou plus aisément communicable (moyenne, pourcentage, techniques graphiques qui présentent les informations sous forme visuelle, etc.).
Statistiques inférentielles (inductives):	Procédures par lesquelles nous généralisons l’information concernant un échantillon à la population de laquelle fut tiré l’échantillon.
Donnée:	Information brute provenant d’expériences, de sondages ou d’observations.
Banque de données:	Banque de données Données organisées.
Fichier de données :	Banque de données conservée de façon à être lue par un ordinateur (support numérique).
Unité d’analyse ou unité statistique:	L’élément de notre population que le chercheur étudie par exemples : personne, objet, événement, entité biologique (personnes, groupes, familles, collèges, …), etc.
Cas:	Unité spécifique à propos de laquelle on collecte de l’information. (exemple : une personne interrogée dans un sondage)
Variable:	Caractéristique ou propriété quelconque dont la valeur diffère d’un cas à l’autre (ex. : sexe, classe sociale, âge, revenu, etc.). Il est possible d’étudier plus d’une variable à l’intérieur de notre population ou échantillon.
Mesure:	Procédure qui nous permet de trouver les valeurs d’une variable. Mesurer l’instruction d’une personne, le taux de natalité d’un pays, ...
Échelle:	Série de valeurs possibles d’une variable (ex. : Années de scolarité est une échelle mesurant le niveau d’instruction d’une personne. Le taux de natalité d’un pays se mesure par le nombre de naissance par 1000 habitants.)
Paramètre:	Mesure basée sur une population
Statistique:	Mesure basée sur un échantillon

Types de variables

Il existe deux grandes familles de variables. On distingue les variables qualitatives et les variables quantitatives. La classification des variables est importante, puisqu'elle permettra de décider du type d'analyse statistique qui sera effectué.

Une variable est dite qualitative si ses valeurs correspondent à des catégories qui ne sont pas naturellement associées à une valeur numérique (ex. : sexe et groupe sanguin).
On distingue deux types de variables qualitatives :

Les variables qualitatives nominales dont les catégories ne sont pas ordonnées (ex. : groupe sanguin).
Les variables qualitatives ordinales dont les catégories sont ordonnées (ex. : niveau d'études « primaire ou moins », « secondaire », « supérieur »).

Une variable est dite quantitative si ses valeurs représentent la mesure d'une quantité; elles prennent des valeurs numériques qui ont une signification concrète (ex. : taille, poids, résultat à un examen).

L'écart entre deux valeurs d'une variable quantitative est interprétable et comparé à l'écart entre deux autres valeurs.
Possibilité de faire des opérations arithmétiques telles des additions, soustractions, calcul de moyenne, etc.

variable quantitative discrète : a un nombre fini ou dénombrable de valeurs possibles, ces valeurs sont distinctes et séparées, aucune valeur intermédiaire n'est possible (nb d'événements, nb d'enfants d'une famille, etc.).
variable quantitative continue : a un nombre infini, non dénombrable de valeurs possibles. Entre deux valeurs distinctes, il y a toujours une valeur intermédiaire possible (ex. : poids, taille).

Types d'échelle de mesure

On en distingue quatre types d'échelle de mesure: l'échelle nominale, ordinale, d'intervalle et de rapport.

Une échelle nominale est associée aux valeurs que peut prendre une variable qualitative nominale. On attribue généralement à chacune des valeurs de la catégorie un code numérique pour faciliter le traitement. Il est impossible d'établir une relation d'ordre entre les valeurs du code numérique. Il est également impossible d'effectuer des opérations arithmétiques.

Une échelle ordinale est associée à une variable qualitative ordinale ou quantitative. Dans le cas d'une variable ordinale, on attribue généralement à chacune des valeurs de la catégorie un code numérique pour faciliter le traitement. Il est possible d'établir une relation d'ordre entre les valeurs. Il est impossible d'effectuer des opérations arithmétiques (elles n'ont pas de sens).

Une échelle d'intervalle est associée à une variable quantitative. Le zéro est défini par convention et ne signifie pas l'absence de la caractéristique. Il est possible d'établir une relation d'ordre entre les valeurs. Il est possible d'effectuer certaines des opérations arithmétiques comme la soustraction, mais pas la division.

Une échelle de rapport est associée à une variable quantitative. Le zéro signifie l'absence de la caractéristique. Il est possible d'établir une relation d'ordre entre les valeurs. Il est possible d'effectuer les opérations arithmétiques.

Tableaux

Tableau de distribution des effectifs
Distribution des effectifs : résumé contenant le nombre de cas correspondant à chaque valeur de la variable. Elle est très utile pour communiquer l'information de façon claire et succincte.

Tableau de distribution de pourcentages
- Il peut être avantageux de produire des tableaux de distribution de pourcentages, car les tableaux de distribution des effectifs sont parfois difficiles à interpréter (grand nombre de cas) et la comparaison entre plusieurs distributions qui ont des nombres de cas différents peut aussi être très difficile
- L'addition d'un ensemble de pourcentages doit toujours donner 100 (sauf dans les cas ou en arrondissant, la somme peut être légèrement au-dessus ou au-dessous de 100)
- Pourcentage cumulatif : pourcentage de tous les scores égaux ou inférieurs à une valeur donnée.
- Pourcentage cumulatif = F / N x 100
  F= effectif cumulé (c'est la somme des effectifs dont la valeur est inférieure ou égale à une valeur donnée)
  N = nombre total de cas

Produire des tableaux lisibles et bien présentés

De façon générale, arrondir les pourcentages soit au dernier nombre entier soit à la première décimale.
Il est préférable de conserver le nombre maximal de décimales lors des calculs et d'arrondir le résultat final en gardant le nombre de décimales du départ plus une.
Quelques exemples d'arrondissement : 15,34 à 15,3 ; 27,76 à 27,8; 9,56 à 9,6 ; 9,45 à 9,5
Être constant pour l'arrondissement des nombres.
Numéroter les tableaux si vous en présentez plus d'un.
Choisir un titre qui énonce clairement mais succinctement les variables qui sont décrites dans le tableau. Indiquez la source des données.
La colonne de gauche contient le nom de la variable et ses valeurs (éviter les noms abrégés)
Les colonnes à droite contiennent : Pourcentage, ou effectif ou ... (selon le cas), identifiées selon l'unité statistique, en tenant compte du contexte.
Catégories mutuellement exclusives et collectivement exhaustives

Catégories mutuellement exclusives : les catégories de valeurs ne se chevauchent pas. Ex. : Âge 0-9 ans, 10-19 ans, ...
Catégories collectivement exhaustives : signifie que l'ensemble des catégories de valeurs inclut tous les cas, chaque cas tombe dans une catégorie. Ex. : Variable « religion » avec valeurs « protestant, catholique, juif, aucune, autre ».

Ajouter une ligne Total qui compile les effectifs et les pourcentages.
Ne pas insérer des symboles qui viendraient alourdir la présentation par exemple « % ».

Les graphiques

La plupart des chercheurs s'entendent pour dire que les humains saisissent plus rapidement de l'information et la retiennent plus longtemps lorsqu'elle est présentée visuellement, par des graphiques ou des diagrammes.

Les diagrammes circulaires : le cercle complet représente le nombre total de cas (effectif ou pourcentage) chaque secteur est proportionnel au pourcentage de cas d'une catégorie.

Utiliser le diagramme circulaire principalement pour les variables nominales. Cependant, lorsque le nombre de valeurs de la variable est trop élevé, opter un diagramme en bâtons.

Les diagrammes en bâtons (ou à rectangles)

Le diagramme en bâtons est habituellement utilisé pour les variables qualitatives ordinales (ex. : niveau d'instruction atteint : primaire, secondaire, etc.) ou quantitatives discrètes (ex. : nombre d'enfants).
La hauteur des bandes est proportionnelle au nombre de cas ou au pourcentage de la catégorie.

Les histogrammes

L'histogramme est utilisé le plus souvent dans le cas d'une variable quantitative continue (les bandes se touchent comparativement à un diagramme en bâtons)
Un histogramme représente les fréquences au moyen de rectangles situés au-dessus de l'intervalle de chaque classe.
L'aire de chacun des rectangles doit être proportionnelle à l'effectif de la classe (attention aux classes inégales).

Règles générales pour les graphiques :

Si vous présentez plus d'un graphique, identifiez chacun d'eux par « Figure ... » et les numéroter.
Donnez au graphique un titre clair, concis et qui précise la variable à l'étude.
Si vous présentez des diagrammes concernant des variables similaires, il est préférable de conserver les mêmes échelles.
Insérer à gauche la valeur la plus basse et vers la droite les valeurs les plus élevées.
Étiquetez les axes en tenant compte du contexte.

Mesures de tendance centrale

Les mesures de tendance centrale permettent de résumer par un seul nombre l'ensemble des données d'une série statistique. Nous présenterons : la moyenne, le mode et la médiane.

La moyenne

La mesure de tendance centrale la plus fréquemment utilisée pour une variable quantitative.
Additionner tous les scores d'une variable et diviser par le nombre total de scores.
Universellement répandue et acceptée.
Fortement influencée par des valeurs extrêmes.
Si les données sont regroupées en classes, nous utiliserons le centre des classes pour le calcul de la moyenne

Le mode

Mode (parfois abrégé Mo) : est la valeur qui apparaît le plus souvent pour une variable donnée.
La classe modale est la classe qui contient le plus de données dans une série statistique. Nous prendrons le centre de cette classe pour approximer le mode.

La médiane

Médiane (parfois abrégée Md) : valeur qui divise en deux parties égales un ensemble ordonné de valeurs. Les valeurs doivent pouvoir être ordonnées du plus petit au plus grand.
Médiane pour les variables qualitatives ordinales ou quantitatives (ordre exige)
Peu influencée par les valeurs extrêmes
Représente seulement la valeur qui sépare les données en deux parties égales sans tenir compte de l'ensemble des données.

Mesures de dispersion

Les mesures de dispersion permettent de quantifier la dispersion des valeurs prises par l'ensemble des données d'une série statistique. Elles représentent dans quelle mesure les valeurs sont semblables ou différentes les unes des autres. Nous présenterons l'étendue, la variance et l'écart-type. De façon générale, si les valeurs se ressemblent nous dirons qu'ils sont homogènes si les scores se dispersent nous dirons qu'ils sont hétérogènes.

L'étendue

C'est l'écart entre la plus grande et la plus petite valeur. L'étendue représente également la variabilité de la variable. Cette mesure de dispersion est peu utilisée puisqu'elle dépend de 2 valeurs seulement.
Étendue = X_max - X_min

La variance

La variance d'un ensemble de valeurs décrivant une population:

Calculez la moyenne.
Soustrayez la moyenne de chacun de ces valeurs.
Mettez au carré chacune de ces différences.
Additionnez toutes ces différences carrées.
Divisez cette somme par le nombre total de valeurs.

La variance d'un ensemble de scores décrivant d'un échantillon

L'écart-type est la racine carrée de la variance:

Calculez la variance
Trouvez la racine carrée de cette variance

Voici les formules pour calculer l'écart-type

Écarts-types

Habituellement, on arrondie l'écart-type et la variance à la seconde décimale.
L'écart-type est plus souvent employé pour la présentation des résultats (même échelle que les valeurs originales) et la variance pour des raisonnements statistiques plus avancés
L'écart-type et la variance sont habituellement calculés pour des variables quantitatives.