Terme |
Définition |
Population: |
Une population est l’ensemble de toutes les unités faisant l’objet d’une étude. On étudie une population lorsque l’on effectue un recensement. |
Échantillon: |
Un échantillon est un sous-ensemble d’une population. Une sélection aléatoire de l’échantillon nous permet de généraliser les résultats obtenus à la population, sous certaines conditions. On étudie un échantillon lorsque l’on effectue un sondage. |
Statistiques descriptives: |
Méthodes résumant l’information pour la rendre plus intelligible, plus utile ou plus aisément communicable (moyenne, pourcentage, techniques graphiques qui présentent les informations sous forme visuelle, etc.). |
Statistiques inférentielles (inductives): |
Procédures par lesquelles nous généralisons l’information concernant un échantillon à la population de laquelle fut tiré l’échantillon. |
Donnée: |
Information brute provenant d’expériences, de sondages ou d’observations. |
Banque de données: |
Banque de données Données organisées. |
Fichier de données : |
Banque de données conservée de façon à être lue par un ordinateur (support numérique). |
Unité d’analyse ou unité statistique: |
L’élément de notre population que le chercheur étudie par exemples : personne, objet, événement, entité biologique (personnes, groupes, familles, collèges, …), etc. |
Cas: |
Unité spécifique à propos de laquelle on collecte de l’information. (exemple : une personne interrogée dans un sondage) |
Variable: |
Caractéristique ou propriété quelconque dont la valeur diffère d’un cas à l’autre (ex. : sexe, classe sociale, âge, revenu, etc.). Il est possible d’étudier plus d’une variable à l’intérieur de notre population ou échantillon. |
Mesure: |
Procédure qui nous permet de trouver les valeurs d’une variable. Mesurer l’instruction d’une personne, le taux de natalité d’un pays, ... |
Échelle: |
Série de valeurs possibles d’une variable (ex. : Années de scolarité est une échelle mesurant le niveau d’instruction d’une personne. Le taux de natalité d’un pays se mesure par le nombre de naissance par 1000 habitants.) |
Paramètre: |
Mesure basée sur une population |
Statistique: |
Mesure basée sur un échantillon |
Types de variables
Il existe deux grandes familles de variables. On distingue les variables qualitatives et les variables quantitatives. La classification des variables est importante, puisqu'elle permettra de décider du type d'analyse statistique qui sera effectué.
- Une variable est dite qualitative si ses valeurs correspondent à des catégories qui ne sont pas naturellement associées à une valeur numérique (ex. : sexe et groupe sanguin).
On distingue deux types de variables qualitatives :
- Les variables qualitatives nominales dont les catégories ne sont pas ordonnées (ex. : groupe sanguin).
- Les variables qualitatives ordinales dont les catégories sont ordonnées (ex. : niveau d'études « primaire ou moins », « secondaire », « supérieur »).
- Une variable est dite quantitative si ses valeurs représentent la mesure d'une quantité; elles prennent des valeurs numériques qui ont une signification concrète (ex. : taille, poids, résultat à un examen).
- L'écart entre deux valeurs d'une variable quantitative est interprétable et comparé à l'écart entre deux autres valeurs.
- Possibilité de faire des opérations arithmétiques telles des additions, soustractions, calcul de moyenne, etc.
On distingue deux types de variables quantitatives :
- variable quantitative discrète : a un nombre fini ou dénombrable de valeurs possibles, ces valeurs sont distinctes et séparées, aucune valeur intermédiaire n'est possible (nb d'événements, nb d'enfants d'une famille, etc.).
- variable quantitative continue : a un nombre infini, non dénombrable de valeurs possibles. Entre deux valeurs distinctes, il y a toujours une valeur intermédiaire possible (ex. : poids, taille).
|
Types d'échelle de mesure
On en distingue quatre types d'échelle de mesure: l'échelle nominale, ordinale, d'intervalle et de rapport.
Une échelle nominale est associée aux valeurs que peut prendre une variable qualitative nominale. On attribue généralement à chacune des valeurs de la catégorie un code numérique pour faciliter le traitement. Il est impossible d'établir une relation d'ordre entre les valeurs du code numérique. Il est également impossible d'effectuer des opérations arithmétiques.
Une échelle ordinale est associée à une variable qualitative ordinale ou quantitative. Dans le cas d'une variable ordinale, on attribue généralement à chacune des valeurs de la catégorie un code numérique pour faciliter le traitement. Il est possible d'établir une relation d'ordre entre les valeurs. Il est impossible d'effectuer des opérations arithmétiques (elles n'ont pas de sens).
Une échelle d'intervalle est associée à une variable quantitative. Le zéro est défini par convention et ne signifie pas l'absence de la caractéristique. Il est possible d'établir une relation d'ordre entre les valeurs. Il est possible d'effectuer certaines des opérations arithmétiques comme la soustraction, mais pas la division.
Une échelle de rapport est associée à une variable quantitative. Le zéro signifie l'absence de la caractéristique. Il est possible d'établir une relation d'ordre entre les valeurs. Il est possible d'effectuer les opérations arithmétiques.
|
Tableaux
- Tableau de distribution des effectifs
Distribution des effectifs : résumé contenant le nombre de cas correspondant à chaque valeur de la variable. Elle est très utile pour communiquer l'information de façon claire et succincte.
- Tableau de distribution de pourcentages
- Il peut être avantageux de produire des tableaux de distribution de pourcentages, car les tableaux de distribution des effectifs sont parfois difficiles à interpréter (grand nombre de cas) et la comparaison entre plusieurs distributions qui ont des nombres de cas différents peut aussi être très difficile
- Standardisation du nombre total de cas à 100
- Pourcentage = f / N x 100
f = effectif (nombre de données d'une catégorie)
N = nombre total de données
- L'addition d'un ensemble de pourcentages doit toujours donner 100 (sauf dans les cas ou en arrondissant, la somme peut être légèrement au-dessus ou au-dessous de 100)
- Pourcentage cumulatif : pourcentage de tous les scores égaux ou inférieurs à une valeur donnée.
- Pourcentage cumulatif = F / N x 100
F= effectif cumulé (c'est la somme des effectifs dont la valeur est inférieure ou égale à une valeur donnée)
N = nombre total de cas
Produire des tableaux lisibles et bien présentés
- De façon générale, arrondir les pourcentages soit au dernier nombre entier soit à la première décimale.
- Il est préférable de conserver le nombre maximal de décimales lors des calculs et d'arrondir le résultat final en gardant le nombre de décimales du départ plus une.
- Quelques exemples d'arrondissement : 15,34 à 15,3 ; 27,76 à 27,8; 9,56 à 9,6 ; 9,45 à 9,5
- Être constant pour l'arrondissement des nombres.
- Numéroter les tableaux si vous en présentez plus d'un.
- Choisir un titre qui énonce clairement mais succinctement les variables qui sont décrites dans le tableau. Indiquez la source des données.
- La colonne de gauche contient le nom de la variable et ses valeurs (éviter les noms abrégés)
- Les colonnes à droite contiennent : Pourcentage, ou effectif ou ... (selon le cas), identifiées selon l'unité statistique, en tenant compte du contexte.
- Catégories mutuellement exclusives et collectivement exhaustives
- Catégories mutuellement exclusives : les catégories de valeurs ne se chevauchent pas. Ex. : Âge 0-9 ans, 10-19 ans, ...
- Catégories collectivement exhaustives : signifie que l'ensemble des catégories de valeurs inclut tous les cas, chaque cas tombe dans une catégorie. Ex. : Variable « religion » avec valeurs « protestant, catholique, juif, aucune, autre ».
- Ajouter une ligne Total qui compile les effectifs et les pourcentages.
- Ne pas insérer des symboles qui viendraient alourdir la présentation par exemple « % ».
|
Mesures de dispersion
Les mesures de dispersion permettent de quantifier la dispersion des valeurs prises par l'ensemble des données d'une série statistique. Elles représentent dans quelle mesure les valeurs sont semblables ou différentes les unes des autres. Nous présenterons l'étendue, la variance et l'écart-type. De façon générale, si les valeurs se ressemblent nous dirons qu'ils sont homogènes si les scores se dispersent nous dirons qu'ils sont hétérogènes.
- L'étendue
- C'est l'écart entre la plus grande et la plus petite valeur. L'étendue représente également la variabilité de la variable. Cette mesure de dispersion est peu utilisée puisqu'elle dépend de 2 valeurs seulement.
- Étendue = Xmax - Xmin
- La variance
Deux façons de calculer la variance selon que les données proviennent d'une population ou d'un échantillon.
- La variance d'un ensemble de valeurs décrivant une population:
- Calculez la moyenne.
- Soustrayez la moyenne de chacun de ces valeurs.
- Mettez au carré chacune de ces différences.
- Additionnez toutes ces différences carrées.
- Divisez cette somme par le nombre total de valeurs.
Où,
σ2= variance (sigma carré)
xi =ième valeur
μ = la moyenne de la population
N = le nombre total de valeurs
- La variance est la moyenne des écarts au carré des valeurs par rapport à la moyenne.
- Si les valeurs se distribuent de façon étendue autour de la moyenne, les écarts seront grands, la somme des carrés et la variance seront élevées.
- La variance d'un ensemble de scores décrivant d'un échantillon
Où,
s2= variance
xi = ième valeur
= moyenne de l'échantillon
n = nombre total de valeurs
n- 1 (degré de liberté de la variance)
- L'écart-type est la racine carrée de la variance:
- Calculez la variance
- Trouvez la racine carrée de cette variance
- Voici les formules pour calculer l'écart-type
- Population
et
- Échantillon
et
- Écarts-types
- Groupe A
s = = 2,6
- Groupe B
s = = 17,05
- Groupe C
s = = 26,21
- Habituellement, on arrondie l'écart-type et la variance à la seconde décimale.
- L'écart-type est plus souvent employé pour la présentation des résultats (même échelle que les valeurs originales) et la variance pour des raisonnements statistiques plus avancés
- L'écart-type et la variance sont habituellement calculés pour des variables quantitatives.
|
|