If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Types d'études statistiques

Types d'études statistiques.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

dans cette vidéo je voudrais qu'on passe un petit peu en revue toutes les différents types d'études statistiques qui peuvent exister donc déjà une étude statistique vinça consiste à collecter des données pour les analyser et en tirer des conclusions et en fait il ya plusieurs types d'études statistiques selon ce qu'on souhaite faire et aussi selon la manière dont on fait en gros ici ce qu'on peut faire c'est distinguer trois types d'études statistiques le premier c'est ce qu'on appelle l'échantillonnage l'échantillonnage donc on va prendre des échantillons le deuxième c'est ce qu'on appelle en fait des études observationnelles étude observationnelle et puis enfin on a aussi des expériences donc des études expérimentales des études expérimentales peut-être que tu as déjà entendu ces trois appellations donc ce que je te propose c'est de mettre la vidéo sur pause de réfléchir un petit peu au sens qu'on peut donner à ces trois types d'études là on va commencer par l'échantillonnage en général on fait ce type d'étude là par échantillonnage quand on cherche à évaluer a estimé la valeur d'un paramètre sur une population totale donc par exemple ce qu'on peut imaginer c'est que on voudrait savoir on va regarder dans une ville entière donc ça c'est toute la population c'est la population totale du de la ville donc peut-être un million d'habitants 10 ans est le paramètre qu'on souhaite étudier c'est le temps moyen quotidien passé devant un ordinateur donc le paramètre c'est le temps moyen le temps moyen passé devant un ordinateur devant un ordinateur chat jours voilà alors évidemment pour estimer ce paramètre donc ce temps moyen la solution ça serait d'aller interroger chaque personne de la ville pour lui demander le temps moyen qui passe devant un ordinateur chaque jour alors évidemment si tu habites dans un petit village de quelques centaines d'habitants disons c'est faisable tu peux aller les voir chaque personne pour lui demander cette information mais en fait en pratique c'est très rarement faisable en tout cas dès que tu as une taille de population importante dans la pratique tu peux pas vraiment allé interroger chaque personne imagine simplement si tu dois interrogé toute la population parisienne par exemple ça serait vraiment très difficile à faire et très long donc en général on considère que c'est rapidement pas faisable et du coup dans ce cas là ce qu'on fait c'est qu'on prélève un échantillon dans la population qui nous intéresse donc par exemple ici voilà tu as les habitants de la ville que je mets comme ça il y en a beaucoup est ce qu'on fait c'est en choisir quelques-uns donc on prélever quelques uns plus tôt et on va essayer de le faire de manière aléatoire donc je vais prélever quelques personnes ici disons par exemple 1000 personnes quelque chose de faisable mille personnes dans la population de la ville et cela ça me créer un échantillon ils constituent un échantillon est ce que je vais faire en fait c'est demander à chaque personne de cet échantillon le temps moyen qu'il passe devant un ordinateur chaque jour je vais pouvoir calculer la moyenne et donc je vais pouvoir calculer le paramètre que je veux pour cet échantillon là et je vais dire qu'en fait cette valeur là c'est une estimation du paramètre pour la population totale donc voilà on prélève un échantillon et à partir de cet échantillon fait une estimation du paramètre tout simplement en calculant le paramètre dans cet échantillon alors il ya plein de questions qui se posent sur la manière de prélever un échantillon dans une population c'est des questions très importantes parce que il faut éviter d'introduire des biais dans cette situation là par exemple dans cet exemple là si tu prélève un échantillon dans un milieu essentiellement ouvriers tu auras un résultat complètement différent que si tu prélève un échantillon dans un milieu de cadre supérieur par exemple donc il faut vraiment faire attention à ce que notre échantillon soit prélevé de manière aléatoire il ya des tas techniques qui permettent de s'assurer que c'est le cas voilà donc ça c'est un premier type d'étude qui nous sert quand on doit calculer estimé à paramètres sur une grande population donc en prélevant un échantillon alors dans ce qu'on appelle les études observationnelles on peut aussi être amené à prélever des échantillons comme on l'a fait dans ce type d'étude là mais en général on fait ce genre d'étude dans un objectif assez différentes en fait le plus souvent on essaie de voir s'il n'y a pas une relation entre deux paramètres différents donc on a comme tout à l'heure une population par exemple je peux prendre une population donc qui peut être soit la population totale soit un échantillon disons qu'en tout cas j'ai un ensemble de 1000 personnes et que sur cet ensemble l'âge pressent qu'il pourrait y avoir un lien entre le temps passé le temps moyen passé devant un ordinateur et la pression artérielle par exemple donc on va essayer de voir s'il existe une relation entre ces deux paramètres je vais écrire ça comme ça le temps passé devant l'ordinateur donc je vais écrire ça comme ça le temps passé devant l'ordinateur et la pression artérielle et la pression artérielle donc la pression du sang dans les artères voilà alors on peut très bien imaginer que tu va réaliser ces mesures là donc soit tu va interroger les 1000 personnes tu leur demandes à chaque fois le temps qui passe devant l'ordinateur et leur pression artérielle ou alors tu vas chez eux et tu fais ces mesures toi même en tout cas tu obtiens donc cette information là auprès de ces mille personnes et ensuite tu peux par exemple faire un graphique et placer ces points-là donc le graphique en question ça peut ressembler à quelque chose comme ça ici tu mets sur chaque axe l'un de ces deux paramètres donc par exemple en abscisse le temps passé devant l'ordinateur et en ordonnée la pression et là tu places toutes les informations que tu a collecté donc par exemple la première personne elle passe un certain temps devant l'ordinateur et elle a une certaine pression artérielle donc serait lula représente par ce point là ici c'est une deuxième personne une troisième quatrième une cinquième une sixième voilà tu vois le principe je vais pas ici tracé 1000 points mais bon le principe c'est ça tu obtiens du coup ce qu'on appelle un nuage de points qui représentent la population des mille personnes le temps qu'ils passent devant l'ordinateur et leur pression artérielle alors quand tu regardes maintenance graphique tu peux y avoir l'impression qu'il ya une ligne à une relation entre le temps et la pression le temps passé devant l'ordinateur et la pression artérielle en fait grosso modo bon évidemment il ya des valeurs ce qu'on appelle des valeurs aberrantes donc des valeurs qui sont un peu particulières mais grosso modo on a l'impression quand même que ces deux paramètres évolué ensemble c'est à dire que un temps passé devant l'ordinateur plus élevé pas correspondre une pression artérielle plus élevé en général et inversement à une pression artérielle plus élevé va correspondre un temps passé devant l'ordinateur qui est plus élevé alors ça ça s'exprime en disant qu' il ya une corrélation entre la pression et le temps on appelle ça un lien de corrélation est ce qui est très important quand tu lis des études statistiques bien fait c'est de ne pas conclure que forcément il y a un lien d'être de causalité c'est à dire que dans ce cas là tu peux pas conclure que plus tu passes de temps devant l'ordinateur plus forcément tu vas avoir une pression artérielle élevée c'est pas du tout le cas d'ailleurs ici j'ai choisi de représenter le temps passé devant l'ordinateur en abscisses et la pression artérielle en ordonnée on aurait pu faire l' inverse c'est tout à fait cohérent aussi du coup on pourrait tirer une conclusion aussi qui dirait que plus il ya une pression artérielle élevée plus le temps passé devant l'ordinateur est élevé là tu vois que à quel point c'est pas du tout logique donc voilà c'est quelque chose à garder en tête on peut mettre en évidence statistiquement une corrélation entre deux paramètres qui peut faire penser à qu'il y a une relation de cause à effet donc un lien d'une relation de causalité entre le ces deux paramètres mais en général ça suffit pas pour le prouver c'est à dire que une corrélation n'est pas une relation de cause à effet donc ça c'est très important de garder en tête alors pourquoi est-ce qu'on peut pas dire que ça c'est une relation de cause à effet bien c'est parce que en fait il peut y avoir dans son étude des billets ou alors ce qu'on appelle aussi des facteurs de confusion par exemple ici bon aux mesures deux choses la pression artérielle la pression et le temps passé devant l'ordinateur et ya un facteur qui pourrait être un facteur de confusion donc un biais c'est l'activité physique donc si tu prends par exemple des gens qui ont une faible activité physique faible activité physique eh bien ces gens là tu peux te dire que s'ils ont une faible activité physique probablement peut-être en tout cas qui ils passent plus de temps devant leur ordinateur et d'autre part ils ont une pression artérielle plus élevés et donc ce facteur là pour être la raison qui fait qu'on a une pression artérielle élevée et un compas saint beaucoup de temps devant l'ordinateur donc ici la cause de la pression artérielle élevée ça serait pas le temps passé devant l'ordinateur mais la faible activité physique est d'ailleurs tu pourrais très bien imaginer faire une étude portant sur des gens qui ont une activité physique similaire et trouvé que effectivement il n'y a aucune corrélation entre le temps passé devant l'ordinateur et la pression artérielle donc voilà ça c'est quand même de quelque chose de très important on fait ce genre d'étude pour voir s'il pourrait y avoir une relation entre deux paramètres mais ça ne suffira jamais à identifier une relation de causalité de cause à effet alors si tu a détecté une corrélation entre deux paramètres et tu peux faire une expérience pour vérifier si c'est une relation de cause à effet donc ça va être une étude expérimentale en fait là je vais te parler plutôt de ce qu'on appelle une expérience contrôler tu vas comprendre pourquoi donc je vais prendre dans mon cas ici un échantillon de 100 personnes et l'idée ça va être de décomposer cet échantillon en deux groupes donc de faire deux groupes comme ça de manière aléatoire donc je vais avoir un premier groupe qui va être ce que j'appelle le groupe de contrôle on dit aussi le témoin et puis un deuxième groupe que je vais appeler le groupe de traitement alors par exemple dans ce groupe là je vais prendre des gens qui passent un temps raisonnable devant l'ordinateur donc par exemple disons 30 minutes maximum trente mille par jour maximum dans le groupe témoin de temps passé devant l'ordinateur alors évidemment plus on peut définir de manière précise mieux sert ici ce serait très bien de pouvoir prendre des gens qui passent exactement trente minutes devant l'ordinateur mais bon c'est pas toujours très réaliste donc on peut faire un groupe comme ça et puis dans le deuxième je vais mettre des gens qui passent beaucoup de temps devant l'ordinateur donc disons ici deux heures plus de deux heures alors ce qui est très important c'est que pour éviter d'avoir un biais comme celui là par exemple avoir dans ce groupe là d' que des gens qui ont une très faible activité physique est ici des gens qui ont une forte activité physique évidemment ça sera un gros pied donc il faut faire très attention à ça et pour ça et bien il faut absolument veiller à ce que les deux groupes qu'on a constitué soit constitué de manière aléatoire ça c'est très important parce que s'ils ont choisi ces deux groupes de manière aléatoire et bien on minimise les risques d'avoir une grosse différence en termes d'activité physique donc on minimise un petit peu les variables parasites dont on a parlé tout à l'heure alors ensuite ce qu'on va faire ses calculs et la pression artérielle moyenne dans les deux groupes et on va faire ça en fait à deux moments différents pour éviter qu'il y ait eu un événement particulier par exemple qui perturbe la pression artérielle au moment où on fait la mesure donc on fait des mesures à différents moments au moins deux fois pour éviter ça et disons que dans notre cas on trouve que dans les deux cas ici la pression artérielle dans le groupe de traitement est beaucoup plus élevé donc si on a une pression artérielle élevé plus élevé plus élevé dans ce groupe là dans le groupe de traitement bien ça militera en faveur d'une relation de cause à effet c'est à dire que passer plus de temps devant l'ordinateur augmente aussi la pression artérielle alors j'ai mes quelques réserves parce que effectivement cette conclusion là elle dépend quand même de la manière dont tu as mené son étude il faut que tu les bienfaits et notamment et en dehors des biais il peut y avoir aussi d'autres questions par exemple est ce que la taille de ton de l'échantillon est suffisante pour que tu puisse tirer des conclusions sur la population totale alors pour résumer on fait des études sur des échantillons pour estimer la valeur de certains paramètres sur une population qu'on peut pas complètement étudier dans le détail on prélève donc des échantillons ensuite sur ces échantillons on peut aussi mesurer plusieurs paramètres et regarder s'il ya une corrélation entre ces paramètres et puis enfin pour déterminer si cette corrélation est une relation de cause à effet ou pas eh bien on peut faire une expérience contrôler comme celle que je viens de décrire en créant un groupe témoin comme on l'a fait ici alors bien sûr tout ça en prenant toutes les précautions qu'on a vu c'est à dire que il faut prendre des échantillons aléatoires ensuite les répartir de manière aléatoire en groupes distincts au contrôle des groupes de traitement pour éviter les biais qui pourraient exister