Devoir de Philosophie

statistiques - mathématiques.

Publié le 25/04/2013

Extrait du document

statistiques - mathématiques. 1 PRÉSENTATION statistiques, branche des mathématiques qui a pour objet la collecte, le traitement et l'analyse de données numériques relatives à un ensemble d'objets, d'individus ou d'éléments. La statistique constitue un outil précieux pour l'expérimentation de projets, la gestion des entreprises ou encore l'aide à la décision. Une recherche statistique se décompose en quatre étapes : la définition et la collecte des données, leur présentation en tableaux, leur analyse, et enfin la comparaison des résultats avec des lois statistiques connues. 2 HISTORIQUE Au IIe millénaire av. J.-C., les Chinois étudient déjà les chiffres de leurs productions agricoles, tandis que les Égyptiens organisent des recensements de leur population. La Bible mentionne également dans le Livre des Nombres et dans le Livre des Chroniques des travaux statistiques. Dans l'Antiquité, Grecs et Romains recueillent des données chiffrées relatives à la population. Le gouvernement de Rome procède en particulier au premier recensement de l'histoire à grande échelle, répertoriant aussi la richesse de ses territoires. Le Moyen Âge connaît très peu de recensements. Au VIIIe siècle, Charlemagne commande des relevés des propriétés ecclésiastiques. Quelque trois siècles plus tard, Guillaume Ier le Conquérant ordonne en 1086 le recensement de toutes les terres anglaises. Les informations recueillies à cette occasion sont consignées dans un recueil cadastral, le Domesday Book. Au début du XVIe siècle, on commence à tenir en Angleterre un registre des décès et des naissances. En France, les intendants Sully, Colbert et Vauban commandent de nombreux inventaires et enquêtes. En 1662, l'Anglais John Graunt constate une certaine constance dans le rapport du nombre de naissances féminines à celui des naissances masculines. Cette observation est le prélude aux développements du seulement au XIXe XVIIIe siècle qui voient les statistiques servir de base à des prévisions. Mais c'est siècle qu'on découvre que la théorie des probabilités constitue une aide précieuse à la méthode statistique. Ce rapprochement, déjà perçu par Laplace, est l'oeuvre d'Adolphe Quételet, statisticien belge qui est à l'initiative du premier congrès international de statistiques en 1853. Dès lors, la statistique se développe dans la plupart des sciences, donnant notamment naissance à la mécanique statistique. Aujourd'hui, les statistiques sont considérées comme des outils fiables qui peuvent fournir une représentation et une interprétation de données économiques, politiques, sociales, psychologiques, biologiques ou physiques. Elles permettent de mettre en corrélation de telles données et de les analyser. Le travail du statisticien ne se limite plus, en effet, à recueillir des données et à les présenter sous forme de tableaux ou de graphiques comme autrefois. Désormais, il consiste principalement à interpréter l'information. Par ailleurs, l'élaboration de la théorie des probabilités a considérablement élargi le champ des applications statistiques. Les probabilités permettent, par exemple, de vérifier la fiabilité des conclusions statistiques, ou encore d'indiquer la nature et le nombre de données nécessaires à la résolution d'un problème particulier. 3 MÉTHODES STATISTIQUES 3.1 Définition et collecte des données Le point de départ d'une analyse statistique est constitué d'ensembles de nombres, obtenus en comptant ou en mesurant les éléments faisant l'objet de l'étude. Lors de la collecte de données statistiques, il convient donc, en premier lieu, de s'entourer de précautions afin de s'assurer de l'exhaustivité et de la justesse des informations recueillies. Le premier problème auquel est confronté le statisticien est de définir la nature et la quantité des données à recueillir. Lorsque, par exemple, il souhaite réaliser un sondage d'opinion, il n'est pas aisé de sélectionner un échantillon susceptible de représenter la population dans son ensemble. Pour établir une loi physique, biologique ou sociale, le statisticien a la possibilité de commencer par étudier un ensemble de données, qu'il modifiera peu à peu en fonction de l'expérience acquise. Ainsi, lors des premières études sur la croissance démographique, on prévoit l'évolution de la taille de la population en calculant le nombre de naissances excédentaires par rapport aux décès sur une période donnée. Mais on s'aperçoit bien vite que le nombre de décès n'entre pas en ligne de compte. On calcule alors l'évolution de la croissance démographique en se fondant sur le nombre de naissances survenues en un an parmi 1 000 individus. Lorsque les prévisions obtenues par cette méthode ont débouché sur des conclusions erronées, on comprend qu'il existe d'autres facteurs qui limitent la croissance démographique. En effet, le nombre de naissances possibles dépend davantage du nombre de femmes et du nombre total d'habitants ; par ailleurs, les femmes ne peuvent enfanter que pendant une partie de leur vie. Aujourd'hui donc, pour calculer l'évolution démographique, on se fonde sur le nombre de naissances survenues au sein d'un groupe de 1 000 femmes en âge de procréer. Par ailleurs, on peut affiner la valeur prévisionnelle de cette donnée de base en la combinant à d'autres données, comme celle relative au pourcentage de femmes sans enfant. Lorsque le statisticien a défini la nature et le nombre des données à recueillir, il peut alors procéder à leur recensement. Cette collecte s'effectue en général par sondage, par mesures, ou encore par échantillonnage. Les données recensées peuvent faire, par mesure de sécurité, l'objet d'une vérification partielle. 3.2 Représentation des données Les données recueillies sont alors classées et rangées dans des tableaux de façon à permettre une analyse et une interprétation directes. Prenons l'exemple d'un ensemble de notes obtenues par une classe de 30 élèves lors d'un examen, ces notes étant notées sur 100. Commençons par ranger ces notes dans l'ordre croissant : 30, 35, 43, 52, 61, 65, 65, 65, 68, 70, 72, 72, 73, 75, 75, 76, 77, 78, 78, 80, 83, 85, 88, 88, 90, 91, 96, 97, 100, 100. Cette suite permet de voir au premier coup d'oeil que le maximum obtenu est 100, le minimum 30 et que l'étendue, qui correspond à la différence entre les deux valeurs extrêmes, est de 70. En statistique, on appelle effectif le nombre d'éléments du même type. Dans le cas présent, un effectif représente donc le nombre d'élèves qui ont eu la même note. Reportons alors ces notes sur un graphique des effectifs cumulés, qui illustre le nombre de notes inférieures ou égales à une valeur donnée, où les notes sont indiquées sur l'axe horizontal tandis que le nombre cumulé des notes est reporté sur l'axe des ordonnées. À droite de cet axe est précisé le pourcentage correspondant par rapport à l'effectif total. Chaque point du graphique représente, par conséquent, le nombre ou le pourcentage d'élèves qui ont obtenu une note inférieure ou égale à une valeur donnée. Ainsi, le point A correspond au nombre de notes inférieures ou égales à 72. Si l'on observe l'axe vertical, on voit immédiatement qu'il y a 12 notes dans ce cas, soit 40 p. 100 des notes au total. Un quartile est l'une des 3 valeurs qui divisent la répartition des données en quatre parties égales. Le quartile inférieur est la plus basse de ces valeurs, le quartile supérieur la valeur la plus élevée. Ici, le quartile inférieur représente donc la note correspondant à 25 p. 100 de l'effectif total. Il vaut 65, ce qui signifie qu'un quart des élèves a obtenu une note inférieure ou égale à 65. Considérons à présent l'ensemble des notes obtenues par 10 groupes de 30 élèves à quatre épreuves, soit au total 1 200 notes. Le nombre de données est alors trop élevé pour être facilement représenté sur un graphique. Les statisticiens répartissent donc les données en groupes plus adaptés, appelés classes. Par exemple, on peut répartir les 1 200 notes en dix classes, comme dans la colonne (a) du tableau de répartition des effectifs. La colonne (c) contient le nombre de valeurs contenues dans une classe, nombre appelé effectif de la classe. Ainsi, la valeur située en haut de cette colonne (c) indique qu'il y a 20 notes comprises entre 0 et 10, les nombres qui définissent l'intervalle de chaque classe étant ses bornes. Il est pratique de choisir ces bornes de sorte que les classes soient toutes de même amplitude et que leurs milieux soient des nombres entiers, appelés centres. Une note limite comme 90 est située à la fois dans la classe 80-90 et dans la classe 90-100. La fréquence relative, illustrée par la colonne (e), représente le rapport de l'effectif d'une classe sur le nombre total de données (ici, 1 200 notes). L'effectif cumulé, reporté dans la colonne (d), correspond au nombre d'élèves ayant eu des notes inférieures ou égales à la borne supérieure de la classe correspondante. Par conséquent, on obtient le nombre d'élèves ayant eu des notes égales ou inférieures à 30 en additionnant les fréquences de la colonne (c) pour les trois premières classes, ce qui fournit un total de 53. La fréquence relative cumulée, colonne (f), est le rapport de l'effectif cumulé au nombre total de notes. On peut représenter graphiquement les données du tableau de répartition des effectifs sur un histogramme ou à l'aide d'un polygone des effectifs cumulés. Un histogramme est constitué d'une série de rectangles dont les bases sont égales à l'amplitude des classes et dont les hauteurs sont proportionnelles aux effectifs de chaque classe. Un polygone des effectifs cumulés s'obtient en reliant par des segments les milieux des bases supérieures des rectangles d'un histogramme des effectifs cumulés. 3.3 Analyse des données 3.3.1 Tendance centrale Une fois les données recueillies et présentées sous forme de tableaux, le travail d'analyse commence par le calcul d'un nombre qui puisse résumer à lui seul l'ensemble des données. En effet, il est toujours possible de dégager la tendance centrale d'un échantillon. Soient donc x1, x2, ..., xn, les valeurs d'une série statistique. La mesure la plus couramment utilisée pour refléter la tendance centrale de cet échantillon est la moyenne arithmétique, appelée plus simplement moyenne, de symbole ?. Elle est donnée par la formule : Le numérateur avec le symbole ? (sigma) correspond à la « somme des xi pour i variant de 1 à n «. Si l'on regroupe les valeurs xi en k classes ayant pour centres respectifs c1, c2, ..., ck et pour effectifs e1, e2, ..., ek, la moyenne arithmétique peut alors s'écrire : La médiane et le mode sont deux autres mesures de la tendance centrale. La médiane d'une distribution est égale au nombre réel qui sépare l'effectif total en deux parties égales. Supposons que les variables xi soient rangées dans l'ordre croissant. Si le nombre n de valeurs est impair, la médiane est alors la valeur de la variable du rang (n + 1) / 2. Si n est pair, la médiane équivaut à la moyenne arithmétique des valeurs de rang n / 2 et (n / 2) + 1. Le mode correspond à la valeur de la variable qui apparaît le plus souvent dans la distribution. Si deux valeurs distinctes apparaissent avec des fréquences égales, l'ensemble des variables ne possède pas de mode : on dit alors qu'il est bimodal. Si trois valeurs distinctes apparaissent avec des fréquences égales, la distribution est dite trimodale. 3.3.2 Dispersion Le statisticien est souvent confronté au problème de la dispersion d'un ensemble de données. En d'autres termes, il cherche à savoir si les mesures sont étroitement regroupées autour de la moyenne ou si elles sont dispersées. On peut mesurer la dispersion en calculant la différence entre deux pourcentages, comme les quartiles inférieur et supérieur. L'écart-type est une mesure de dispersion plus facile à utiliser que les différences de pourcentages, car elle est définie au moyen de notions arithmétiques simples. On appelle écart à la moyenne d'une valeur xi la différence positive xi - ?. La variance de l'ensemble des données est indiquée par la formule : v = [(x1 - ?)2 + (x2 - ?)2 + ... + (xn - ?)2] / nEnfin l'écart-type, de symbole ?, est la racine carrée de la variance v. On a donc : Si l'écart-type est faible, les valeurs de l'échantillon sont regroupées autour de la moyenne ; s'il est important, elles sont en revanche très dispersées. 3.3.3 Corrélation Lorsque les données de deux phénomènes sociaux, physiques ou biologiques augmentent ou diminuent de manière proportionnelle et simultanée en fonction de facteurs externes identiques, on dit que ces phénomènes sont positivement corrélés. À l'opposé, si l'un des deux augmente pendant que l'autre diminue dans les mêmes proportions, on dit alors que les deux phénomènes sont négativement corrélés. Considérons donc l'échantillon d'un couple de deux variables x et y : (x1, y1), (x2, y2), ..., (xn, yn). On appelle covariance de cet échantillon la valeur : Le coefficient de corrélation est alors défini par : où ?x et ?y sont les écarts-types des variables x et y. Une parfaite corrélation positive entre les deux variables correspond à un coefficient égal à + 1, une parfaite corrélation négative à un coefficient égal à - 1, tandis qu'une absence de corrélation correspond à un coefficient égal à 0. Ainsi, 0,89 indique une forte corrélation positive, - 0,76 une forte corrélation négative, et 0,13 une faible corrélation positive. 3.4 Lois statistiques Les statisticiens se sont aperçus que de nombreux ensembles de mesures avaient le même type de distribution. Par exemple, l'ensemble des masses de n haricots prélevés au hasard dans un sac a le même type de distribution que l'ensemble des pressions barométriques relevées successivement par différents étudiants sur le même baromètre. Cela a conduit à concevoir des modèles mathématiques qui soient le reflet des lois statistiques souvent rencontrées. L'une de ces lois fréquemment rencontrée et appelée loi normale, correspond au cas où la densité de probabilité y en fonction de la variable continue x peut s'écrire sous la forme : (ici, le symbole e désigne une fonction exponentielle). La représentation graphique de cette relation est une courbe en forme de cloche appelée courbe de distribution normale ou courbe de Gauss. Si une variable x a une distribution normale, la probabilité que x soit comprise entre les valeurs a et b est donnée par l'expression : Voir aussi probabilités. Microsoft ® Encarta ® 2009. © 1993-2008 Microsoft Corporation. Tous droits réservés.

« nombre de notes inférieures ou égales à une valeur donnée, où les notes sont indiquées sur l’axe horizontal tandis que le nombre cumulé des notes est reporté sur l’axe des ordonnées.

À droite de cet axe est précisé le pourcentage correspondant par rapport à l’effectif total.

Chaque point du graphique représente, par conséquent, le nombre ou le pourcentage d’élèves qui ont obtenu une note inférieure ou égale à une valeur donnée.

Ainsi, le point A correspond au nombre de notes inférieures ou égales à 72.

Si l’on observe l’axe vertical, on voit immédiatement qu’il y a 12 notes dans ce cas, soit 40 p.

100 des notes au total. Un quartile est l’une des 3 valeurs qui divisent la répartition des données en quatre parties égales.

Le quartile inférieur est la plus basse de ces valeurs, le quartile supérieur la valeur la plus élevée.

Ici, le quartile inférieur représente donc la note correspondant à 25 p.

100 de l’effectif total.

Il vaut 65, ce qui signifie qu’un quart des élèves a obtenu une note inférieure ou égale à 65. Considérons à présent l’ensemble des notes obtenues par 10 groupes de 30 élèves à quatre épreuves, soit au total 1 200 notes.

Le nombre de données est alors trop élevé pour être facilement représenté sur un graphique.

Les statisticiens répartissent donc les données en groupes plus adaptés, appelés classes.

Par exemple, on peut répartir les 1 200 notes en dix classes, comme dans la colonne (a) du tableau de répartition des effectifs.

La colonne (c) contient le nombre de valeurs contenues dans une classe, nombre appelé effectif de la classe.

Ainsi, la valeur située en haut de cette colonne (c) indique qu’il y a 20 notes comprises entre 0 et 10, les nombres qui définissent l’intervalle de chaque classe étant ses bornes.

Il est pratique de choisir ces bornes de sorte que les classes soient toutes de même amplitude et que leurs milieux soient des nombres entiers, appelés centres.

Une note limite comme 90 est située à la fois dans la classe 80-90 et dans la classe 90-100.

La fréquence relative, illustrée par la colonne (e), représente le rapport de l’effectif d’une classe sur le nombre total de données (ici, 1 200 notes).

L’effectif cumulé, reporté dans la colonne (d), correspond au nombre d’élèves ayant eu des notes inférieures ou égales à la borne supérieure de la classe correspondante.

Par conséquent, on obtient le nombre d’élèves ayant eu des notes égales ou inférieures à 30 en additionnant les fréquences de la colonne (c) pour les trois premières classes, ce qui fournit un total de 53. La fréquence relative cumulée, colonne (f), est le rapport de l’effectif cumulé au nombre total de notes. On peut représenter graphiquement les données du tableau de répartition des effectifs sur un histogramme ou à l’aide d’un polygone des effectifs cumulés.

Un histogramme est constitué d’une série de rectangles dont les bases sont égales à l’amplitude des classes et dont les hauteurs sont proportionnelles aux effectifs de chaque classe.

Un polygone des effectifs cumulés s’obtient en reliant par des segments les milieux des bases supérieures des rectangles d’un histogramme des effectifs cumulés. 3. 3 Analyse des données 3.3. 1 Tendance centrale. »

↓↓↓ APERÇU DU DOCUMENT ↓↓↓

Liens utiles