Maths: L’importance des mathématiques dans les traitements de données
Publié le 26/04/2024
Extrait du document
«
Maths: L’importance des mathématiques dans les traitements de
données
Par Gilles Babinet | 06/12/2017, 10:00 | 1381 mots
Bonjour chers jury je m’appelle Barry Thierno Boubacar je suis là aujourd’hui pour vous présenter mon
grand oral.
Mon projet post-bac me pousse à me poser une question sur le métier que je souhaite exercer.
Je
veux être Data Scientist alors je me demande donc l’importance des mathématiques dans les traitements de
données.
Au cours de ma présentation je répondrai à cette question.
Tout d’abord La data science est une science interdisciplinaire s’appuyant sur des méthodes
scientifiques, des algorithmes, des processus et autres systèmes afin d’exploiter de grands ensembles
de données.
On a souvent tendance à oublier combien le déluge technologique auquel nous
assistons au travers de la donnée ne serait pas grand chose sans les mathématiques.
De surcroît, une très vaste majorité - peut être 95 à 98% - des données issues de
l'internet sont « bruyantes », c'est à dire qu'elles sont non structurées et dynamiques,
plutôt que statiques et convenablement rangées.
Sans même évoquer le fait qu'elles
peuvent être endommagées ou incomplètes.
Par Gilles Babinet
Typiquement, les données issues des réseaux sociaux, de Facebook, Twitter ou
Instagram sont principalement textuelles et donc nécessitent d'importants travaux
pour les exploiter.
Ceux qui ont une formation en mathématique, ou mieux encore
en statistiques ont l'habitude de penser des données comme étant composé de
vecteurs - une chaîne de chiffres et de coordonnées.
Mais en ce qui concerne les
données des réseaux sociaux ou de la vaste majorité du web, rien de tel.
Pour
pouvoir effectuer des traitements statistiques à partir de ces informations, il faut
repenser totalement les approches technologiques usuelles.
Cela signifie qu'il aura
fallu créer de nouveaux outils mathématiques à partir des ensembles de données.
Cela soulève donc deux défis : il y a d'une part beaucoup plus de données et d'autre
part, celles-ci ne sont pas rangées de la façon dont il le faudrait si on veut utiliser les
outils traditionnels pour les traiter.
Nombreux sont ceux qui soulignent qu'on ne peut
pas se figurer la matière première de la big data comme une gigantesque feuille
Excel, de la taille d'un parking d'hypermarché, sur laquelle se trouverait plutôt des
données bien rangées.
Il faut plutôt se figurer la big data comme un torrent de
montagne, dont chaque goutte est un chiffre ou encore comme une photo ou une
suite de photos.
En apparence, tout cela paraît extrêmement désordonné et sans
vraiment de sens, pourtant il est possible d'en extraire une quantité d'information
impressionnante, pour peu que l'on accepte de changer de méthode.
Les solutions -car il ne s'agit pas d'une seule solution- viendront progressivement en
associant élégamment plusieurs méthodes, parfois issues de disciplines très
éloignées les unes des autres.
On a vu qu'une partie de la réponse au traitement des
données non-structurées s'est trouvé dans le traitement parallèle du stockage de
l'information.
L'autre partie viendra des mathématiques pures.
Quelques mathématiciens, généralement contemporains les uns des autres, Eduard
Čech (1893-1960), Henri Poincaré (1854-1912) vont initier l'émergence d'une
nouvelle discipline mathématique du nom de topologie.
Celle-ci permet d'analyser les
phénomènes de corrélation dans de nombreuses séries de chiffres.
C'est en partant
de ces travaux, ainsi que ceux de Leonhard Heuler, que seront fondés il y a
seulement quelques années la discipline visant à analyser des modèles topologiques
de données (en anglais Topological Data Analyse ; TDA) notamment par le biais de
techniques très sophistiquées de dérivés d'outils mis au point au début du siècle
par Čech et le mathématicien Boris Delaunay (1890-1980).
Ces modèles
topologiques de données sont aujourd'hui déterminants pour extraire des signaux
faibles -des corrélations ou des artéfacts par exemple- de séries de nombres et ils
sont très fréquemment mis en œuvre dans les opérations de calcul relevant des big
data.
Il n'a d'ailleurs pas été nécessaire que les technologies dites de big data soient
inventées pour que l'on puisse réellement commencer à traiter de grandes séries
avec ce modèle.
Les analyses épidémiologiques, sociologiques, et de toutes autres sortes requièrent
depuis fort longtemps l'utilisation d'une partie de ces méthodes.
Ce qui est nouveau,
c'est la capacité de mettre en œuvre ces modèles à des échelles que l'on aurait
difficilement cru imaginables auparavant.
Le fait d'automatiser ces recherches
permet de surcroît de trouver plus facilement des artéfacts dans des jeux de
données que l'on aurait tout simplement pas envisager pouvoir explorer.
Ainsi
lorsqu'une analyse de type big data effectuée au sein des feuilles de diagnostic
du Washington Hospital Center révèle que le mot « fluid » est généralement associé
à un risque de réadmission élevé, c'est une information qu'il aurait été
particulièrement difficile de trouver autrement et qui a évidemment une réelle
importance pour les acteurs du système de soins.
La topologie....
»
↓↓↓ APERÇU DU DOCUMENT ↓↓↓
Liens utiles
- Oral physique-chimie/maths: l'heure du crime !
- Amy Dahan-Dalmedico et Jeanne Peiffer: Une histoire des mathématiques (résumé)
- comment les mathématiques permettent ils de modéliser un jeu de hasard
- Oral mathématiques, le développement décimal de l'unité
- Première générale Cours Mathématiques Fonction exponentielle