Devoir de Philosophie

Maths: L’importance des mathématiques dans les traitements de données

Publié le 26/04/2024

Extrait du document

« Maths: L’importance des mathématiques dans les traitements de données Par Gilles Babinet | 06/12/2017, 10:00 | 1381 mots Bonjour chers jury je m’appelle Barry Thierno Boubacar je suis là aujourd’hui pour vous présenter mon grand oral.

Mon projet post-bac me pousse à me poser une question sur le métier que je souhaite exercer.

Je veux être Data Scientist alors je me demande donc l’importance des mathématiques dans les traitements de données.

Au cours de ma présentation je répondrai à cette question. Tout d’abord La data science est une science interdisciplinaire s’appuyant sur des méthodes scientifiques, des algorithmes, des processus et autres systèmes afin d’exploiter de grands ensembles de données. On a souvent tendance à oublier combien le déluge technologique auquel nous assistons au travers de la donnée ne serait pas grand chose sans les mathématiques. De surcroît, une très vaste majorité - peut être 95 à 98% - des données issues de l'internet sont « bruyantes », c'est à dire qu'elles sont non structurées et dynamiques, plutôt que statiques et convenablement rangées.

Sans même évoquer le fait qu'elles peuvent être endommagées ou incomplètes.

Par Gilles Babinet Typiquement, les données issues des réseaux sociaux, de Facebook, Twitter ou Instagram sont principalement textuelles et donc nécessitent d'importants travaux pour les exploiter.

Ceux qui ont une formation en mathématique, ou mieux encore en statistiques ont l'habitude de penser des données comme étant composé de vecteurs - une chaîne de chiffres et de coordonnées.

Mais en ce qui concerne les données des réseaux sociaux ou de la vaste majorité du web, rien de tel.

Pour pouvoir effectuer des traitements statistiques à partir de ces informations, il faut repenser totalement les approches technologiques usuelles.

Cela signifie qu'il aura fallu créer de nouveaux outils mathématiques à partir des ensembles de données. Cela soulève donc deux défis : il y a d'une part beaucoup plus de données et d'autre part, celles-ci ne sont pas rangées de la façon dont il le faudrait si on veut utiliser les outils traditionnels pour les traiter.

Nombreux sont ceux qui soulignent qu'on ne peut pas se figurer la matière première de la big data comme une gigantesque feuille Excel, de la taille d'un parking d'hypermarché, sur laquelle se trouverait plutôt des données bien rangées.

Il faut plutôt se figurer la big data comme un torrent de montagne, dont chaque goutte est un chiffre ou encore comme une photo ou une suite de photos.

En apparence, tout cela paraît extrêmement désordonné et sans vraiment de sens, pourtant il est possible d'en extraire une quantité d'information impressionnante, pour peu que l'on accepte de changer de méthode. Les solutions -car il ne s'agit pas d'une seule solution- viendront progressivement en associant élégamment plusieurs méthodes, parfois issues de disciplines très éloignées les unes des autres.

On a vu qu'une partie de la réponse au traitement des données non-structurées s'est trouvé dans le traitement parallèle du stockage de l'information.

L'autre partie viendra des mathématiques pures. Quelques mathématiciens, généralement contemporains les uns des autres, Eduard Čech (1893-1960), Henri Poincaré (1854-1912) vont initier l'émergence d'une nouvelle discipline mathématique du nom de topologie.

Celle-ci permet d'analyser les phénomènes de corrélation dans de nombreuses séries de chiffres.

C'est en partant de ces travaux, ainsi que ceux de Leonhard Heuler, que seront fondés il y a seulement quelques années la discipline visant à analyser des modèles topologiques de données (en anglais Topological Data Analyse ; TDA) notamment par le biais de techniques très sophistiquées de dérivés d'outils mis au point au début du siècle par Čech et le mathématicien Boris Delaunay (1890-1980).

Ces modèles topologiques de données sont aujourd'hui déterminants pour extraire des signaux faibles -des corrélations ou des artéfacts par exemple- de séries de nombres et ils sont très fréquemment mis en œuvre dans les opérations de calcul relevant des big data.

Il n'a d'ailleurs pas été nécessaire que les technologies dites de big data soient inventées pour que l'on puisse réellement commencer à traiter de grandes séries avec ce modèle. Les analyses épidémiologiques, sociologiques, et de toutes autres sortes requièrent depuis fort longtemps l'utilisation d'une partie de ces méthodes.

Ce qui est nouveau, c'est la capacité de mettre en œuvre ces modèles à des échelles que l'on aurait difficilement cru imaginables auparavant.

Le fait d'automatiser ces recherches permet de surcroît de trouver plus facilement des artéfacts dans des jeux de données que l'on aurait tout simplement pas envisager pouvoir explorer.

Ainsi lorsqu'une analyse de type big data effectuée au sein des feuilles de diagnostic du Washington Hospital Center révèle que le mot « fluid » est généralement associé à un risque de réadmission élevé, c'est une information qu'il aurait été particulièrement difficile de trouver autrement et qui a évidemment une réelle importance pour les acteurs du système de soins. La topologie.... »

↓↓↓ APERÇU DU DOCUMENT ↓↓↓

Liens utiles