Data Science : glossaire des termes de A à Z

La Data Science vous intéresse, mais vous voyez toujours des termes qui ne vous sont pas familiers ? Ce glossaire de A à Z définit tous les termes clés de la science des données que vous devez connaître.

Algorithme

Un algorithme est un ensemble d’instructions ou de règles à suivre pour accomplir une tâche spécifique. Les algorithmes peuvent être particulièrement utiles lorsque vous travaillez avec du Big Data ou du Machine Learning. Les analystes de données peuvent utiliser des algorithmes pour organiser ou analyser les données, tandis que les data scientists peuvent utiliser des algorithmes pour faire des prédictions ou créer des modèles.

Analyse des données

L’analyse des données consiste à collecter, transformer et organiser des données afin de tirer des conclusions, de faire des prédictions et de prendre des décisions éclairées. L’analyse des données englobe l’analyse des données (le processus d’extraction d’informations à partir des données), la science des données (utiliser les données pour théoriser et prévoir) et l’ingénierie des données (créer des systèmes de données). Les analystes de données, les data scientists et les ingénieurs de données sont tous des professionnels de l’analyse de données.

Il existe quatre types clés d’analyse de données, notamment :

  • Analyses descriptives , qui nous disent ce qui s’est passé
  • Analyses de diagnostic , qui nous indiquent pourquoi quelque chose s’est produit
  • Analyse prédictive , qui nous indique ce qui va probablement se passer dans le futur
  • L’analyse prescriptive , qui nous indique comment agir

Apprentissage par renforcement

L’apprentissage par renforcement est un type d’apprentissage automatique qui apprend en interagissant avec son environnement et en obtenant un renforcement positif pour les prédictions correctes et un renforcement négatif pour les prédictions incorrectes. Ce type d’apprentissage automatique peut être utilisé pour développer des véhicules autonomes. Les algorithmes courants sont la différence temporelle, les réseaux contradictoires profonds et le Q-learning.

Apprentissage supervisé

L’apprentissage supervisé est un type d’apprentissage automatique qui apprend à partir de données d’entrée et de sortie historiques étiquetées. Il est « supervisé » parce que vous lui fournissez des informations étiquetées. Ce type d’apprentissage automatique peut être utilisé pour prédire les prix de l’immobilier ou détecter des facteurs de risque de maladie. Les algorithmes courants utilisés lors de l’apprentissage supervisé sont les réseaux de neurones, les arbres de décision, la régression linéaire et les machines à vecteurs de support.

Apprentissage non supervisé

L’apprentissage non supervisé est un type d’apprentissage automatique qui recherche des modèles de données. Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé n’apprend pas à partir de données étiquetées. Ce type d’apprentissage automatique est souvent utilisé pour développer des modèles prédictifs et créer des clusters. Par exemple, vous pouvez utiliser l’apprentissage non supervisé pour regrouper les clients en fonction de leur comportement d’achat, puis formuler des recommandations de produits basées sur les habitudes d’achat de clients similaires. Les modèles de Markov cachés, les k-moyennes, le regroupement hiérarchique et les modèles de mélange gaussien sont des algorithmes courants utilisés lors de l’apprentissage non supervisé.

Architecture des données « Data architecture »

L’architecture des données, également appelée conception des données, est le plan du système de gestion des données d’une organisation. Cela peut inclure tous les points de contact du cycle de vie des données, y compris la manière dont les données sont collectées, organisées, utilisées et supprimées. Les architectes de données conçoivent les modèles que les organisations utilisent pour leurs systèmes de gestion de données.

Base de données relationnelle

Une base de données relationnelle est une base de données qui contient plusieurs tables avec des informations associées. Même si les données sont stockées dans des tables distinctes, vous pouvez accéder aux données associées dans plusieurs tables avec une seule requête. Par exemple, une base de données relationnelle peut avoir une table pour l’inventaire et une autre table pour les commandes des clients. Lorsque vous recherchez un produit spécifique dans votre base de données relationnelle, vous pouvez récupérer simultanément les informations sur l’inventaire et les commandes clients.

Big Data

Le Big Data est une vaste collection de données caractérisée par les trois V : volume, vitesse et variété. Le volume fait référence à la quantité de données : le big data traite de gros volumes de données ; la vélocité fait référence à la vitesse à laquelle les données sont collectées : les mégadonnées sont collectées à une vitesse élevée et sont souvent diffusées directement dans la mémoire ; et la variété fait référence à la gamme de formats de données : le Big Data a tendance à contenir une grande variété de données structurées, semi-structurées et non structurées, ainsi qu’une variété de formats tels que des nombres, des chaînes de texte, des images et de l’audio.

Business intelligence (BI)

La Business Intelligence (BI) est une analyse de données utilisée pour permettre aux organisations de prendre des décisions commerciales basées sur les données. Les analystes de Business Intelligence analysent les données commerciales telles que les revenus, les ventes ou les données clients, et proposent des recommandations basées sur leur analyse.

Changelog

La Changelog est une liste documentant toutes les étapes que vous avez suivies lorsque vous travaillez avec vos données. Cela peut être utile dans le cas où vous devez revenir à vos données d’origine ou rappeler comment vous avez préparé vos données pour l’analyse.

Classification

La classification est un problème d’apprentissage automatique qui organise les données en catégories. Vous pouvez l’utiliser pour créer des filtres anti-spam, par exemple. Quelques exemples d’algorithmes couramment utilisés pour créer des modèles de classification sont la régression logistique, les arbres de décision, le K-plus proche voisin (KNN) et la forêt aléatoire.

Data cleaning

La Data cleaning ou le nettoyage des données est le processus de préparation des données brutes pour l’analyse. Lors du nettoyage de vos données, vous vérifiez que vos données sont exactes, complètes, cohérentes et impartiales. Il est important de vous assurer que vous disposez de données propres avant l’analyse, car des données impures peuvent conduire à des conclusions inexactes et à des décisions commerciales erronées.

Data engineering

Data engineering ou l’ingénierie des données est le processus permettant de rendre les données accessibles à des fins d’analyse. Les ingénieurs de données créent des systèmes qui collectent, gèrent et convertissent les données brutes en informations utilisables. Certaines tâches courantes incluent le développement d’algorithmes pour transformer les données sous une forme plus utile, la création d’architectures de pipeline de bases de données et la création de nouveaux outils d’analyse de données. 

Data lake

la data lake est un référentiel de stockage de données conçu pour capturer et stocker une grande quantité de données brutes structurées, semi-structurées et non structurées. Les data scientists utilisent les données des lacs de données pour l’apprentissage automatique ou les algorithmes et modèles d’IA, ou ils peuvent traiter les données et les transférer vers un entrepôt de données.

Data mart

La data mart est un sous-ensemble d’un stockage de données qui héberge toutes les données traitées pertinentes pour un service spécifique. 

Data mining

La Data mining examine de près les données pour identifier des modèles et glaner des informations. L’exploration de données est un aspect central de l’analyse des données ; les informations que vous trouvez au cours du processus d’exploration de données éclaireront vos recommandations commerciales.

Data modeling

La modélisation des données est le processus de cartographie et de création de pipelines de données qui connectent les sources de données à des fins d’analyse. Un modèle de données est un outil qui implémente ces pipelines et organise les données entre les sources de données. Les modélisateurs de données sont des analystes de systèmes qui travaillent avec des architectes de données et des administrateurs de bases de données pour concevoir des bases de données et des systèmes de données.

Data visualization

La visualisation des données est la représentation d’informations et de données à l’aide de tableaux, de graphiques, de cartes et d’autres outils visuels. Grâce à de solides visualisations de données, vous pouvez favoriser la narration, rendre vos données accessibles à un public plus large, identifier des modèles et des relations et explorer davantage vos données.

Data warehouse

La data warehouse est un référentiel de données centralisé qui stocke des données traitées et organisées provenant de plusieurs sources. 

Data wrangling

La data wrangling est le processus de conversion de données brutes sous une forme utilisable. Le processus comporte quatre étapes : la découverte, la transformation des données, la validation des données et la publication. L’étape de transformation des données peut être décomposée en tâches telles que la structuration des données, la normalisation ou la dénormalisation des données, le nettoyage des données et l’enrichissement des données.

Database

La database ou base de données est une collection organisée d’informations qui peuvent être recherchées, triées et mises à jour. Ces données sont souvent stockées électroniquement dans un système informatique appelé système de gestion de base de données (SGBD). Souvent, vous devrez utiliser un langage de programmation, tel que le langage de requête structuré (SQL), pour interagir avec votre base de données.

Deep learning

La Deep learning est une technique d’apprentissage automatique qui superpose des algorithmes et des unités de calcul (ou neurones) dans ce que l’on appelle un réseau neuronal artificiel (ANN). Contrairement au machine learning, les algorithmes de deep learning peuvent améliorer les résultats incorrects grâce à la répétition sans intervention humaine. Ces réseaux neuronaux profonds s’inspirent de la structure du cerveau humain.

Données structurées

Les données structurées sont des données formatées ; par exemple, des données organisées en lignes et en colonnes. Les données structurées sont généralement plus faciles à analyser que les données non structurées en raison de leur formatage soigné.

Données non structurées

Les données non structurées sont des données qui ne sont organisées de manière apparente. Afin d’analyser des données non structurées, vous devrez généralement mettre en œuvre un certain type d’organisation.

Enrichissement des données

L’enrichissement des données consiste à ajouter des données à votre ensemble de données existant. Vous enrichissez généralement vos données pendant le processus de transformation des données, alors que vous vous préparez à commencer votre analyse si vous réalisez que vous avez besoin de données supplémentaires pour répondre à votre question commerciale.

Gouvernance des données

La gouvernance des données est le plan formel de la manière dont une organisation gère les données de l’entreprise. La gouvernance des données englobe les règles régissant la manière dont les données sont accessibles et utilisées et peut inclure des règles de responsabilité et de conformité.

Langage de requête structuré (SQL)

Le langage de requête structuré, ou SQL est un langage de programmation informatique utilisé pour gérer des bases de données relationnelles. C’est l’un des langages les plus courants pour la gestion de bases de données.

Machine learning

La Machine learning ou L’apprentissage automatique est un sous-ensemble de l’IA dans lequel les algorithmes imitent l’apprentissage humain lors du traitement des données. Grâce à l’apprentissage automatique, les algorithmes peuvent s’améliorer au fil du temps, devenant de plus en plus précis lors des prédictions ou des classifications. 

Régression

La régression est un problème d’apprentissage automatique qui utilise des données pour prédire les résultats futurs. Quelques exemples d’algorithmes couramment utilisés pour créer des modèles de régression sont la régression linéaire et la régression de crête.

Tableau de bord

Un tableau de bord est un outil utilisé pour surveiller et afficher des données en direct. Les tableaux de bord sont généralement connectés à des bases de données et à des visualisations de fonctionnalités qui se mettent automatiquement à jour pour refléter les données les plus récentes de la base de données.