Traitement de données massives

John Samuel
CPE Lyon

Année: 2020-2021
Courriel: john(dot)samuel(at)cpe(dot)fr

Creative Commons License

Big Data

Objectifs

  1. Histoire scientifique (Big Data)
  2. Répresentation, manipulation et prétraitement de données
  3. Traitement de données
  4. Construction des modèles de traitement: apprentissage machine
  5. Données ouvertes liées
  6. Analyse des données: Hadoop, Hive et Spark

Traitement de données massives

Environnement de programmation:

Traitement de données massives

Cours:

Travaux pratiques et Projet

Traitement de données massives

Cours Dates
Cours 1 (4h) 11 février
Cours 2 (4h) 25 février
Cours 3 (4h) 11 mars
Cours 4 (4h) 25 mars
Cours 5 (4h) 27 avril

Traitement de données massives

Travaux pratiques Dates
TP 1 23 février
TP 2 9 mars
TP 3 6 avril
TP 4 et Projet 13 avril
TP 5 et Projet 14 avril
TP 6 et Projet 15 avril
TP 7 27 avril
TP 8/9 et Projet 29 avril

Traitement de données massives

Travaux pratiques

Traitement de données massives

Soumission: Travaux pratiques et Projet

TP Points
TP 1-9
Projet

Traitement de données massives

Travaux pratiques

Chaque exercice a un niveau de difficulté

Traitement de données massives

Liste de contrôle

Avant de déposer votre projet, vérifiez si vous respectez la liste de contrôle suivante:

Traitement de données massives

Modèle de code

Vous pouvez consulter https://github.com/johnsamuelwrites/TDM en ligne
ou le cloner sur votre machine à l'aide du terminal en utilisant les commandes suivantes.

                	  $ git clone https://github.com/johnsamuelwrites/TDM
$ cd TDM
$ ls

Et pour les dernières modifications:

                	  $ git pull

Traitement de données massives

Travaux pratiques: Notebooks Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Notebooks Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: notebook Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Traitement de données massives: Notebooks Jupyter

Travaux pratiques: Visualisation et notebook Jupyter

Traitement de données massives

Travaux pratiques: Wikidata (Open Data)

Histoire scientifique

Cadran solaire

Ancien cadran solaire egyptien (1500 av. J.-C. )

Histoire scientifique

Système de numération

Histoire scientifique

Machine à écrire
Machine à écrire électronique

Histoire scientifique

Machine à calculer de Blaise Pascal à six chiffres
Machine à différences de Charles Babbage

Histoire scientifique

L'ENIAC (photo prise entre 1947 et 1955).
IBM PC 5150 en 1983

Histoire scientifique

Imprimante matricielle (Panasonic)

Histoire scientifique

Disquettes 8 pouces, 5,25 pouces et 3,5 pouces
L’intérieur d’un disque dur

Histoire scientifique

Stockage: Serveurs

Histoire scientifique

Croissance de la capacité mondiale de stockage de données et informations

Histoire scientifique

Systèmes

Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Histoire scientifique

Calcul distribué

Les projets suivants ont utilisé la puissance de traitement des ordinateurs personnels pour différents objectifs

Histoire scientifique

Tendances de recherche Google (novembre 2020): Big Data

Histoire scientifique

Tendances de recherche Google (novembre 2020): Big Data et Artificial Intelligence

Histoire scientifique

Tendances de recherche Google (novembre 2020): Big Data, Artificial Intelligence et Blockchain

Histoire scientifique

Le populisme de la base de données [Driscoll 2012]

Histoire scientifique

Big Data: 3V [Chen 2012, Kwon 2014, Gandomi 2015]

Histoire scientifique

Big Data: 6V [Gandomi 2015]

Histoire scientifique

Big Data [Kitchin 2016]

Références

Crédits d'images