Big Data
Le fonctionnement du Big Data

John Samuel
CPE Lyon

Année: 2017-2018
Courriel: john(dot)samuel(at)cpe(dot)fr

Creative Commons License

Big Data

Objectifs

  1. Histoire scientifique
  2. Les phases macroscopiques du Big Data
  3. Fouille de données

1. Histoire scientifique

Cadran solaire

Ancien cadran solaire egyptien (1500 av. J.-C. )

1. Histoire scientifique

Système de numération

1. Histoire scientifique

Machine à écrire
Machine à écrire électronique

1. Histoire scientifique

Machine à calculer de Blaise Pascal à six chiffres
Machine à différences de Charles Babbage

1. Histoire scientifique

L'ENIAC (photo prise entre 1947 et 1955).
IBM PC 5150 en 1983

1. Histoire scientifique

Imprimante matricielle (Panasonic)

1. Histoire scientifique

Disquettes 8 pouces, 5,25 pouces et 3,5 pouces
L’intérieur d’un disque dur

1. Histoire scientifique

Stockage: Serveurs

1. Histoire scientifique

Croissance de la capacité mondiale de stockage de données et informations

2. Les phases macroscopiques

  1. Acquisition
  2. Extraction
  3. Nettoyage
  4. Stockage
  5. Analysis
  6. Visualisation

2.1 L'acquisition de données

Caissier

2.1 L'acquisition de données

Capteurs (température)

2.1 L'acquisition de données

Caméras de surveillance

2.1 L'acquisition de données

Réseautage social

2.1 L'acquisition de données

  1. Questionnaires
    • Questionnaires face à face
    • Questionnaires en ligne
  2. Capteurs1
    • Température, pression, humidité
    • Acoustique, navigation
    • Proximité, capteurs de présence
  3. Réseau sociaux
  4. Vidéo de surveillance
  5. Web
Different types of data acquistion techniques
  1. https://en.wikipedia.org/wiki/List_of_sensors

2.1 L'acquisition de données

Vie privée

2.1 L'acquisition de données

Licences, Ethiques et la vie privé

2.2 L'integration et l'extraction de données

Robot d'indexation

2.2 L'integration et l'extraction de données

API (Interface de programmation)
import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

2.2 L'integration et l'extraction de données

Donnée ouverte (Open Data)
from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://query.wikidata.org/sparql")
sparql.setQuery("""
SELECT ?item WHERE {
  ?item wdt:P31 wd:Q9143;
}
LIMIT 10
""")
sparql.setReturnFormat(JSON)
results = sparql.query().convert()

for result in results["results"]["bindings"]:
    print(result)

2.2 L'integration et l'extraction de données

Web des données (Linked Open data cloud)

2.2 L'integration et l'extraction de données

Données archivées et historiques

2.3 Nettoyage de données

2.3 Nettoyage de données: Erreurs de syntaxe

2.3 Nettoyage de données: Erreurs sémantiques

2.3 Nettoyage de données: Erreurs de couverture

2.4 Stockage de données

Big Data

2.4 Stockage de données

Formats

2.4 Stockage de données

Types de données

  1. Données structurées
  2. Données non-structurées
  3. Données semi-structurées

2. Stockage de données

  1. Fichiers
  2. Base de données (Rélationnels et NoSQL)
  3. Blockchain

2.4 Stockage de données

2.4 Stockage de données: NoSQL

Base de données clé-valeur
Base de données orientée colonnes
Base de données orientée graphe

2.5 Analyse des données

2.5 Analyse des données: images

Analyse d'images en histologie

2.5 Analyse des données: Robotique industrielle

Un robot industriel Motoman SDA10, robot d'assemblage

2.5 Analyse des données: Véhicule autonome

Voiture autonome dont on distingue certains capteurs sur le toit.

2.5 Analyse des données: Détection d'objet

Détection d'objet
Detection des personnes

2.6 Visualisation

Oculométrie (Eye-tracking)

2.6 Visualisation

Enjeux du réchauffement climatique: 1880(à gauche)/ 1980 (à droite), (US EPA), 2012

2.6 Visualisation

Site archéologiques de monde

2.6 Visualisation

Artistes (Histropedia)

3. Fouille de données

Cycle de vie des données

  1. Données
  2. Connaissances
  3. Perspectives
  4. Actions
Data Lifecycle

3. Fouille de données

Usine 4.0

Industrie 4.0

3.1. Régularités

3.1. Régularités

Régularités naturelles

3.1. Régularités

Créations humaines

3.1. Régularités

Création

3.2. Fouille de données

Synonymes

3.2 Reconnaissance de formes

3.2 Reconnaissance de formes

Activités

  1. Classification
  2. Partitionnement de données (Clustering)
  3. Régression
  4. Détection d'anomalies

3.2.1. Classification

3.2.1. Classification

Applications

3.2.1. Classification

Classificateur

3.2.2 Partitionnement de données (Clustering)

3.2.2 Partitionnement de données (Clustering)

Applications

3.2.2 Partitionnement de données (Clustering)

Méthodes de partitionnement des données

3.2.3. Régression

3.2.3. Régression

Applications

3.2.4 Détection d'anomalies

3.2.4 Détection d'anomalies

Applications

3.2.5. Récapitulation

3.2.5. Récapitulation

Applications

3.3. Réseau de neurones artificiels

Artificial neural networks

3.3. Réseau de neurones artificiels

Perceptron

Perceptron

3.3. Réseau de neurones artificiels

Réseaux neuronaux profonds (Deep neural networks)

3.3. Réseau de neurones artificiels

Applications

3.3. Réseau de neurones artificiels

Réseau neuronal convolutif

3.3. Réseau de neurones artificiels

Apprentissage par renforcement

Références

Crédits d'images