Big Data

Le nombre et les types de données des sociétés explosent littéralement. On parle maintenant de Big Data, un terme souvent utilisé à tort et à travers. Il se définit par le fait que le volume de données est tellement grand que des outils classiques ne suffisent plus, et/ou que leur traitement pose un problème au niveau de la variété, de la vélocité et du volume, et en devient impossible.

Big Data chiffres clés

 

Pour simplifier les choses, on peut résumer en 4 verbes les projets de mise en oeuvre de Big Data :

  • Décrire un phénomène : Quoi ? Quand ?
  • Expliquer ce phénomène : Pourquoi ?
  • Prédire le phénomène : Que va-t-il se passer si... ?
  • Prescrire des pistes d'actions : Comment faire pour que... ?

 

Mieux comprendre le Big Data

Voici quelques définitions du Big Data pour les sociétés qui désirent donner de la valeur à leurs données.

Définition en terme de possibilités

  • "Une opportunité d'obtenir des connaissances sur des types de données et de contenus nouveaux" IBM
  • "Analyzing data that was previously ignored because of technology limitations" 451 Research
    • Détection des fraudes
    • Analyse du ressenti client
    • Etude du génome humain

Définition technique

  • Série d'outils répondant aux problèmes qui ne peuvent être résolus sur une seule machine (à cause d'un ou plusieurs 3 V)
  • C'est l'extension logique de la Business Intelligence

La Big Data est généralement associé à la mise en place d’un Data Lake au sein de l’entreprise :

  • Espace de stockage global des informations présentes au sein d'une organisation
  • Offrir de la flexibilité pour interagir avec les données
  • Absence de schéma strict imposé aux flux entrants
  • Au-delà du stockage, l’enjeu principal est de pouvoir facilement traiter et transformer les données pour accélérer les cycles d’innovation

Le Data Lake est une évolution du Data Warehouse (cfr BI), ce qui n’empêche pas leur complémentarité : 

 

Data Warehouse

Data Lake

Données

Structurées

(non- / semi-) Structurées ou brutes

Natures des données

Données considérées comme déjà utiles à l’organisation

Toutes les données, utiles maintenant ou dans le futur

Modèle des données

Modèles relationnels

Architecture flexible

Stockage

Coûteux pour des gros volumes

« Low cost »

Agilité

Structure stricte

Configurable à souhait

Utilisateurs

Décideurs, analystes, agents…

Data Scientists

Chargements

Logique ETL (Extract-Transform-Load)

Logique ELT (Extract-Load-Transform)

Finalités

Analyse principalement répétitive

Données traitées selon les besoins via des séquencements parallélisés et indépendants

 

Nos solutions Big Data

Pour la mise en place de nos solutions de Big Data, nous utilisons principalement Hortonworks, une suite de logiciels qui se concentre sur le développement et le soutien de Hadoop, un framework qui permet le traitement distribué de grands ensembles de données à travers des grappes d'ordinateurs.

Parmi les outils de cette suite logicielle, on retrouve :
  • HDFS: Stockage de grandes quantités de fichiers sur plusieurs machines
  • Hive: Traîtement structuré (SQL) des données de façon distribuée
  • SQOOP: Outil de migration des données d'une DB relationnelle vers le Big Data

Exemple d'utilisation

Entrepôt de données non structurées (moins structuré qu'un datawarehouse, mais avec plus de données) :

 

Entrepôt de données non structurées

 

 

Nous utilisons aussi, comme pour nos solutions de Business Intelligence, l'outil ETL de Talend pour l'importation et l'intégration des données.

Création en1999
99personnes dévouées
Chiffre d'affaires27%
256clients et vous ?