Analysons vos donnéesBig Data

Le nombre et les types de données des sociétés explosent littéralement. On parle maintenant de Big Data, un terme souvent utilisé à tort et à travers.

Il se définit par le fait que le volume de données est tellement grand que des outils classiques ne suffisent plus, et/ou que leur traitement pose un problème au niveau de la variété, de la vélocité et du volume, et en devient impossible.

Pour simplifier les choses, on peut résumer en 4 verbes les projets de mise en oeuvre de Big Data :

  • Décrire un phénomène : Quoi ? Quand ?
  • Expliquer ce phénomène : Pourquoi ?
  • Prédire le phénomène : Que va-t-il se passer si... ?
  • Prescrire des pistes d'actions : Comment faire pour que... ?

 

Qu'est-ce que le Big Data?

Voici quelques définitions du Big Data pour les sociétés qui désirent donner de la valeur à leurs données.

Définition en terme de possibilités

  • "Une opportunité d'obtenir des connaissances sur des types de données et de contenus nouveaux" IBM
  • "Analyzing data that was previously ignored because of technology limitations" 451 Research
    • Détection des fraudes
    • Analyse du ressenti client
    • Etude du génome humain

Définition technique

  • Série d'outils répondant aux problèmes qui ne peuvent être résolus sur une seule machine (à cause d'un ou plusieurs 3 V)
  • C'est l'extension logique de la Business Intelligence

La Big Data est généralement associé à la mise en place d’un Data Lake au sein de l’entreprise :

  • Espace de stockage global des informations présentes au sein d'une organisation
  • Offrir de la flexibilité pour interagir avec les données
  • Absence de schéma strict imposé aux flux entrants
  • Au-delà du stockage, l’enjeu principal est de pouvoir facilement traiter et transformer les données pour accélérer les cycles d’innovation

Le Data Lake est une évolution du Data Warehouse (cfr BI), ce qui n’empêche pas leur complémentarité.

Nos solutions Big Data

Pour la mise en place de nos solutions de Big Data, nous utilisons principalement Hortonworks, une suite de logiciels qui se concentre sur le développement et le soutien de Hadoop, un framework qui permet le traitement distribué de grands ensembles de données à travers des grappes d'ordinateurs.

Parmi les outils de cette suite logicielle, on retrouve :
  • HDFS: Stockage de grandes quantités de fichiers sur plusieurs machines
  • Hive: Traîtement structuré (SQL) des données de façon distribuée
  • SQOOP: Outil de migration des données d'une DB relationnelle vers le Big Data

Exemple d'utilisation

Entrepôt de données non structurées (moins structuré qu'un datawarehouse, mais avec plus de données) :

 

Entrepôt de données non structurées

 

 

Nous utilisons aussi, comme pour nos solutions de Business Intelligence, l'outil ETL de Talend pour l'importation et l'intégration des données.

Création en1999
180employés
Chiffre d'affaires17%
355clients et vous ?
Wavenet est certifiée Great Place To WorkLe fonds européen de développement régional et la Wallonie investissent dans votre avenir