Analysons vos donnéesBig Data
Le nombre et les types de données des sociétés explosent littéralement. On parle maintenant de Big Data, un terme souvent utilisé à tort et à travers.
Il se définit par le fait que le volume de données est tellement grand que des outils classiques ne suffisent plus, et/ou que leur traitement pose un problème au niveau de la variété, de la vélocité et du volume, et en devient impossible.
Pour simplifier les choses, on peut résumer en 4 verbes les projets de mise en oeuvre de Big Data :
- Décrire un phénomène : Quoi ? Quand ?
- Expliquer ce phénomène : Pourquoi ?
- Prédire le phénomène : Que va-t-il se passer si... ?
- Prescrire des pistes d'actions : Comment faire pour que... ?
Qu'est-ce que le Big Data?
Voici quelques définitions du Big Data pour les sociétés qui désirent donner de la valeur à leurs données.
Définition en terme de possibilités
- "Une opportunité d'obtenir des connaissances sur des types de données et de contenus nouveaux" IBM
- "Analyzing data that was previously ignored because of technology limitations" 451 Research
- Détection des fraudes
- Analyse du ressenti client
- Etude du génome humain
Définition technique
- Série d'outils répondant aux problèmes qui ne peuvent être résolus sur une seule machine (à cause d'un ou plusieurs 3 V)
- C'est l'extension logique de la Business Intelligence
La Big Data est généralement associé à la mise en place d’un Data Lake au sein de l’entreprise :
- Espace de stockage global des informations présentes au sein d'une organisation
- Offrir de la flexibilité pour interagir avec les données
- Absence de schéma strict imposé aux flux entrants
- Au-delà du stockage, l’enjeu principal est de pouvoir facilement traiter et transformer les données pour accélérer les cycles d’innovation
Le Data Lake est une évolution du Data Warehouse (cfr BI), ce qui n’empêche pas leur complémentarité.
Nos solutions Big Data
Parmi les outils de cette suite logicielle, on retrouve :
- HDFS: Stockage de grandes quantités de fichiers sur plusieurs machines
- Hive: Traîtement structuré (SQL) des données de façon distribuée
- SQOOP: Outil de migration des données d'une DB relationnelle vers le Big Data
Exemple d'utilisation
Entrepôt de données non structurées (moins structuré qu'un datawarehouse, mais avec plus de données) :
Nous utilisons aussi, comme pour nos solutions de Business Intelligence, l'outil ETL de Talend pour l'importation et l'intégration des données.