Le phénomène Big Data
L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données.
Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique.
Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple problématique dite règle des 3V.
- Un Volume de données considérable à traiter,
- une grande Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…),
- un certain niveau de Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage de ces données.
Le Big Data, c’est quoi ?
Littéralement, ces termes signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.
En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours.
Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore.
Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.
Le traitement de données se pratique pour diverses raisons. Par exemple lors des élections présidentielles, nous savons que de nombreux participants aux ont usé du Big Data pour optimiser leurs nombres de voix. Ceci en analysant les habitudes et attentes des électeurs à travers différents outils.
Quelles sont les principales technologies de Big Data ?
Elles sont nombreuses. Pour optimiser les temps de traitement sur des bases de données géantes, plusieurs solutions peuvent entrer en jeu :
Des bases de données NoSQL (comme MongoDB, Cassandra ou Redis) qui implémentent des systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l’analyse de données en masse (orienté clé/valeur, document, colonne ou graphe).
Des infrastructures de serveurs pour distribuer les traitements sur des dizaines, centaines, voire milliers de nœuds. C’est ce qu’on appelle le traitement massivement parallèle. Le framework Hadoop est sans doute le plus connu d’entre eux. Il combine le système de fichiers distribué HDFS, la base NoSQL HBase et l’algorithme MapReduce. D’autres technologies visant à tendre vers des traitements plus « temps réel » ont émergé dans la foulée (c’est le cas d’Apache Spark).
Le stockage des données en mémoire (Memtables) permet d’accélérer les temps de traitement des requêtes.
Aujourd’hui le nombre de données produites et le type de celles-ci sont quasiment infini. De plus les méthodes pour traiter ces données sont de plus en plus complexes.
Heureusement, l’Union Européenne a mis en place une réglementation sur la protection des données. Cependant celle-ci demande encore à être approfondie.
Car les types de données produites évoluent, par exemple de plus en plus de données biométriques sont récoltées (ce qui n’était pas le cas il y a deux ans) et ces données sont encore trop peu sécurisées.
CAS PRATIQUE Big Data : La ville d’Urumqi
La ville d’Urumqi, établie dans les territoires chinois jouxtant l’Asie centrale, est probablement l’un des endroits les plus surveillés sur terre.
Des postes de contrôle de sécurité équipés de scanners d’identification gardent les accès à la gare ferroviaire et à la ville. Des scanners de reconnaissance faciale suivent les allées et venues dans les hôtels, les centres commerciaux et les banques.
La police utilise des appareils portables pour rechercher sur les smartphones des applications de discussion en ligne cryptée, des vidéos à caractère politique ou d’autres contenus suspects.
Pour faire le plein de carburant, les automobilistes doivent passer au préalable leur carte d’identité dans un terminal et regarder en face une caméra.
Points positifs :
Ces investissements technologiques permettent à cette région d’être l’une des plus sécurisée au monde. Cela a permis de ramener le nombre d’attentats encore nombreux en 2015, à zéro.
Points négatifs :
La surveillance n’a-t-elle pas de limite ?
Les habitants de cette région sont constamment surveillés et tracés. De plus cette surveillance intensive a fait grimpé les arrestations de 731 % dans le Xinjiang. Cela représente 21 % de toutes les arrestations en Chine. Source : Renee Xia, de l’ONG China Human Rights Defenders.
Mot de l’équipe :
Le Big Data est devenu un enjeu clé du 21ème siècle. Ce concept évolue si vite qu’il est important de rester prudent et de garder la maîtrise de son développement.
Nous devons être prévoyants sur les directives futures de ce concept et de ses différentes utilisations.