Sélectionner une page

Article

Tout savoir sur le big data et son lien avec Linux

Accueil 9 High-Tech 9 Tout savoir sur le big data et son lien avec Linux

Avec le développement de l’Internet commercial et l’explosion quantitative des informations numériques, de nouvelles expressions sont apparues pour définir le phénomène des données massives. Le terme de « Big Data » renvoie ainsi à un certain nombre de préoccupations en lien avec le partage, la présentation mais aussi le stockage des données numériques. Au travers de cette page, nous revenons un moment sur cette définition, puis nous évoquerons les initiatives de la Linux Foundation pour l’assemblage et le partage d’ensembles de données.

Qu’est-ce que le Big Data ?

Définition

A l’heure actuelle, la plupart des analystes informatiques estiment que nous procréons près de 2,5 trillions d’octets de données au quotidien. Ces données sont de nature diverses et peuvent provenir de différents équipements informatiques et appareils mobiles – données liées à des transactions en ligne, publications sur les réseaux sociaux, etc.

De fait, l’expression « Big Data » signifie littéralement « megadonnées », ou données massives. Le caractère volumineux de ces données implique donc une impossibilité pour les outils informatiques traditionnels d’en exploiter la substance – comme par exemple, les outils de gestion de base de données. Le big data fonctionne ainsi grâce aux algorithmes du machine learning.

On pourrait finalement résumer la problématique du bigdata selon trois caractéristiques essentielles :

  • Le Volume → à l’heure actuelle, le volume de données traitées par les entreprises se mesure en téraoctets. Dans un avenir proche (autrement dit demain au rythme de la progression des technologies !), ces mêmes entreprises devront être en capacité de traiter des pétaoctets de données, voire plus ;
  • La Vélocité → les données sont désormais générées et traitées à une telle vitesse que la situation oblige les sociétés à faire preuve de davantage de réactivité et d’anticipation concernant le temps de traitement. Il faut être en mesure de gérer le flux et d’émettre la bonne information au bon moment au bon destinataire ;
  • La Variété → la quantité des données se présentent aujourd’hui avec des caractéristiques multiples : il peut s’agir de texte, d’images mais aussi de vidéos. Il y a donc nécessité d’analyser la forme comme le contenu, avant d’en passer par l’assimilation et l’analyse – des questionnements qui requièrent un nouveau savoir-faire.

Je vous conseille d’ailleurs, pour en apprendre plus sur son utilisation et ses enjeux, de vous rendre aux conférences sur le big data organisées par BigData à Paris.

Utilisation dans le monde informatique

Les données massives sont donc profondément liées à l’environnement informatique et programmatique, et posent dont la question des capacités analytiques des serveurs. L’analyse des données implique également l’émergence de nouveaux métiers en lien avec l’intelligence artificielle. On assiste ainsi à la création de nouvelles branches du marketing digital- avec des métiers comme data analyst ou data scientist. Ces disciplines supposent d’acquérir des connaissances dans le domaine de l’ingénierie informatique, outre le coding, telle que la blockchain (stockage de données et transmission).

big data

Des données sont créées et transmises à chaque seconde.

Quelle législation pour les données ?

L’émergence du big data suppose la protection des données – et donc la protection de la vie privée des utilisateurs et consommateurs, face à des enjeux commerciaux et industriels. Aussi, nous pouvons nous poser la question légitime de la gouvernance à l’échelle de la France, de l’Europe mais aussi en termes de droits internationaux. Que sommes-nous en droit d’espérer vis-à-vis de la protection, du partage et de la gouvernance de nos données personnelles ? En France, il faut souligner que la protection des données personnelles a été inscrite dans la Constitution, depuis le mois de juillet 2018. L’idée consiste ici à lutter contre l’utilisation abusive des données personnelles par les entreprises. A l’échelle de l’Europe, c’est le RGPD (Règlement Général pour la Protection des Données) qui impose aux entreprises de trouver des solutions pour une meilleure protection des données de leurs utilisateurs. Cette réglementation adoptée le 25 mai 2018 est en passe d’être amandée, avec la DSP2 (Directive Européenne sur les Services de Paiement) visant directement les Services de Paiement.

Si la protection des données est particulièrement encadrée en Europe, qu’en est-il au niveau international ? On peut se poser la question, tant la donnée numérique a tendance à transcender le cadre-même des nations. Le big data en lien avec le Cloud Computing, par exemple, pose d’autres questions que celle de la nationalité de la personne à laquelle appartiennent ces données – localisation de l’hébergeur dans le monde, droit local, etc. Pour le moment, on se contentera d’évoquer l’existence du Privacy Shield (accord censé encadrer l’échange de données au niveau transatlantique). Ce cadre réglementaire impose donc des limites dans le transfert des informations personnelles, notamment à destination des pays n’offrant pas un niveau de protection suffisant. Il est ainsi interdit de transférer des informations personnelles depuis des pays européens vers des états peu scrupuleux.

The Linux Foundation et le big data

La Fondation Linux a été créée dans le but de protéger et standardiser le serveur Linux, de manière à concurrencer activement les autres systèmes d’exploitation. Pour y parvenir, le consortium s’est dans un premier temps attaché à réunir dans un seul et même ensemble l’Open Source Development Labs et le Free Standards Group. Cette initiative a été l’occasion d’étudier la possibilité d’appliquer le concept-même de l’Open Source au Big Data par le biais d’un framework. Présenté ainsi en 2017, Le Framework baptisé « Community Data License Agreement » (ou CDLA) permet désormais de réunir de grands ensembles de données pour nourrir les secteurs de la recherche et de l’apprentissage collaboratif. Un accord prévoit ainsi deux ensembles de licences :

  • La licence « sharing » censée encourager les contributions faites à la communauté en matière de données sur le principe du « Copyleft » ;
  • La licence Permissive permettant la réforme des données sans obligation de partager les modifications effectuées.

Nous venons de voir ensemble de quoi il retourne lorsque nous parlons de données massives ou « big data », et des questions que cela soulève en matière de législation au niveau des états. Le big data suppose pour les entreprises, confrontées à des paquets de données, l’analyse des clients et de leur comportement, mais aussi des questions de compétitivité avec cet outil de business intelligence.

Articles relatifs