Big Data: qu'est-ce que cela a à voir avec le matériel?

Le terme Big Data, également connu sous le nom Macrodonnées, prend un certain temps sur la scène de l'informatique moderne. Cependant, comme «le nuage», c'est un terme qui est parfois difficile à expliquer car il est assez abstrait. Donc, dans cet article, nous allons expliquer qu'est-ce que le Big Data , en quoi il consiste et, plus important encore, ce que le matériel influence sur elle.

Il n'est pas surprenant que les théoriciens du complot développent de nombreuses théories sur ce terme, mais à partir de maintenant, nous pouvons vous garantir qu'il n'y a aucun lien entre le Big Data et la domination du monde, vous pouvez être assuré. Alors, quels sont ces Big Data dont on parle tant dans l'informatique moderne? Voyons ça.

Big Data

Qu'est-ce que le big data

Essentiellement, cela signifie " un énorme volume de données ", Mais si nous vous avons dit auparavant que c'était un concept quelque peu abstrait, c'est parce que ce n'est pas tout, mais aussi englobe l'étude de ces données pour rechercher des modèles en eux. C'est un moyen rentable et compliqué de traitement de l'information pour essayer de découvrir quelque chose d'utile.

Pour vous donner un exemple, imaginez un superordinateur faisant des tests pour enquêter sur une maladie, qui extrait des millions et des millions de données. Le Big Data comprend non seulement ces données, mais la manière de les gérer, les classer et les analyser pour essayer de trouver les réponses recherchées.

Ainsi, le Big Data présente cinq caractéristiques qui définissent son utilisation et sa philosophie:

  1. Volume - bien sûr, nous parlons de volumes massifs de données, donc si la taille de celles-ci n'est pas significative, elle ne peut pas être considérée comme du Big Data. Le volume est donc la principale caractéristique de ce concept.
  2. Variété - Cet attribut concerne la nature et le type de données à analyser.
  3. Vitesse - ces données doivent être analysées en temps réel, ce qui signifie que même lors de l'analyse d'énormes volumes de données, elles doivent toutes être disponibles en même temps. C'est là que le matériel entre en jeu, tant pour la capacité à héberger les données que pour la puissance de les gérer.
  4. Variabilité - la cohérence des ensembles de données détermine dans quelle mesure ils correspondent au concept.
  5. Précision - est la qualité des données utilisées pour l'analyse. Seules des données de qualité peuvent produire des modèles, sinon ce serait une perte de temps. En d'autres termes, si vous analysez les données d'une enquête sur une maladie, vous ne pouvez pas saisir de données liées à l'analyse des temps d'un pilote de Formule 1 car elles seraient incohérentes.

Combien de données sont générées et stockées?

Au total, il y a environ 2.7 zettaoctets de données dans l'univers numérique. À quoi cela correspond-il? Voyons le tableau…

  • Un téraoctet est de 1024 gigaoctets
  • Un pétaoctet est 1024 téraoctets
  • Un exaoctet est de 1024 pétaoctets
  • Un zettaoctet est de 1024 exaoctets.

Donc 2.7 zettaoctets équivaut à environ 2,968,681,394,995 4 725 150,000 3.3 gigaoctets. Si nous voulions le stocker sur des disques durs de XNUMX To, nous aurions besoin de près de XNUMX millions de disques durs, ce qui est impensable, non? Eh bien, pas tellement en fait, étant donné que plus de XNUMX e-mails sont envoyés chaque minute, XNUMX millions Facebook des messages sont générés ou 3.8 millions de recherches Google sont effectuées.

De plus, ces chiffres augmentent jour après jour et de plus en plus d'informations sont générées. Pour vous mettre en perspective, en 2020, 44 fois plus de données sont produites qu'en 2010, et l'on s'attend à ce que les chiffres que nous vous avons donnés se multiplient par deux avant cinq ans.

La gestion du Big Data et l'influence du matériel

En réalité, la gestion du Big Data n'est pas trop compliquée à comprendre. Nous allons essayer de l'expliquer de manière simple (la réalité est un peu plus complexe, mais pour que nous nous comprenions, nous allons la simplifier le plus possible):

  1. Les données sont capturées.
  2. Les données capturées sont triées et séparées en unités plus petites par un algorithme pour faciliter leur analyse.
  3. Un index des données est créé, car sinon le temps qu'il faudrait pour trouver des données serait multiplié.
  4. Les données sont stockées.
  5. Les données sont analysées à l'aide d'un grand nombre d'algorithmes afin de rechercher les données qui nous intéressent, comme nous l'avons expliqué précédemment.
  6. Les résultats sont affichés.

En suivant l'exemple du supercalculateur utilisé pour analyser une maladie et essayer de trouver un remède. Ce super ordinateur génère un énorme volume de données, avec de nombreuses entrées et calculs chaque seconde, il faut donc un espace de stockage énorme pour pouvoir les enregistrer et les classer pour une analyse plus approfondie.

C'est là que le matériel entre en jeu. Il faut beaucoup d'espace de stockage, mais aussi qu'il soit très rapide, tout ce qui est possible pour gérer ces données dans les plus brefs délais. Vous avez également besoin de beaucoup RAM et une grande capacité de calcul pour pouvoir exécuter les algorithmes qui analysent ces données, non?

En résumé, la gestion du Big Data n'est possible qu'à mesure que l'industrie du matériel progresse, car si les processeurs, les disques durs et la RAM ne s'améliorent pas au même rythme que les données que nous générons, leur analyse ne serait pas possible.