Big data

Fra Wikipedia, den frie encyklopædi
Version fra 13. apr. 2015, 23:19 af Steenthbot (diskussion | bidrag) Steenthbot (diskussion | bidrag) (bot: indsæt skabelon autoritetsdata)
Denne visualisation af redigeringer på Wikipedia er skabt af IBM. Med en størrelse på adskillige terabytes er Wikipedias tekst og billeder et klassisk eksempel på Big data.

Big data[1][2] er et begreb indenfor datalogi, der bredt dækker over indsamling, opbevaring,[3] analyse,[4] processering og fortolkning af enorme mængder af data. Som mange andre IT-ord har Big data ingen dansk oversættelse.

Rammerne for Big data har gennem årene rykket sig kraftigt. Man har således bevæget sig fra en opfattelse af gigabyte data som værende store datamængder, til at man i 2012 snakkede om petabyte og exabyte som store mængder.[5][6] Tendensen i retning af større datasæt har grundlag i muligheden for at trække supplerende information fra analyse af et enkelt sæt af stor mængde sammenhængende data, i sammenligning med adskilte, mindre sæt med den samme totale mængde data, der giver mulighed for at finde sammenhænge så man kan "spotte forretningstrends, fastslå forsknings kvalitet, forebygge sygdomme, sammenholde juridiske citater, bekæmpe kriminalitet og holde øje med trafikforhold i realtid."[7][8]

Videnskabsmænd møder ofte begrænsninger som følge af store datasæt; sådanne områder kan inkludere meteorologi, genetik,[9] komplekse fysiske simulationer[10] og biologisk og miljømæssig forskning.[11]

I 2012 produceredes der på internettet enorme mængder af data, for eksempel via sociale tjenester som Facebook og Flickr.

Big data produceres ofte i real-tid, af f.eks. GPS-enheder og digitale sensorer som er indlejret i biler, sygehusudstyr mm. Man kan også have big data, som man ikke selv har en kopi af, men blot adgang til via API'er.

Kendetegn

Da "big data" oversat betyder "stor data" er det nærliggende at karakterisere big data som området der beskæftiger sig med store datamængder. Der er dog flere eksperter der argumenterer for at det ikke blot er størrelsen af datamængde der er afgørende for paradigmet omkring big data. Viktor Mayer-Schönberger og Kenneth Cukier fremdrager tre karakteristikker: At man er i stand til at analysere store datamængder fremfor blot en stikprøve; at man er villig til at håndtere data som er rodet og ikke nødvendigvis eksakte; og at man ser efter korrelation fremfor kausalitet.[12] Andre har karakteriseret big data ved tre v'er: "Velocity" (hurtighed i behandlingen af data), "Volume" (størrelsen af data) og "Variety" (forskelligartethed i data).[13]

Håndtering af Big data

Når man arbejder med store mængder af heterogene data (Big data), er det ofte at det traditionelle SQL-databaseparadigme ikke kan løse opgaven. Dels fordi man ikke kan lave en model, der kan rumme alle datas egenskaber, og dels skalerer de ikke til den enorme mængde data. Derfor håndterer man ofte Big data i NoSQL databaser. Grundlæggende vælger man en type af database som understøtter, analyse af data på en bestemt måde. F.eks. vælger sociale netværk ofte at gemme informationer om hvem der er "venner" med hvem, i såkaldte grafdatabaser. Har man mange semistrukturerede informationer, vælger man ofte en såkaldt dokumentdatabase.

Referencer

  1. ^ (engelsk) White, Tom (10 maj 2012). Hadoop: The Definitive Guide. O'Reilly Media. s. 3. ISBN 978-1-4493-3877-0.{{cite book}}: CS1-vedligeholdelse: Dato automatisk oversat (link)
  2. ^ (engelsk) "MIKE2.0, Big Data Definition".
  3. ^ (engelsk) Kusnetzky, Dan. "What is "Big Data?"". ZDNet.
  4. ^ (engelsk) Vance, Ashley (22 april 2010). "Start-Up Goes After Big Data With Hadoop Helper". New York Times Blog.{{cite web}}: CS1-vedligeholdelse: Dato automatisk oversat (link)
  5. ^ (engelsk) Francis, Matthew (2012-04-02). "Future telescope array drives development of exabyte processing". Hentet 2012-10-24.
  6. ^ (engelsk) Watters, Audrey (2010). "The Age of Exabytes: Tools and Approaches for Managing Big Data" (Website/Slideshare). Hewlett-Packard Development Company. Hentet 2012-10-24.
  7. ^ (engelsk) "E-Discovery Special Report: The Rising Tide of Nonlinear Review". Hudson Global. Hentet 1 juli 2012.{{cite web}}: CS1-vedligeholdelse: Dato automatisk oversat (link) by Cat Casey and Alejandra Perez
  8. ^ (engelsk) "What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review". Forbes. Hentet 1 juli 2012.{{cite web}}: CS1-vedligeholdelse: Dato automatisk oversat (link)
  9. ^ (engelsk) "Community cleverness required". Nature. 455 (7209): 1. 4 september 2008. doi:10.1038/455001a.{{cite journal}}: CS1-vedligeholdelse: Dato automatisk oversat (link)
  10. ^ (engelsk) "Sandia sees data management challenges spiral". HPC Projects. 4 august 2009.{{cite web}}: CS1-vedligeholdelse: Dato automatisk oversat (link)
  11. ^ (engelsk) Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703-5. doi:10.1126/science.1197962.
  12. ^ Viktor Mayer-Schönberger og Kenneth Cukier (2013). Big data. ISBN 978-1-84854-791-9.
  13. ^ Anders Lisdorf (18. august 2014). "Big Data? Glem det". Version2.