Свакодневно се велике организације надограђују технологијама које олакшавају и одговарају свакој компанији, суочавајући се са великим изазовима који им омогућавају да открију и анализирају даље од алата који се свакодневно користе, за њих је створена оно што је познато као Велики подаци или на шпанском масовни подаци, који су велики системи за складиштење података.
Овај феномен складиштења уоквирен је новим информационим и комуникационим технологијама. Велики подаци су оно што заузима све активности које су повезане са системима који чувају велики скуп података. Једна од главних карактеристика је да манипулише великом количином информација, прикупљајући их, класификујући и потом чувајући. Сврха ове колекције је стварање статистичких извештаја за употребу организација, било као анализа пословних планова, оглашавања, шпијунаже, између осталог.
Маржа складишног простора порасла је током година, од 2008. ниво складиштења измерен је у петабајтима до зетабајтима података. Стручњаци периодично траже нове мере складиштења, јер постоје одређена подручја у којима се морају чувати велике количине података, а постојећи програми нису баш оптимални.
Постоје хиљаде алата за извођење и управљање великим подацима, међутим нису сви исти, постоје три врсте података, а то су:
- Структурирани подаци: су они код којих подаци имају врло одређену структуру, као што су датуми, бројеви, између осталог. Пример за то су табеле.
- Неструктурирани подаци: обично су то подаци који имају одређени формат и не могу се чувати у прорачунској табели, а још мање манипулисати информацијама, пример ПДФ докумената.
- Полуструктурирани подаци: ова врста података нема одређени формат, јер има своје полуструктуриране метаподатке, пример за то су ХТМЛ кодови.