Menu

Що означають терміни "Великі Дані" та "Ера великих даних"?

Что означают термины "Большие Данные" и "Эра больших данных"?


Останнім часом у різних засобах масової інформації все частіше і частіше зустрічається термін "Великі Дані" і пов'язані з ним повідомлення про початок "Ери великих даних". Зараз ми спробуємо прояснити, що ж насправді означають вищезазначені терміни. Зараз усе людство виробляє близько 2.5 квінтильйонів байт інформації в день і це занадто багато для того, що б обробити всю інформацію силами звичайного настільного комп'ютера. Тому видобуток "самородків" корисної інформації в цій величезній горі інформаційного сміття є однією з найбільших проблем, що стоять перед сучасним суспільством.

Починаючи з 1980-х років інформаційна ємність збільшується в два рази за 40 місяців в перерахунку на душу населення земної кулі. В даний час зовсім не важко зібрати і накопичити величезні кількості даних, їх можна брати з будь-яких доступних джерел, із засобів масової інформації, з Інтернету, з квитанцій онлайн-продажів і навіть від зчитувачів RFID-ідентифікаторів. Наприклад, мережа супермаркетів Walmart генерує щодня запису про 1 мільйон продажів, відомий сервіс Twitter генерує в добу 12 терабайт інформації, а експерименти на Великому Адронному Колайдері (ВАК) за 2010, стали джерелом 13 петабайт даних. І ось саме такі справді величезні набори різноманітних даних маються на увазі під універсальним терміном "Великі Дані".

З "Великими Даними" начебто розібралися, тепер звернемося до проблеми, яку створює саме їх існування. Будь-які дані можуть стати корисними лише в тому випадку, якщо ними можна скористатися. Але для великих даних не підходять традиційні методи обробки інформації, для них недостатньо обчислювальних потужностей звичайних комп'ютерів і функцій споживчого програмного забезпечення. Для того, що б проаналізувати величезний потік інформації і відстежити деякі швидкі явища, такі як поява бозона Хіггса або шахрайство на касі супермаркету явно недостатньо можливостей програм MS Access та MS Excel.

Для маніпуляції наборами великих даних, для управління явищем "Великих Даних", крім місця для їх зберігання і комунікаційних каналів з величезною пропускної здатністю, потрібні аналітичні інструменти нового покоління, що спираються на величезні обчислювальні потужності, в тому числі і на сучасні суперкомп'ютери. Прикладом цьому може служити набір аналітичного програмного забезпечення Apache Hadoop Big Data Platform, який може працювати на кластери, що складаються з сотень і тисяч найпотужніших серверів, що реалізують модель широкомасштабної паралельної обробки та аналізу баз даних.

Поява суперкомп'ютерів і масштабних обчислювальних систем, цілодобово обробляють величезні масиви інформації, роблячи її доступною сприйняттю і розумінню людьми, що мається на увазі під початком "ери великих даних". І більшість людей самі не підозрюючи цього практично кожен день користуються результатами настання цієї ери, набираючи фразу в рядку пошукової системи, розглядаючи знімки Землі в Google Earth і користуючись іншими численними благами, наданими ерою цифрових технологій.

|