На сьогоднішній день модні слова вкоренились у свідомості кожного керівника та ІТ-адміністратора: “Великі дані”, “аналіз даних”, “прогнозована аналітика”, щоб згадати лише деякі з них. Вони передбачають обіцянку більшої ефективності, збільшення продажів, більшої віддачі та більшої автоматизації. З мого досвіду в галузі, компанії зберігають усе, що можуть, сподіваючись отримати користь від цієї тенденції аналізу даних. А чому ні? Місце на диску дешево. Можливо, ви робите те саме, сподіваючись – одного дня – використати зібрані вами дані.
Але три проблеми можуть вплинути на ваші завдання:
Ви фіксуєте те, що я називаю “Корисною або діючою інформацією”?
Ви зберігаєте його таким чином, що дозволяє легко перетравлювати механізми аналітики?
Чи надає програмне забезпечення для аналізу даних відповіді, які вам потрібні?
Ця стаття стосується першого питання. Якщо ви помилитеся з цим, не заморочуйтесь з №2 чи №3!
Корисна або діяльна інформація (UAI) – це термін, який я створив для даних, які можна використовувати для прийняття цінних прогнозів та / або прийняття рішень щодо якості.
Навряд чи у ваших даних є теги, в яких написано: “Це можна використовувати для цінних прогнозів!”, Або “Ось дані, які використовуються для прийняття рішень щодо якості!” Натомість їх потрібно визначити за допомогою процесу. Традиційно цей процес складається з того, що людина переглядає невеликий відсоток даних і створює модель того, що він / вона визначає як важливий зразок для прогнозів або рішень. Модель може бути піддана деяким статистичним випробуванням для її перевірки в надії, що вона залишається актуальною, коли дані збільшуються або змінюється середовище.
Якщо ви робите це так, то ви не використовуєте переваги Big Data.
Якщо припустити, що модельєр безпомилковий (погане припущення!), Якість моделі, швидше за все, погіршиться з часом або з якісно більшими наборами даних. Якщо ви можете швидко, дешево та часто моделювати, то це може бути досить вдалим варіантом для вашого проекту.
Краще використовувати алгоритм, який може адаптуватися до цих змін у режимі реального часу. Цей алгоритм повинен мати можливість кількісно визначити обсяг “корисної або діючої інформації” в наборі даних. З більшими обсягами даних сигнал для UAI повинен стати чіткішим через шум. Це суть великих даних. За достатньої кількості точок даних сигнал може бути виявлений, тоді як варіації даних можуть бути змиті.
Я створив алгоритм, який робить це на основі мого дослідження з модернізації теорії інформації. Дуже корисно показати клієнтам кількість UAI у їх наборах даних перед тим, як виконати всю додаткову роботу, необхідну за кроками №2 та №3, яка містить більшу частину витрат на аналіз даних. Якщо в їх наборах даних мало UAI, ми не витрачаємо час і гроші, намагаючись робити з цього прогнози чи рішення. З іншого боку, якщо їх набір даних багатий на UAI, тоді ми можемо розрахувати суму грошей, яку вони можуть заощадити або генерувати, якщо це застосовно, що полегшує шлях до прийняття нових внутрішніх процесів для обробки великих даних.
Незалежно від того, чи ви вирішили визначити свій UAI за допомогою моделювання, алгоритмічного підходу (наприклад, за допомогою служби кількісного аналізу Intelligent Artifact) або запевнення керівництва у тому, що UAI є високим, це важливий крок перед інвестуванням в механізми аналітики.
Отже, справа в наступному: після того, як ви зібрали велику кількість даних і перед тим, як розпочати аналіз цих даних для прогнозів та / або прийняття рішень, обчисліть кількість UAI у своїх наборах даних. Зробити це дешевше і швидше, ніж придбати аналітичний механізм, який може вимагати від вашої компанії змінити багато внутрішніх процесів, щоб забезпечити його.
Результати вашого проекту аналізу великих даних настільки ж добрі, як і ваші дані. Дані повинні відповідати вашій заявці. Ця релевантність є значенням UAI. Тільки високий рівень користувацького інтерфейсу гарантує, що ваш проект “Великі дані” надає велику цінність.
Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/20140630164542-16276473-does-your-big-data-have-big-value/.
Sevak Avakians люб’язно дозволив нам перекласти і опублікувати цю статтю.