Аналіз даних - це процес оцінки даних з використанням аналітичних і статистичних інструментів для виявлення корисної інформації та допомоги у прийнятті ділових рішень. Існує кілька методів аналізу даних, включаючи інтелектуальний аналіз даних, аналіз тексту, бізнес-аналітику і візуалізацію даних.
Як виконується аналіз даних?
Аналіз даних є частиною більш широкого процесу отримання бізнес-аналітики. Процес включає в себе один або кілька з наступних кроків:
- Визначення цілей. Будь-яке дослідження має починатися з набору чітко визначених бізнес-цілей. Велика частина рішень, прийнятих в іншій частині процесу, залежить від того, наскільки чітко сформульовані цілі дослідження.
- Постановка питань. Зроблена спроба поставити питання в проблемній області. Наприклад, червоні спортивні автомобілі потрапляють в аварії частіше, ніж інші?
- Збір даних: дані, що відносяться до даного питання, повинні бути отримані з відповідних джерел. У наведеному вище прикладі дані можуть бути отримані з різних джерел, включаючи: звіти DMV або події в поліції, страхові претензії та відомості про госпіталізацію. Коли дані збираються з використанням опитувань, необхідна анкета для учасників. Питання повинні бути відповідним чином змодельовані для використовуваного статистичного методу.
- Обробка даних: необроблені дані можуть бути зібрані в декількох різних форматах. Зібрані дані повинні бути очищені і перетворені, щоб інструменти аналізу даних могли їх імпортувати. У нашому прикладі ми можемо отримувати звіти про аварії DMV у вигляді текстових файлів, страхові заявки з реляційної бази даних і відомості про госпіталізацію у вигляді API. Аналітик даних повинен об'єднати ці різні форми даних і перетворити їх на форму, що підходить для інструментів аналізу.
- Аналіз даних: на цьому етапі очищені і агреговані дані імпортуються в інструменти аналізу. Ці інструменти дозволяють вам досліджувати дані, знаходити в них шаблони, а також ставити і відповідати на питання «що якщо». Це процес, за допомогою якого отримують сенс дані, зібрані в дослідженнях шляхом правильного застосування статистичних методів.
- Робити висновки і робити прогнози. Це етап, на якому після достатнього аналізу можна зробити висновки з даних і зробити відповідні прогнози. Ці висновки і прогнози можуть потім бути узагальнені у звіті, наданому кінцевим користувачам.
Давайте тепер подивимося більш детально на методи аналізу даних зокрема.
Збирання даних
Інтелектуальний аналіз даних - це метод аналізу даних для виявлення закономірностей у великих наборах даних з використанням методів статистики, штучного інтелекту, машинного навчання і баз даних. Мета полягає в тому, щоб перетворити необроблені дані на зрозумілу ділову інформацію. Вони можуть включати ідентифікацію груп записів даних (також званих кластерним аналізом) або ідентифікацію аномалій і залежностей між групами даних.
Програми інтелектуального аналізу даних:
- Виявлення аномалій може обробляти величезні обсяги даних («великі дані») і автоматично виявляти випадки викидів, можливо, для виключення з процесу прийняття рішень або виявлення шахрайства (наприклад, банківського шахрайства).
- Вивчення купівельних звичок. Методи машинного навчання можуть використовуватися для моделювання купівельних звичок і визначення часто купованих предметів.
- Кластеризація може ідентифікувати раніше невідомі групи в даних.
- Класифікація використовується для автоматичної класифікації записів даних у заздалегідь визначені комірки. Типовим прикладом є класифікація повідомлень електронної пошти як «спам» або «не спам», і система навчається у користувача.
Текстова аналітика
Текстова аналітика - це процес отримання корисної інформації з тексту. Це досягається шляхом обробки неструктурованої текстової інформації, вилучення значущої числової індексів з інформації та зробіть інформацію доступною для статистичних і машинних алгоритмів навчання для подальшої обробки.
Процес інтелектуального аналізу тексту включає в себе один або кілька з наступних кроків:
- Збір інформації з різних джерел, включаючи веб, файлову систему, базу даних тощо.
- Лінгвістичний аналіз, включаючи обробку природної мови.
- Розпізнавання образів (наприклад, розпізнавання телефонних номерів, адрес електронної пошти тощо)
- Вилучення зведеної інформації з тексту, наприклад, відносна частота слів, визначення подібності між документами тощо.
Приклади програм для аналізу тексту:
- Аналіз відповідей відкритого опитування. Ці опитування носять ознайомчий характер і включають відкриті питання, пов'язані з розглянутою темою. Потім респонденти можуть висловити свою думку, не обмежуючись конкретним форматом відповіді.
- Аналіз електронних листів, документів тощо. Для фільтрації «сміття». Це також включає автоматичну класифікацію повідомлень у заздалегідь визначені комірки для маршрутизації в різні відділи.
- Досліджуйте конкурентів, скануючи їхні сайти. Це може бути використано для отримання інформації про діяльність конкурентів.
- Програми безпеки, які можуть обробляти файли журналів для виявлення вторгнень.
Бізнес-аналітика
Бізнес-аналітика перетворює дані в дієві інтелектуальні дані для бізнес-цілей і може використовуватися при прийнятті стратегічних і тактичних ділових рішень організації. Він пропонує людям можливість вивчати тенденції на основі зібраних даних і отримувати з них інформацію.
Деякі приклади бізнес-аналітики використовуються сьогодні:
- Операційні рішення організації, такі як розміщення продукту і ціни.
- Виявлення нових ринків, оцінка попиту і придатності продукції для різних сегментів ринку.
- Бюджетування і ковзні прогнози.
- Використання візуальних інструментів, таких як теплові карти, зведені таблиці та географічні карти.
Візуалізація даних
дуже просто відноситься до візуального представлення даних. У контексті аналізу даних це означає використання інструментів статистики, ймовірності, зведених таблиць та інших артефактів для візуального представлення даних. Це робить складні дані більш зрозумілими і корисними.
Все більша кількість даних генерується рядом датчиків в навколишньому середовищі (званих «Інтернет речей» або «IOT»). Ці дані (звані «великими даними») створюють проблеми в розумінні, які можна полегшити за допомогою інструментів візуалізації даних. Візуалізація даних використовується в наступних програмах.
- Вилучення зведених даних з необроблених даних IOT.
- Використання гістограми для представлення результатів продажів за кілька кварталів.
- Гістограма показує розподіл змінної, такий як дохід, шляхом ділення діапазону на кошики.
Візуалізація наборів даних Google наборам даних - відмінний приклад того, як великі дані можуть візуально визначати процес прийняття рішень.
Аналіз даних в огляді
Аналіз даних використовується для оцінки даних за допомогою статистичних інструментів для виявлення корисної інформації. Для цієї мети використовуються різні методи, в тому числі інтелектуальний аналіз даних, аналіз тексту, бізнес-аналітика, об'єднання наборів даних і візуалізація даних.
Інструмент Power Query Microsoft Excel особливо корисний для аналізу даних. Якщо ви хочете ознайомитися з ним, прочитайте наше керівництво зі створення вашого першого скрипту Microsoft Power Query керівництво до вашого першого скрипту Microsoft Power Query керівництво до вашого першого скрипту