Параметричні методи машинного навчання – Частина 1

У параметричних методах ми робимо припущення, що вибірка взята з деякого розподілу ймовірностей, наприклад Гауссова. Розподіл ймовірностей присвоює ймовірність випадковій величині (випадкова величина є результатом експерименту і може бути дискретною або постійною).

Параметричні методи надзвичайно популярні в науці даних та машинному навчанні, оскільки розподіл ймовірностей (за яким ми припускали, що слідують вибіркові дані) може бути змодельований за допомогою параметрів розподілу (достатня статистика), і тому, як тільки параметри відомі, весь розподіл p (x) відомо. Тому для узагальнення даних використовуються параметричні методи.

Оскільки весь розподіл узагальнюється кількома параметрами, а параметри вивчаються із зразкових даних на етапі навчання, параметричні методи обчислювально швидші, ніж непараметричні методи.

Популярні дистрибутиви

Деякі з популярних розподілів, які використовуються для моделювання зразкових даних, є такими:

Біноміальні розподіли

Процес Бернуллі – це процес, при якому можливі 2 результати, тобто випадкова величина x має відповідати можливим значенням – успіху та невдачі. Якщо ймовірність успіху дорівнює p, ймовірність невдачі буде 1-p. У такому випадку розподіл Бернуллі визначається як p (x) = p ^ x. (1-р) ^ 1-х.

N випробувань процесу Бернуллі дають біноміальний розподіл, де ймовірність кожного результату (успіху чи невдачі) фіксується у всіх експериментах.

Багаточленні розподіли

Багаточленний розподіл – це узагальнення Бернуллі, де замість двох станів результатом випадкової події є один із K взаємовиключних та вичерпних станів. Розподіл представлений у вигляді p (x) = Π (pi ^ xi).

Крім того, багаточленний розподіл – це багатовимірний розподіл. Тобто це розподіл за кількома випадковими величинами. Випадкові величини відповідають загальній кількості кожного можливого результату протягом усіх досліджень.

Застосування багаточленних розподілів – багаточленні розподіли можуть бути використані для моделювання дискретних даних, таких як слова в документі, послідовності ДНК тощо, і широко використовуються для аналізу тексту, аналізу ДНК.

Розповсюдження риби

Зазвичай це застосовується в ситуаціях, коли випадкові явища відбуваються з певною швидкістю протягом певного періоду часу. Наприклад, він описує кількість людей, що стояли в черзі біля каси, а також кількість телефонних дзвінків, отриманих у пункті перемикання. Ймовірність того, що в даному інтервалі часу відбувається саме x випадків, визначається розподілом Пуассона.

Він має лише один параметр (λ). Його середнє значення та дисперсія дорівнюють λ, тобто параметр λ є додатним дійсним числом, рівним очікуваній кількості (середньому) випадків, що відбуваються за часовим інтервалом. Параметр λ можна оцінити шляхом ділення середньої кількості успіхів, що спостерігаються за певний час, (μ), на довжину інтервалу часу t як λ = μ / t. Наприклад якщо події відбуваються в середньому кожні 4 хвилини, і вас цікавить кількість подій, що відбуваються через 10-хвилинний інтервал, тоді λ = 10/4. Розподіл Пуассона представляється у вигляді p (x) = exp (-λ). λ ^ x / x!

Застосування Poisson Distribution:

Кількість заїздів на мийку за одну годину.

Кількість збоїв мережі в день.

Кількість клієнтів, які телефонують, щоб скаржитися на проблему з обслуговуванням на місяць.

Кількість відвідувачів веб-сайту за хвилину

Розподіл гамми

Він має 2 параметри (shape – k і масштаб – θ), його область є лише додатними дійсними числами і виглядає так:

Його режим дорівнює (k -1) θ, середнє значення k θ, а дисперсія k θ ^ 2. Зі збільшенням фактора форми середнє значення збільшується, а перекос зменшується до такої міри, що функція щільності ймовірності майже симетрична.

Застосування гамма-розподілу:

Моделювання опадів. Гамма-розподіли зазвичай використовуються для моделювання опадів. Оскільки негативні дощі безглузді, а розподіл гами обмежений ліворуч нулем, тому розподіл, що виключає негативні значення, є дійсним. По-друге, розподіл гамми позитивно перекошений, тобто він має витягнутий хвіст з правого боку, це імітує розподіл у багатьох областях, де існує ненульова ймовірність сильних опадів, хоча типові дощі можуть бути не сильними. Крім того, оскільки зміна параметра форми може змінити форму розподілу гамми, він може з точністю точно моделювати інші моделі опадів.

З подібних причин розподіл гамми використовується для моделювання страхових вимог, розміру заборгованості за кредитом.

Розподіл гамми також використовується для моделей, які базуються на інтервалах між подіями, наприклад навантаження сервера, потік елементів у процесі виробництва або розподілу.

Бета-розподіл

Бета-розподіли визначаються лише між [0,1] і тому дуже універсальні для моделювання результатів, таких як ймовірності. Бета-розподіли можуть описувати власні переконання, не бачачи даних.

Вони мають 4 параметри (α, β, мінімум та максимум), які спільно визначають, чи знаходиться режим у внутрішній частині одиничного інтервалу та чи розподіл симетричний. Форма розподілу бета-версії така:

Для симетричного розподілу альфа та бета-версія однакові, і розмір їх значень визначає розмір піку. Асиметричні розподіли моделюються з різними альфа-та бета-версіями, з більшою асиметрією та більшою різницею між альфа-та бета-версіями. Якщо альфа менше бета, тоді розподіли перекошені вправо, інакше розподіли перекошені вліво.

Загальні програми бета-розподілу –

Бета-розподіл використовується для моделювання наших особистих переконань без узгодження даних з відповідними даними. Наприклад, його можна використовувати для моделювання розподілу ймовірностей середніх показників вати у крикеті до початку сезону (середні показники вати – це кількість набраних пробігів, поділена на кількість разів, коли гравець вийшов, а тому становить між [0,1]). Скажімо, ми хочемо передбачити середнє значення для гравця під час крикетного сезону (наприклад, Ashes 2015) перед початком сезону. З історичних даних Ashes ми можемо мати підстави вважати, що середній показник биття може бути від 0,2 до 0,5, ми можемо моделювати це як бета (11,19), наприклад. Якби всі середні значення були однаково ймовірними, то ми б змоделювали це як бета-версію (1,1).

Бета-розподіли також часто використовуються для різних систем планування / управління проектами, наприклад PERT та CPM (метод критичного шляху). У такому аналізі ми намагаємося змоделювати час виконання завдання. Під час аналізу PERT ми отримуємо оцінки мінімального, модального (найімовірнішого) та максимального часу до завершення. Використовуючи ці оцінки, спочатку обчислюють середнє значення та дисперсію, і як тільки середнє значення та дисперсія будуть відомі, можна розрахувати параметри форми альфа та бета. Коли відомий розподіл бета-версії, ми можемо розрахувати квартилі (25%, завершення 75%).

Гаусові розподіли

Гауссів, також відомий як нормальний розподіл, широко використовується для моделювання розподілу неперервних змінних. У випадку однієї змінної x, розподіл Гауса можна записати у вигляді:

де μ – середнє значення, а σ – стандартне відхилення. Випадок, коли μ = 0 і σ = 1, називається стандартною нормаллю. Для d-мірного вектора x багатовимірний гауссовий розподіл набуває вигляду:

де Σ – матриця коваріації dxd і | Σ | позначає визначник Σ. Нормальний розподіл широко використовується. Частина апеляції полягає в тому, що вона має хорошу поведінку та є математично відстежуваною. Однак центральна гранична теорема дає теоретичну основу, чому вона має широку застосовність. Теорема про центральну межу в основному стверджує, що із збільшенням розміру вибірки (N) відбувається наступне:

Розподіл вибірки середнього значення стає приблизно нормальним, незалежно від розподілу вихідної змінної.

Розподіл вибірки середнього значення зосереджується на середньому показнику популяції, μ, вихідної змінної. Крім того, стандартне відхилення розподілу вибірки середнього наближається до σ / sqrt (N)

Приблизно нормальні розподіли трапляються у багатьох ситуаціях, як пояснюється центральною граничною теоремою. Коли результат дається багатьма дрібними ефектами, що діють адитивно і незалежно, його розподіл буде близьким до норми. Нормальна апроксимація буде недійсною, якщо ефекти діють мультиплікативно (замість адитивно) або якщо існує єдиний зовнішній вплив, який має значно більшу величину, ніж інші ефекти.

Звичайні розподіли є на сьогодні найбільш широко використовуваними розподілами. Деякі програми (крім звичних систем оцінювання):

У фінансах зміни журналу валютних курсів, фондових індексів та індексів цін вважаються нормальними.

У біології показник розміру тканин (довжина, зріст, площа шкіри, вага) поводиться як логарифмічно нормальний.

У фізіології кров’яний тиск у дорослих людей також поводиться нормально.

Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/parametric-methods-machine-learning-part-1-gaurav-khullar/.

Gaurav Khullar люб’язно дозволив нам перекласти і опублікувати цю статтю.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: