Інтерпретабельність моделей машинного навчання

Розробка моделей машинного навчання, які обробляють великі обсяги даних, значно покращує ефективність прогнозів. Тим не менше, ці моделі викликають багато питань щодо їх інтерпретації, що може призвести до відхилення з боку бізнес-напрямків або споживачів, які їх використовують. Тому науковці з даних, які бажають застосувати ці моделі, повинні запропонувати суворий підхід для покращення розуміння результатів. Тому вдосконалення розуміння моделей машинного навчання є надзвичайно важливим для їх успішного впровадження в компаніях.

17 січня 1991 р. Розпочалася операція «Буря в пустелі», котра протистояла проти Іраку коаліцію з 35 штатів на чолі зі США. Після перших успішних повітряних нальотів коаліція вирішила розпочати наземний штурм. На подив усіх, коли американські танки відкрили вогонь, вони спрямували зброю на своїх союзників і почали бити їх, розкладаючи коаліцію.

Необхідно добре розуміти моделі машинного навчання

Цей епізод політичної фантастики бере свій початок із наслідків, які могли виникнути через неправильне тлумачення моделей машинного навчання. Справді, протягом 1990-х американська армія випробувала технологію автоматичного виявлення танка противника на основі алгоритмів навчання розпізнавання зображень. Однак у вибірці найбільш виразним фактором для виявлення присутності ворожих танків був колір неба: фотографії, що демонструють пейзаж, у тому числі ворожий танк, були зроблені в гарну погоду, а ті, що були зроблені, у погану погоду. Після того, як моделі виявлення були відкалібровані таким чином, досить було простої бурі, щоб змусити цілу коаліцію хитатися … Цей приклад наголошує на необхідності добре розуміти моделі машинного навчання, щоб мати можливість їх правильно використовувати.

Це тим більше вірно, що ми живемо в епоху, коли алгоритми займають все більш важливе місце в нашому повсякденному житті: надання кредитів, сайти знайомств, вибір маршрутів тощо. Однак це множення алгоритмів викликає багато питань: як вони були побудований? як вони працюють? як вони пояснюють свої рішення? Відповіді на ці питання є відносно новим, але розширюється полем досліджень у науковому світі. Ці питання повинні сприйматися серйозно компаніями, які бажають забезпечити себе такими інструментами, ризикуючи побачити відносини зі своїми клієнтами та підтримку бізнес-напрямків проектів доступу до даних.

Щоб проілюструвати нашу думку, візьмемо як приклад алгоритми, що використовуються банками для визначення позичальності один одного. Давайте поставимо себе на місце молодого активу, якого ми назвемо Чарльзом, який шукає свою першу інвестицію в нерухомість. Чарльз звертається до банку, щоб з’ясувати умови позики та надає досить широкий спектр своїх персональних даних (вік, зарплата, сімейний стан тощо).

На його велике здивування, його радник банку сказав йому, що він не має права брати позику. Нещодавно було впроваджено нове програмне забезпечення для розподілу кредитів, засноване на машинному навчанні, що дозволяє розподіляти кредит своїм клієнтам “лише за кілька кліків і з неперевершеною точністю”, і, як очікується, використовуватиме найсучасніші технічні засоби в галузі штучного Інтелект. Однак ефективність алгоритму віддали перевагу його інтерпретації, що залишає банківського радника в глухому куті з цим новим програмним забезпеченням, оскільки він не може пояснити Чарльзу фактори, що дискримінують його файл.

Як узгодити продуктивність та зрозумілість?

Цей приклад ілюструє компроміс, з яким стикається будь-який проект розробки, пов’язаний з машинним навчанням: де ідеальний курсор між продуктивністю та зрозумілістю? Моделювання, як правило, характеризується обернено пропорційним співвідношенням між продуктивністю та зрозумілістю.

Таким чином, всесвіт моделей машинного навчання можна розділити на моделі, які можуть бути інтерпретовані природою (багатолінійні регресії, дерева рішень тощо) та так звані моделі “чорного ящика” (випадкові ліси, нейронні мережі тощо), як узагальнено в ілюстрація нижче:

Успіх проекту машинного навчання в компанії базується на наступних п’яти золотих правилах:

i) модель повинна вирішувати чітко визначену проблему, що відповідає бізнес-потребі;

ii) Модель повинна якомога краще фіксувати реальність без подання будь-яких передумовлень і шляхом узагальнення;

iii) модель повинна бути спроможна пояснити та популяризувати серед торгів, щоб отримати їх підтримку;

iv) модель повинна бути адаптована до вимог кінцевого споживача; і

v) Модель повинна відповідати вимогам регулятора.

Поліпшення інтерпретації моделей машинного навчання є одним з основних важелів, доступних командам Data Scientist для досягнення критеріїв успішної розробки проектів. Це дозволяє уникнути подвійності інтерпретабельності та ефективності, що може працювати проти потенційно більш ефективних моделей.

Наш попередній приклад ілюструє необхідність добре розуміти моделі машинного навчання: банківський радник не може пояснити результат моделі клієнту, який опинився в нерозумінні рішення банку, що призводить до погіршення існуючі довірчі відносини між банком та його клієнтом.

Розуміння та пояснення моделей, таким чином, є однією з головних проблем у проектах машинного навчання. Який процес слід дотримуватися для досягнення цього? Які існують рішення? Для відповіді на ці запитання виникають дві категорії методів: глобальна інтерпретабельність та локальна інтерпретація.

Глобальна інтерпретація прагне визначити найважливіші змінні моделі, зокрема шляхом ретельного аналізу внеску кожної змінної у вихідні дані моделі. Який їх внесок у роботу моделі? Який взаємозв’язок між кожною змінною та результатом роботи моделі? Це також повинно бути доповнене критичним поглядом на економічний сенс поведінки основних змінних. Загальна інтерпретація повинна врешті-решт (i) покращити розуміння моделі бізнес-експертами і, отже, (ii) зробити результати більш відповідними.

Методом, який зазвичай використовується для глобальної інтерпретації, є метод часткової залежності, який полягає у заморожуванні всіх змінних, крім тієї, яку ви хочете проаналізувати. Завдяки численним моделюванням можна оцінити поведінку цієї змінної в моделі. Тоді достатньо застосувати цю методологію до всіх змінних моделі, щоб мати змогу дізнатись про вплив кожної змінної та на результат.

Скоротіть розрив між наукою про дані та бізнесом

У нашому прикладі загальна зрозумілість дозволяє банку точно розуміти критерії та змінні, які модель використовує для оцінки кредитного ризику, пов’язаного з певним типом профілю. Цей контроль ризиків та моделей сьогодні є важливим для європейських банків, особливо стосовно регулятора, який все більше вимагає розрахунку банківських ризиків [1].

Локальна інтерпретація, навпаки, прагне розшифрувати поведінку моделі на рівні індивіда шляхом виявлення впливу та місцевого внеску кожної змінної. Цей метод повинен покращити комунікацію та обґрунтування результатів алгоритму для кінцевого користувача.

Одним із методів, який зазвичай використовується для локальної інтерпретації, є так званий метод значення Шейплі, який підкреслить внесок кожної змінної у різницю між передбаченням та середнім значенням передбачень. У прикладі Чарльза це допомагає виділити сильні та слабкі сторони його справи. Таким чином, радник банку міг пояснити, що вік, заробітна плата та рівень заощаджень були тими змінними, які найбільше сприяли і в якій мірі остаточному рішенню, прийнятому в його файлі. Проекти, пов’язані з великими даними в компаніях, часто призводять до вдосконалення та автоматизації операційного ланцюга або плинність досвіду споживача через спрощений та уніфікований досвід. Проте, не беручи до уваги очікування бізнесу, замовники та регулятор, що передує розробці проектів, можуть призвести до провалу проекту, особливо коли проекти базуються на “чорних ящиках”. Ось чому інтерпретація моделей дає важливу можливість зменшити розрив між наукою даних та бізнесом. У цьому відношенні, приділяючи частину своїх зусиль використанню методів інтерпретації, врешті-решт може призвести до прийняття більш ефективних моделей. Інтерпретабельність є одним із ключових факторів успішного впровадження алгоритмів прийняття рішень у компаніях.

Моранд СТУДЕР, П’єтро ТУРАТІ та Клемент ТЕКІ

також на нашому веб-сайті https://eleven-strategy.com/articles-en/interpretability-of-machine-learning-models/ та середовищі https://medium.com/@communication_43508/interpretability-of-machine-learning- models-da9b55e760cd? sk = e6404329eac17395ef03141a2b939328

[1] Базель III: Завершення посткризових реформ, Банк міжнародних розрахунків, грудень 2017 року

Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/interpretability-machine-learning-models-morand-studer/.

eleven-strategy.com

Morand Studer люб’язно дозволив нам перекласти і опублікувати цю статтю.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: