
За останні 6 років ми перейшли від “Програмне забезпечення їсть світ” до “AI їсть програмне забезпечення”. Так, величезний прогрес у машинному навчанні відкрив Другу хвилю AI, і все частіше керівникам радять, що кожна компанія повинна стати компанією, що займається AI.
Але що таке AI? На даний момент це багато різних речей: розпізнавання мови та зображень, автономні транспортні засоби, аналіз настроїв, автоматизація процесів, чат-боти та багато інших (дещо) розумних додатків. Хоча реально, у “штучному інтелекті” ще не все так багато інтелекту.
Зрештою, ми очікуємо, що розумні сутності зрозуміють нас і світ. Одним із ключових аспектів «справжнього AI» є хороша компетентність з природних мов. Але природна мова важка. Не для нас, а для AI.
Нижче наводиться короткий список загальних аспектів мови, який я швидко склав з пам’яті приблизно за півгодини. Будь-який AI, який хоче зрозуміти мову або ефективно розмовляти, повинен вміти ними володіти та багато іншого.

Або розглянемо мовні здібності 6-річної дитини. Якби я промовляв лише ці 6 слів: «Кішка моєї сестри Спок вагітна», вона зрозуміла б і відразу дізналася принаймні чотири факти (у Пітера є сестра; у неї є кішка; на ім’я Спок; вона вагітна) – і, можливо, здивований, що “Спок” виявився жінкою. Вона могла б використати ці нові знання в наступних розмовах, а через тиждень може запитати, чи прилетіли кошенята.
Порівняйте це з найсучаснішими Alexa або Siri: вони нічого не зрозуміють і нічого не запам’ятають – насправді вам пощастить отримати епізод “Зоряних шляхів” як відповідь …
Обмеження поточного ai
Переважна більшість програм AI в наші дні засновані на поєднанні традиційного програмування (логіка та / або правила, що нагадує блок-схему) та машинного навчання (ML) (глибокі нейронні мережі та інші статистичні методи).
Візьмемо, наприклад, чат-бот або додаток “персональний асистент”: як правило, у вас буде категоризатор ML, щоб встановити “намір” висловлювання – по суті, щось, що змусить ваш вхід (стимул) до одного із, можливо, ста або тисячі ( відповідь) “відра”: Якщо те, що ви говорите, включає щось на зразок “погода” або “потрібна парасолька”, це, ймовірно, помістить це у відро “прогнозу погоди”.
Враховуючи достатню кількість навчальних даних та хорошу реалізацію, така категоризація висловів може працювати напрочуд добре – особливо якщо користувач був «навчений» використовувати правильні магічні ключові слова.
Друга частина взаємодії, частина відповіді, як правило, програмується на замовлення або безпосередньо в коді, або опосередковано за допомогою якогось набору інструментів розвитку вищого рівня. Тут фокус полягає у тому, щоб витягти відповідні параметри (ключові слова та фрази), щоб мати змогу виконати поставлене завдання (наприклад, місто та дату вашого запиту на погоду), або запропонувати відсутні дані.
Тут речі стають більш складними; програма повинна наосліп вибирати ключові слова, мало пам’ятаючи про те, що трапилось, про особисту історію, здоровий глузд чи концептуальне розуміння. Тож ви можете отримати такі розмови:
Клієнт: “Мій рейс до Далласу в березні на“ Юнайтед ”був катастрофою”.
Бот: “Добре, я забронюю рейс до Далласа на” Юнайтед “. Коли в березні ти хотів би подорожувати? “
Це стає гірше.
Хоча статистична категоризація “намірів” та програмне вилучення ключових слів може мати загальну точність від 80 до 90%, як тільки ви спробуєте їх об’єднати для будь-якої значущої тривалої розмови, рівень успіху стрімко падає: Вже через 4 взаємодії ви можете опинитися нижче 50% ( шанс) на успіх.
Кращий підхід
На щастя, ми починаємо рухатися поза цим обмеженням – Третя хвиля AI починає вирішувати цю відсутність інтелекту та функціональності. Ключова відмінність полягає в тому, щоб засновувати мовні (та інші AI) програми на всебічній когнітивній архітектурі або інтелектуальному механізмі. Застосовуючи цей підхід, ми вже продемонстрували здатність надати всі ключові функціональні можливості, необхідні для тривалих, тривалих інтелектуальних розмов (див. Резюме нижче).

Когнітивна архітектура не тільки забезпечує інтелектуальну взаємодію, але також необхідна для осмислення статей, звітів та іншого тексту, таких як контракти та наукові роботи. Статистичні методи, такі як глибоке навчання та вектори слів, можуть забезпечити задовільний переклад та аналіз настроїв, але не можуть зрозуміти конкретні текстові деталі – по-перше, вони не можуть дізнатися та міркувати про динамічні сутності та взаємозв’язки.
Для глибокого розуміння даного тексту система повинна враховувати кожне окреме слово та його значення в контексті не лише поточного речення, а й загальної теми та того, що вже було раніше. Крім того, він повинен мати можливість міркувати про різні тлумачення, щоб вибрати правильний. На практиці AI також повинен мати можливість вимагати пояснень та мати можливість самостійно шукати відповідний довідковий матеріал. Потрібно побудувати внутрішню семантичну модель матеріалу.
Нарешті, здатність відповідати на запитання про свої знання, виявляти суперечності в тексті та складати резюме знову покладається на основні когнітивні здібності інтелектуального механізму.
Підсумовуючи, стало ясно, що програмування, схоже на блок-схему (Перша хвиля), не може мати справу зі складністю людської мови. Зовсім недавно ми дізналися, що навіть масові підходи до машинного навчання, керовані даними (Друга хвиля), обмежуються посереднім перекладом, класифікацією “намірів”, аналізом настроїв тощо. Ці системи не можуть розуміти текст або вести постійні розмови. Когнітивні архітектури (Третя хвиля), навпаки, вже продемонстрували свою здатність більш всебічно та ефективно обробляти природну мову. У міру дорослішання Третьої хвилі ми рухатимемось до світу, де AI не просто „їсть світ”, а справді покращує наше життя.

Якщо ця стаття вам сподобалася, вам може сподобатися ця, „Третя хвиля AI”, та деякі інші мої статті.
Пітер Восс є засновником та виконавчим директором компанії AGI Innovation Inc., компанії, яка перебуває на передових передових технологіях природної мови. Раніше Пітер виріс компанію, що займається ERP-рішеннями, з нуля до IPO із 400 осіб. Він також заснував компанію Smart Action Company, лідера в галузі інтелектуальної автоматизації дзвінків. У 2001 році він (спільно) ввів термін “AGI” (штучний загальний інтелект) і з тих пір працює над досягненням AI високого рівня. Пітер також дуже зацікавлений у взаємозв’язку між філософією, психологією, етикою, футуризмом та інформатикою, і часто пише та говорить на ці теми.
Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/ai-natural-language-peter-voss/.
Peter Voss люб’язно дозволив нам перекласти і опублікувати цю статтю.