
Коли я сказав, що базовий показник розуміння природної мови (NLU) повинен сприяти підвищенню ефективності NLP у розмові, роблячи його таким же точним, як математика на комп’ютері, мене одразу запитали: “як повинен виглядати еталон для розуміння природної мови?”
Орієнтир для обробки природної мови (NLP), який повинен складатися з NLU та генерації природних мов (NLG), повинен перевіряти мову, а не знання. Яка різниця?
Мова дозволяє спілкуватися із символами, використовуючи спільну інформацію в контексті під час розмови. Знання – детальний досвід щодо тем – важливі в дискурсі, але ці тести NLU повинні зосереджуватись на мові, а також вводити знання як засіб розширення контексту. Іншими словами, ми можемо говорити з людьми з мовою на теми, про які ми нічого не знаємо, і вчитися в процесі. Машини теж повинні.
Правильне вивчення NLU дозволяє природним чином вводити знання в розмову, але протилежне не має значення. Знання без NLU не перетворюються на розумну розмову.
Тому ефективний орієнтир NLU повинен бути зосереджений на комунікації та представницькій частині. Отримати це правильно означає, що система може вчитися на досвіді і, отже, отримувати знання. У головоломці є кілька частин, звичайно, що стосується навичок, якими оволодів мозок 2-річного віку, що призводить до навичок, якими оволодів мозок дорослого. Такі навички, як (a) визначення значення нового слова, (b) вирішення, коли фраза не пов’язана з розглянутою темою, (c) природне виправлення речення, яке почалося неправильно.
Якщо ми не просунемо орієнтир для тестування мови, а лише того, з чим наші системи можуть впоратися сьогодні, знань, ми не будемо просуватися до НЛП, передбаченого великими в минулому.
Щоб прочитати більше, перегляньте мій допис Medium за адресою: https://medium.com/@john_at_pat/creating-a-better-benchmark-351f09b24152
Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/benchmarking-language-understanding-john-ball/.
John Ball люб’язно дозволив нам перекласти і опублікувати цю статтю.