
Світ швидко змінюється. Все налагоджується. Підключений будинок – розумний холодильник, розумний термостат, розумний телевізор – незабаром стане опорою пов’язаного світу, епохи, яку швидко започатковують 5G, AI на межі та безліч інших технологій, що сприяють. І я вірю, що центральний контролер того, що все буде голосом, найвищим інтерфейсом людина-машина.
Але щоб це сталося, голосові інтерфейси повинні наздоганяти. Швидко.
Голосове цунамі на нас чекає, і попит на голосово активовані системи, пристрої з голосовою підтримкою та голосові віртуальні помічники повинен зростати в геометричній прогресії протягом наступного десятиліття. І не лише для розумного будинку. Промисловість також хоче, включаючи охорону здоров’я, фінансові послуги та автомобільну промисловість. Чому? Бо голос – це людина. Це найприродніший спосіб взаємодії між собою та – у міру розвитку та вдосконалення своїх можливостей – з нашими машинами.
Проте виклики значні. Щоб люди могли природньо взаємодіяти з такими платформами, як Alexa, Siri, Google та Echo, а також зі своїм смартфоном, керованим голосом, розумним будинком та розумною машиною, вони потребуватимуть інтелектуальних голосових інтерфейсів, здатних зробити все наступне:
1 Ефективно працюйте в умовах шуму та далекого поля.
2 Використовуйте біометричні дані для підтвердження особи та підвищення безпеки.
3 Відстежуйте та відокремлюйте голос інтересу від інших голосів.
4 Розумно налаштовуйтесь на звукове середовище, яке змінюється, і передбачайте його.
5 Працюйте без апріорної інформації.
6 Автоматично активувати налаштування профілю користувача, використовуючи його / її голос.
7 Увімкніть сучасні обчислення для постійних програм.
Роль AI та навчання без нагляду
Незважаючи на те, що кожна з цих можливостей може бути предметом власної технічної документації, я хочу натомість зосередитись на їх більш широких наслідках. По-перше, ці сім «суттєвостей» інтелектуальних голосових інтерфейсів показують, де сьогодні відбуваються інновації в голосі і де конкурентні сутички найжорстокіші.
Наприклад, прогрес у середовищі з високим рівнем шуму та в умовах далекого поля призвів до 20-30-кратного покращення продуктивності порівняно із нормою всього рік-два тому – але ми вже дізналися, що такі посилення – це лише шматки головної головоломки.
Покращене вдосконалення кожної з цих категорій, від розпізнавання слів у шумній кімнаті до біометричного знайомства “так, це ти” за будь-якого сценарію, є важливим для вдосконалення голосових інтерфейсів сьогодні. Але прорив, який перетворює людський голос на головного контролера майбутнього великого «С» – зв’язаного світу, – це зовсім інше. Для цього буде потрібно постійне та постійне вдосконалення взаємодії між усіма цими можливостями – словом, рішення, яке можна навчитися, і робити це самостійно.
Навчання без нагляду є каталізатором більш інтуїтивного, ефективнішого голосового інтерфейсу. І що навчання вимагає стимулів. Менший рівень шуму та менша кількість змінних можуть добре працювати для деяких додаткових програм, але реагування на людський голос у його нескінченній тонкощі та варіації, саме тут повинен бути голосовий інтерфейс Сполученого світу, є нічим іншим, як звичайною вправою.
Повну статтю знайдіть тут: https://xconomy.com/boston/2019/06/25/the-path-to-a-more-human-voice-interface/
Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/xconomy-feature-path-more-human-voice-interface-kenneth-ken-sutton/.
Kenneth (Ken) Sutton люб’язно дозволив нам перекласти і опублікувати цю статтю.