Особливість Xconomy: Шлях до більш людського голосового інтерфейсу

Світ швидко змінюється. Все налагоджується. Підключений будинок – розумний холодильник, розумний термостат, розумний телевізор – незабаром стане опорою пов’язаного світу, епохи, яку швидко започатковують 5G, AI на межі та безліч інших технологій, що сприяють. І я вірю, що центральний контролер того, що все буде голосом, найвищим інтерфейсом людина-машина.

Але щоб це сталося, голосові інтерфейси повинні наздоганяти. Швидко.

Голосове цунамі на нас чекає, і попит на голосово активовані системи, пристрої з голосовою підтримкою та голосові віртуальні помічники повинен зростати в геометричній прогресії протягом наступного десятиліття. І не лише для розумного будинку. Промисловість також хоче, включаючи охорону здоров’я, фінансові послуги та автомобільну промисловість. Чому? Бо голос – це людина. Це найприродніший спосіб взаємодії між собою та – у міру розвитку та вдосконалення своїх можливостей – з нашими машинами.

Проте виклики значні. Щоб люди могли природньо взаємодіяти з такими платформами, як Alexa, Siri, Google та Echo, а також зі своїм смартфоном, керованим голосом, розумним будинком та розумною машиною, вони потребуватимуть інтелектуальних голосових інтерфейсів, здатних зробити все наступне:

1 Ефективно працюйте в умовах шуму та далекого поля.

2 Використовуйте біометричні дані для підтвердження особи та підвищення безпеки.

3 Відстежуйте та відокремлюйте голос інтересу від інших голосів.

4 Розумно налаштовуйтесь на звукове середовище, яке змінюється, і передбачайте його.

5 Працюйте без апріорної інформації.

6 Автоматично активувати налаштування профілю користувача, використовуючи його / її голос.

7 Увімкніть сучасні обчислення для постійних програм.

Роль AI та навчання без нагляду

Незважаючи на те, що кожна з цих можливостей може бути предметом власної технічної документації, я хочу натомість зосередитись на їх більш широких наслідках. По-перше, ці сім «суттєвостей» інтелектуальних голосових інтерфейсів показують, де сьогодні відбуваються інновації в голосі і де конкурентні сутички найжорстокіші.

Наприклад, прогрес у середовищі з високим рівнем шуму та в умовах далекого поля призвів до 20-30-кратного покращення продуктивності порівняно із нормою всього рік-два тому – але ми вже дізналися, що такі посилення – це лише шматки головної головоломки.

Покращене вдосконалення кожної з цих категорій, від розпізнавання слів у шумній кімнаті до біометричного знайомства “так, це ти” за будь-якого сценарію, є важливим для вдосконалення голосових інтерфейсів сьогодні. Але прорив, який перетворює людський голос на головного контролера майбутнього великого «С» – зв’язаного світу, – це зовсім інше. Для цього буде потрібно постійне та постійне вдосконалення взаємодії між усіма цими можливостями – словом, рішення, яке можна навчитися, і робити це самостійно.

Навчання без нагляду є каталізатором більш інтуїтивного, ефективнішого голосового інтерфейсу. І що навчання вимагає стимулів. Менший рівень шуму та менша кількість змінних можуть добре працювати для деяких додаткових програм, але реагування на людський голос у його нескінченній тонкощі та варіації, саме тут повинен бути голосовий інтерфейс Сполученого світу, є нічим іншим, як звичайною вправою.

Повну статтю знайдіть тут: https://xconomy.com/boston/2019/06/25/the-path-to-a-more-human-voice-interface/

Спочатку ця публікація була опублікована за адресою https://www.linkedin.com/pulse/xconomy-feature-path-more-human-voice-interface-kenneth-ken-sutton/.

Kenneth (Ken) Sutton люб’язно дозволив нам перекласти і опублікувати цю статтю.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: