Виртуальные собеседники и голосовые помощники заменят настоящих людей и естественное общение?

За последние десять лет синтетическая речь основательно вошла в нашу повседневную жизнь. Синтетической речью наделены виртуальные собеседники, голосовые помощники и консультанты бизнес телефонии. Самый актуальный пример такой речи голосовые помощники Алиса и Siri. Сложно найти человека, который никогда бы не слышал эти голоса. Они настолько универсальны, что помогают не только найти нужный адрес или песню, но и способны скрасить досуг: с ними можно разговаривать и играть в города. Это стало возможным благодаря не только стремительному технологическому прогрессу, но и благодаря мощной потребности человека в коммуникации. Немало исследований подтверждает, что слушатели-люди способны понимать синтетическую речь в реальном времени и отличать её от естественной, не испытывая трудностей в интерпретации содержания и смысла высказываний.

Как отличается восприятие естественной и синтетической речи?

любой человек всегда точно отличает искусственную речь от настоящей, поскольку она имеет характерную механическую просодию;
фонемы в синтетической речи звучат не так динамично и разнообразно, как в естественной речи - звуки речи голосового помощника должны иметь классическое и точное звучание, чтобы облегчить их распознавание;
слушатель тратит в полтора раза больше времени для восприятия и понимания содержания слов и фраз синтетической речи.

Современная бизнес телефония не обходится без многоуровневого голосового меню, которое помогает найти ответ на самые популярные вопросы. Некоторые службы поддержки, предлагают пообщаться с роботом-консультантом, прежде чем переключить на живого оператора. Иногда не сразу получается отличить синтетический голос от настоящего - таким качественным может быть звук. Некоторые люди даже приветствуют бездушную машину на другом конце провода. Но, стоит только понять в чём дело, как клиент начинает настойчиво требовать подать ему живого человека, громко повторяя: “Оператор! Оператор!”.

Почему синтетическая речь не заменит человеческое общение?

Эмоции - даже ультрасовременный голосовой помощник не распознаёт экспрессию речи. Если буквально не сказать “Мне грустно!”, Siri не определит настроение по голосу и интонации.

Реакция - виртуального собеседника нельзя ошеломить новостью, обрадовать известием или побудить к решительному действию. Алиса проанализирует информацию, которую вы ей сообщили и покажет подборку смешных видео на эту тему.

Интеллект - виртуальные собеседники способны быстро обучаться и понимать юмор, игру слов. Но всех тонкостей живого общения им всё-таки не постичь. Фразу “положь колдобину со стороны загогулины и два раза дергани за пимпочки” способен понять только живой ум, а не искусственный.

Удовольствие - общение с виртуальным собеседником может вызвать интерес, увлечённость, даже азарт. Но диалог с ботом не приносит радости общения, в которой так нуждается каждый живой человек. Голосовые помощники понимают речь, но они не способны понимать людей с полуслова.

Тем не менее, синтетическая речь - перспективное направление развития современных коммуникаций. Некоторые люди навсегда лишаются способности говорить из-за тяжёлых травм, болезней, инсультов или дегенеративных изменений мозга.

Специально для таких случаев нейробиологи изобрели технологию, которая позволяет генерировать синтетическую речь на основе сигналов мозга пациентов. Человек снова обретает возможность общаться с помощью речи, которая максимально приближена к естественной скорости и звучанию.

Кроме того, виртуальные собеседники и конференции помогают некоторым людям побороть страх речи и потренироваться перед важными переговорами или собеседованием. Одним словом, синтетическая речь - перспективная и полезная технология, но эффективность её функционирования мы всё-таки будем обсуждать с живыми людьми.

Спасибо, что прочитали! Спасибо за внимание!

В статье использованы материалы

COMPREHENSION OF SYNTHETIC SPEECH PRODUCED BY RULE: A REVIEW AND THEORETICAL INTERPRETATION Susan A. Duffy and David B. Pisoni

BRAIN-MACHINE INTERFACE CAN PRODUCE SYNTHETIC SPEECH Martin Lambert