Перспективы речевого интерфейса

Перспективы речевого интерфейса

Речь — исторически сложившаяся форма общения людей посредством языковых конструкций, создаваемых на основе определённых правил. Процесс речи предполагает, с одной стороны, формирование и формулирование мыслей языковыми (речевыми) средствами, а с другой стороны — восприятие языковых конструкций и их понимание.

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны различать такие понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие понятия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи.

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой - несмотря на почти полвека настойчивых усилий не нашли разрешения вопросы, стоявшие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжатся поиски такого интерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.

Построение речевого интерфейса распадается на три составляющие.

I. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном.

II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери! » В идеале компьютер должен четко «осмысливать» естественную речь человека и понимать, что, к примеру, слова «Хватит! » и «Кончай работу! » означают в одной ситуации разные понятия, а в другой - одно и то же.

III. Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончательное решение существует только для третьей. По сути, синтез речи - это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов, об этом более подробно я Вам расскажу позже.. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы распознавания печатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта. Последние, как известно, пока не созданы, хотя большие надежды возлагаются на появление так называемых квантовых. Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть, многие теперешние подходы к речевому интерфейсу вообще окажутся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.

Что дальше?

А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений высшей нервной деятельности человека, и потому вряд пи в ближайшие несколько лет стоит ожидать появления систем распознавания речи по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все меняется очень быстро, и не известие, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...

Мультимедиа компьютеры — компьютеры с совокупностью программных и аппаратных средств, позволяющие воспроизводить звуковую (музыка, речь и др.), а также видеоинформацию (видеоролики, анимационные фильмы и др.).

Технические средства педагогического процесса

Технические средства педагогического процесса — совокупность технических устройств с дидактическим обеспечением, применяемых в учебно-воспитательном процессе с целью его оптимизации для предъявления и обработки информации.

Дидактические особенности

Информационная насыщенность.
Возможность преодолевать существующие временные и пространственные
границы.
Возможность глубокого проникновения в сущность изучаемых явлений и
процессов.

· Показ изучаемых явлений в развитии, динамике.

· Реальность отображения действительности.

· Выразительность, богатство изобразительных приемов, эмоциональная насыщенность.

Классификации технических средств

По функциональному назначению	Передачи учебной информации, контроля знаний, тренажерные, обучения и самообучения, вспомогательные, комбинированные
По принципу устройства и работы	Механические, электромеханические, оптические, зву-котехнические, электронные и комбинированные
По логике работы	С линейной программой, не зависящей от обратной связи, и с разветвленной программой
По характеру воздействия на органы чувств	Визуальные, аудиосредства, аудиовизуальные
По характеру предъявле ния информации	Экранные, звуковые, экранно-звуковые

Требования к техническим средствам

Функциональные — способность аппаратуры обеспечивать необходимые режимы работы.
Педагогические — соответствие возможностей ТС формам и методам учебно-воспитательного процесса, сочетаемость с словом педагога.
Эргономические — удобство и безопасность эксплуатации, минимальное количество операций при подготовке и работе с аппаратом, уровень шума, удобство просмотра, ремонта, транспортирования.

Эстетические — гармония формы, целостность композиции, товарный вид.

Экономические —^: относительно невысокая стоимость при высоком качестве и долговечности.