Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Перспективы речевого интерфейса



Перспективы речевого интерфейса

Речь — исторически сложившаяся форма общения людей посредством языковых конструкций, создаваемых на основе определённых правил. Процесс речи предполагает, с одной стороны, формирование и формулирование мыслей языковыми (речевыми) средствами, а с другой стороны — восприятие языковых конструкций и их понимание.

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны раз­личать такие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может ис­пользоваться для обратного вос­произведения речи.

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начина­ется (в который раз). С одной стороны, успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой - несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы, стояв­шие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжат­ся поиски такого интерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко про­двинулись за прошедшие десятки лет, что заставляет некоторых спе­циалистов крайне скептически от­носиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем, все зави­сит от того, что следует считать решением этой задачи.

Построение речевого интер­фейса распадается на три состав­ляющие.

I. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную ин­формацию. Пока что, на нынеш­нем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­мание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клави­атуры микрофоном.

II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры или при помо­щи мыши. Пожалуй, даже удоб­нее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери! » В идеале компьютер должен четко «осмысливать» ес­тественную речь человека и пони­мать, что, к примеру, слова «Хва­тит! » и «Кончай работу! » означа­ют в одной ситуации разные по­нятия, а в другой - одно и то же.

III. Третья задача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончатель­ное решение существует только для третьей. По сути, синтез речи - это чисто математическая за­дача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершен­ствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи слу­жит то, что никто до сих пор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов, об этом более подробно я Вам расскажу позже.. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают оши­бок не больше, чем делали оптические системы распознавания пе­чатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства спе­циалистов, не может быть решена без помощи систем искусственно­го интеллекта. Последние, как из­вестно, пока не созданы, хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых. Если же подобные устройства появятся, это будет оз­начать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть, мно­гие теперешние подходы к рече­вому интерфейсу вообще окажут­ся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дубли­рование голосом команд, кото­рые могут быть введены с клави­атуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может ока­заться очень привлекательной. Это речевой ввод текстов в компью­тер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованы именно на ввод речи.

Что дальше?

А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений выс­шей нервной деятельности челове­ка, и потому вряд пи в ближайшие несколько лет стоит ожидать появ­ления систем распознавания речи по эффективности и удобству срав­нимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все ме­няется очень быстро, и не известие, что сложнее: расслышать непри­нужденно сказанную фразу или ра­зыграть красивый эндшпиль...

 

 

Мультимедиа компьютеры — компьютеры с совокупностью программных и аппаратных средств, позволяющие воспроизводить звуковую (музыка, речь и др.), а также видеоинформацию (видеоролики, анимационные фильмы и др.).

 

Технические средства педагогического процесса

Технические средства педагогического процесса — совокупность техни­ческих устройств с дидактическим обеспечением, применяемых в учебно-воспитательном процессе с целью его оптимизации для предъявления и обработки информации.

Дидактические особенности

  • Информационная насыщенность.
  • Возможность преодолевать существующие временные и пространственные
  • границы.
  • Возможность глубокого проникновения в сущность изучаемых явлений и
  • процессов.

· Показ изучаемых явлений в развитии, динамике.

· Реальность отображения действительности.

· Выразительность, богатство изобразительных приемов, эмоциональная насы­щенность.

Классификации технических средств

 

По функциональному назначению Передачи учебной информации, контроля знаний, тре­нажерные, обучения и самообучения, вспомогатель­ные, комбинированные
По принципу устройства и работы Механические, электромеханические, оптические, зву-котехнические, электронные и комбинированные
По логике работы С линейной программой, не зависящей от обратной связи, и с разветвленной программой
По характеру воздействия на органы чувств Визуальные, аудиосредства, аудиовизуальные
По характеру предъявле ния информации Экранные, звуковые, экранно-звуковые

Требования к техническим средствам

  • Функциональные — способность аппаратуры обеспечивать необходимые ре­жимы работы.
  • Педагогические — соответствие возможностей ТС формам и методам учеб­но-воспитательного процесса, сочетаемость с словом педагога.
  • Эргономические — удобство и безопасность эксплуатации, минимальное ко­личество операций при подготовке и работе с аппаратом, уровень шума, удоб­ство просмотра, ремонта, транспортирования.

 

  • Эстетические — гармония формы, целостность композиции, товарный вид.
  • Экономические : относительно невысокая стоимость при высоком качестве и долговечности.

Перспективы речевого интерфейса

Речь — исторически сложившаяся форма общения людей посредством языковых конструкций, создаваемых на основе определённых правил. Процесс речи предполагает, с одной стороны, формирование и формулирование мыслей языковыми (речевыми) средствами, а с другой стороны — восприятие языковых конструкций и их понимание.

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны раз­личать такие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может ис­пользоваться для обратного вос­произведения речи.

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начина­ется (в который раз). С одной стороны, успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой - несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы, стояв­шие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжат­ся поиски такого интерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко про­двинулись за прошедшие десятки лет, что заставляет некоторых спе­циалистов крайне скептически от­носиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем, все зави­сит от того, что следует считать решением этой задачи.

Построение речевого интер­фейса распадается на три состав­ляющие.

I. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную ин­формацию. Пока что, на нынеш­нем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­мание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клави­атуры микрофоном.

II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры или при помо­щи мыши. Пожалуй, даже удоб­нее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери! » В идеале компьютер должен четко «осмысливать» ес­тественную речь человека и пони­мать, что, к примеру, слова «Хва­тит! » и «Кончай работу! » означа­ют в одной ситуации разные по­нятия, а в другой - одно и то же.

III. Третья задача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончатель­ное решение существует только для третьей. По сути, синтез речи - это чисто математическая за­дача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершен­ствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи слу­жит то, что никто до сих пор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов, об этом более подробно я Вам расскажу позже.. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают оши­бок не больше, чем делали оптические системы распознавания пе­чатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства спе­циалистов, не может быть решена без помощи систем искусственно­го интеллекта. Последние, как из­вестно, пока не созданы, хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых. Если же подобные устройства появятся, это будет оз­начать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть, мно­гие теперешние подходы к рече­вому интерфейсу вообще окажут­ся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дубли­рование голосом команд, кото­рые могут быть введены с клави­атуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может ока­заться очень привлекательной. Это речевой ввод текстов в компью­тер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованы именно на ввод речи.

Что дальше?

А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений выс­шей нервной деятельности челове­ка, и потому вряд пи в ближайшие несколько лет стоит ожидать появ­ления систем распознавания речи по эффективности и удобству срав­нимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все ме­няется очень быстро, и не известие, что сложнее: расслышать непри­нужденно сказанную фразу или ра­зыграть красивый эндшпиль...

 

 

Мультимедиа компьютеры — компьютеры с совокупностью программных и аппаратных средств, позволяющие воспроизводить звуковую (музыка, речь и др.), а также видеоинформацию (видеоролики, анимационные фильмы и др.).

 

Технические средства педагогического процесса

Технические средства педагогического процесса — совокупность техни­ческих устройств с дидактическим обеспечением, применяемых в учебно-воспитательном процессе с целью его оптимизации для предъявления и обработки информации.

Дидактические особенности

  • Информационная насыщенность.
  • Возможность преодолевать существующие временные и пространственные
  • границы.
  • Возможность глубокого проникновения в сущность изучаемых явлений и
  • процессов.

· Показ изучаемых явлений в развитии, динамике.

· Реальность отображения действительности.

· Выразительность, богатство изобразительных приемов, эмоциональная насы­щенность.

Классификации технических средств

 

По функциональному назначению Передачи учебной информации, контроля знаний, тре­нажерные, обучения и самообучения, вспомогатель­ные, комбинированные
По принципу устройства и работы Механические, электромеханические, оптические, зву-котехнические, электронные и комбинированные
По логике работы С линейной программой, не зависящей от обратной связи, и с разветвленной программой
По характеру воздействия на органы чувств Визуальные, аудиосредства, аудиовизуальные
По характеру предъявле ния информации Экранные, звуковые, экранно-звуковые

Требования к техническим средствам

  • Функциональные — способность аппаратуры обеспечивать необходимые ре­жимы работы.
  • Педагогические — соответствие возможностей ТС формам и методам учеб­но-воспитательного процесса, сочетаемость с словом педагога.
  • Эргономические — удобство и безопасность эксплуатации, минимальное ко­личество операций при подготовке и работе с аппаратом, уровень шума, удоб­ство просмотра, ремонта, транспортирования.

 


Поделиться:



Популярное:

  1. XI. СОВРЕМЕННАЯ КОММУНИКАЦИЯ И ПРАВИЛА РЕЧЕВОГО ОБЩЕНИЯ
  2. Банковский сектор в современной России: проблемы и перспективы
  3. Внешняя торговля России: тенденции и перспективы развития
  4. Вопрос № 1 Понятие общения. Структура речевой ситуации и условия успешности речевого акта. Модели общения: информационно-кодовая, интеракционная, инференционная.
  5. Всемирно-исторические перспективы
  6. Глава 3. Задержки психического и речевого развития (ЗПР, ЗРР), общее недоразвитие речи (ОНР)
  7. ГЛАВА 3. Проблемы и перспективы развития государственной гражданской службы Российской Федерации
  8. Договор о европейской безопасности: проблемы и перспективы реализации
  9. Имущественное страхование: проблемы и перспективы его развития в условиях глобализации мировой экономики и роста интенсивности природных рисков
  10. Конфликтология: перспективы ее развития и использования в менеджменте
  11. Лингвистический портрет речевого жанра граффити
  12. Настройка интерфейса маршрутизатора


Последнее изменение этой страницы: 2016-08-31; Просмотров: 848; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.023 с.)
Главная | Случайная страница | Обратная связь