Распознавание речи
Адаптивные системы распознавания речи.
Распознавание речи является
важной и перспективной областью
науки, позволяющей решать ряд
сложных задач, начиная от
автоматического печатания текста
под диктовку и выдачи речевых
команд до человеко-машинного
речевого общения (в более
отдаленной перспективе).
Вокруг этой области много неясного.
У неспециалистов вызывает
удивление, что эта, столь простая
для человека задача, встречает
серьезные трудности при ее
техническом воплощении. С другой
стороны, рекламная эйфория вокруг
существующих коммерческих
разработок создает ложное ощущение
триумфальных побед, которые
реально основываются на
тестировании разрабатываемых
систем в специально созданных
"комфортных" условиях (см.:
Шмелева А. Правда о распознавании
речи.// Компьютер-пресс, 1, 1998.- С.306-316).
Так, например, известная система
печати текста с голоса DragonDictate (в
русском варианте "Горыныч")
требует, по отзывам, порядка месяца
кропотливого обучения для того,
чтобы научиться удовлетворительно
распознавать речь одного
конкретного человека. Диктовка
текста должна производиться с
небольшими паузами между словами, а
посторонние шумы могут ошибочно
восприниматься как речь.
Ограниченные возможности систем
распознавания становятся более
понятны, если учесть, что речь
является квазишумовым
нестационарным сигналом с
неустойчивыми характеристиками
составляющих ее элементов. Так в
разных словах одни и те же звуки
могут произноситься по-разному, а
частотные характеристики
изменяются в зависимости от
возраста, пола, особенностей
голосового тракта и состояния
человека.
При этом понимание смысла
сказанного является отдельной
проблемой, попытки решения которой
десятилетиями предпринимаются в
области логического
искусственного интеллекта,
порождая время от времени весьма
скромные успехи. И оптимизм здесь
существенно поуменьшился после
фактического провала амбициозных
планов ЭВМ пятого поколения (Fifth
Generation Computer System./ Edited by T.Moto-oka.- Amsterdam,
New York, Oxford, 1982). Дело в том, что
человеческое понимание построено
на множестве далеко не всегда
логичных ассоциаций, сочетающихся
в самых причудливых формах и
накапливающихся в течение всей
жизни и обучения. Попытки
моделирования этих взаимосвязей
уже на первых этапах сталкиваются с
экспоненциальным (лавинообразным)
ростом сложности. Нейронные сети
обещают здесь существенное
продвижение, но в настоящее время
уровень развития нейроинформатики
еще далек от того, на котором такие
задачи могут решаться.
Подробное рассмотрение процесса
распознавания речи человеком
показывает, что он теснейшим
образом связан с пониманием ее
смысла. Человек слышит далеко не
все. Многое из сказанного
дополняется интуитивно путем
ассоциаций с окружением и опытом в
обсуждаемой области. То есть с
пониманием смысла сказанного.
Таким образом обе проблемы тесно
связаны. Остается лишь добавить,
что тайны функционирования
человеческого мышления в контексте
связи его со структурами мозга еще
более чем далеки от своего
раскрытия...
Отметим, что наиболее эффективными
методами распознавания речи в
настоящее время являются скрытые
марковские модели и нейронные сети.
Причем последние демонстрируют
лучшие результаты.
В контексте сказанного становятся
понятны трудности продвижения в
области распознавания
человеческой речи и важность
очередных шагов как для самого
распознавания, так и для понимания
структуры мышления человека.
Распознавание речи является одной
из задач, для решения которых (или
попыток решения) создавались
нейросети с самостоятельной
адаптацией.
1. Лалетин П.А., Ланкина Э.Г., Ланкин Ю.П. Использование сетей с самостоятельной адаптацией для распознавания слов человеческой речи.// Научная сессия МИФИ-2000. II Всероссийская научно-техническая конференция "Нейроинформатика-2000". Сборник научных трудов. В 2 частях. Ч.2.- М.: МИФИ, 2000.- С.88-95.
Описаны исследования по
распознаванию слов человеческой
речи на примере цифр 0-9.
Использование системы из двух
самоадаптирующихся нейросетей,
обучающихся одновременно,
позволило избежать недостатков
использования супервизорных
(обучение с учителем) и
несупервизорных (автоматическая
классификация) нейросетевых
алгоритмов. Во-первых, предложенный
подход делает систему более гибкой
благодаря тому, что позволяет уйти
от необходимости раздельного
обучения нейросетей задачам
распознавания фрагментов речи
(таких, например, как фонемы) и самих
слов. Во-вторых, отпадает
необходимость в сложной и
трудоемкой процедуре выделения
фрагментов речи и составления из
них задачника в случае
супервизорного обучения. В-третьих,
удается избежать неоднозначностей
классификации, встречающихся при
несупервизорном обучении.
Скопировать
статью - 29.5 Kb, архив
(zip) файла 'Microsoft Word 97'