Speech Recognition

Распознавание речи

Адаптивные системы распознавания речи.

Распознавание речи является важной и перспективной областью науки, позволяющей решать ряд сложных задач, начиная от автоматического печатания текста под диктовку и выдачи речевых команд до человеко-машинного речевого общения (в более отдаленной перспективе).
Вокруг этой области много неясного. У неспециалистов вызывает удивление, что эта, столь простая для человека задача, встречает серьезные трудности при ее техническом воплощении. С другой стороны, рекламная эйфория вокруг существующих коммерческих разработок создает ложное ощущение триумфальных побед, которые реально основываются на тестировании разрабатываемых систем в специально созданных "комфортных" условиях (см.: Шмелева А. Правда о распознавании речи.// Компьютер-пресс, 1, 1998.- С.306-316). Так, например, известная система печати текста с голоса DragonDictate (в русском варианте "Горыныч") требует, по отзывам, порядка месяца кропотливого обучения для того, чтобы научиться удовлетворительно распознавать речь одного конкретного человека. Диктовка текста должна производиться с небольшими паузами между словами, а посторонние шумы могут ошибочно восприниматься как речь. Ограниченные возможности систем распознавания становятся более понятны, если учесть, что речь является квазишумовым нестационарным сигналом с неустойчивыми характеристиками составляющих ее элементов. Так в разных словах одни и те же звуки могут произноситься по-разному, а частотные характеристики изменяются в зависимости от возраста, пола, особенностей голосового тракта и состояния человека.
При этом понимание смысла сказанного является отдельной проблемой, попытки решения которой десятилетиями предпринимаются в области логического искусственного интеллекта, порождая время от времени весьма скромные успехи. И оптимизм здесь существенно поуменьшился после фактического провала амбициозных планов ЭВМ пятого поколения (Fifth Generation Computer System./ Edited by T.Moto-oka.- Amsterdam, New York, Oxford, 1982). Дело в том, что человеческое понимание построено на множестве далеко не всегда логичных ассоциаций, сочетающихся в самых причудливых формах и накапливающихся в течение всей жизни и обучения. Попытки моделирования этих взаимосвязей уже на первых этапах сталкиваются с экспоненциальным (лавинообразным) ростом сложности. Нейронные сети обещают здесь существенное продвижение, но в настоящее время уровень развития нейроинформатики еще далек от того, на котором такие задачи могут решаться.
Подробное рассмотрение процесса распознавания речи человеком показывает, что он теснейшим образом связан с пониманием ее смысла. Человек слышит далеко не все. Многое из сказанного дополняется интуитивно путем ассоциаций с окружением и опытом в обсуждаемой области. То есть с пониманием смысла сказанного. Таким образом обе проблемы тесно связаны. Остается лишь добавить, что тайны функционирования человеческого мышления в контексте связи его со структурами мозга еще более чем далеки от своего раскрытия...
Отметим, что наиболее эффективными методами распознавания речи в настоящее время являются скрытые марковские модели и нейронные сети. Причем последние демонстрируют лучшие результаты.
В контексте сказанного становятся понятны трудности продвижения в области распознавания человеческой речи и важность очередных шагов как для самого распознавания, так и для понимания структуры мышления человека.
Распознавание речи является одной из задач, для решения которых (или попыток решения) создавались нейросети с самостоятельной адаптацией.

1. Лалетин П.А., Ланкина Э.Г., Ланкин Ю.П. Использование сетей с самостоятельной адаптацией для распознавания слов человеческой речи.// Научная сессия МИФИ-2000. II Всероссийская научно-техническая конференция "Нейроинформатика-2000". Сборник научных трудов. В 2 частях. Ч.2.- М.: МИФИ, 2000.- С.88-95.

Описаны исследования по распознаванию слов человеческой речи на примере цифр 0-9. Использование системы из двух самоадаптирующихся нейросетей, обучающихся одновременно, позволило избежать недостатков использования супервизорных (обучение с учителем) и несупервизорных (автоматическая классификация) нейросетевых алгоритмов. Во-первых, предложенный подход делает систему более гибкой благодаря тому, что позволяет уйти от необходимости раздельного обучения нейросетей задачам распознавания фрагментов речи (таких, например, как фонемы) и самих слов. Во-вторых, отпадает необходимость в сложной и трудоемкой процедуре выделения фрагментов речи и составления из них задачника в случае супервизорного обучения. В-третьих, удается избежать неоднозначностей классификации, встречающихся при несупервизорном обучении.
Скопировать статью - 29.5 Kb, архив (zip) файла 'Microsoft Word 97'