08 июня 2005
Обновлено 17.05.2023

Слово — не воробей! Обзор программ для распознавания голоса

Слово — не воробей! Обзор программ для распознавания голоса - изображение обложка

С момента, когда был изобретен компьютер, человечество мечтает общаться с ним на привычном языке — с помощью голоса. Рядовой житель планеты Земля знать не хочет ни о каких клавиатурах и мышах. Ему надо, чтобы компьютер понимал его с полуслова — причем в буквальном смысле. Просто, быстро, понятно! В то время как фантасты придумывают истории про то, как компьютеры через сотню-другую лет начнут по приказу ходить в магазины, массировать нам пятки и чесать спинки, разработчики программного обеспечения медленно, но верно движутся к реализации этой задумки. И если без чесания под лопаткой придется пока обойтись, то управлять различными приложениями с помощью голоса и даже надиктовывать компьютеру целые текстовые файлы уже очень даже можно. Программ для панибратского отношения с ПК пока не очень много, но те, что есть, стремительно развиваются. Еще год назад описанные в статье утилиты — более ранние их версии — представляли из себя весьма печальное зрелище. Сегодня же они подросли, возмужали — это уже не какие-то затравленные мокрые и голодные щенки, а жизнерадостные волчата, которые через год-два превратятся в волков голосового управления компьютером.

Слово — не воробей! Обзор программ для распознавания голоса - фото 1

Dragon Naturally Speaking 8 __ Уникальная в своем роде утилита. Титаник и цеппелин “речевых” программ в одном флаконе. Адская смесь из распознавателя голоса, звукового управления компьютером и учителя правильного произношения английских слов. Но давайте обо всем по порядку. Утилита англоязычная, потому и работать умеет исключительно с английскими словоформами. Теоретически, можно научить Dragon Naturally Speaking великому и могучему, но, увы и ах, использовать это можно только для голосового управления РС. Выступить в роли русской стенографистки утилита не сможет — на какие бы ухищрения вы не пошли. Зато разговорный английский схватывает на раз. По заявлениям разработчиков, программа распознает до 95% слов. Цифра, конечно, завышена, но не так сильно, как у конкурентов. Натаскав DNS на тембр своего голоса (для этого придется потратить около часа времени, надиктовывая различные слова), вы научите его понимать даже очень сложные мозгодробительные обороты, включая английский мат. Вот только одно “но”… Произносить любую фразу нужно предельно четко. Как, вы не проходили курсов артикуляции? Тогда придется потренироваться самостоятельно. Будьте уверены — через пару-тройку дней лингвистических сражений с DNS вы любого англичанина поразите чистотой произношения. Думаете, шутим? Нисколько! DNS — идеальное средство для тренировки правильного произношения — чуть где сфальшивили, сразу выдает предупреждение. Теперь что касается голосового управления. Здесь DNS тоже не подкачал. Программку удалось натравить почти на все имеющиеся у нас на редакционных компьютерах утилиты. Сначала он мертвой хваткой вцепился в горло всем составляющим пакета MS Office. Открыл после голосового приказа Excel и Word, а также все остальные приложения. Затем настало время сетевых программ. The Bat! , ICQ , различные интернет-браузеры покорились DNS с первого раза. В завершение мы испытали утилиту в работе с разномастными утилитами того же класса — cправился и глазом не моргнул. Забавно, когда одна программа управления голосом запускает другую такую же утилиту. Кстати, обратите внимание: ничего не стоит настроить DNS на запуск любимых игр. Произносите в микрофон “Warcraft” — и он тут же загружается. Главное, не забывайте перед тем как командовать, научить программу связывать конкретное слово с той или иной утилитой (настраивается в меню Accuracy Center ). Помимо упомянутого, в программу встроено множество разных мелких вкусностей, вроде бы необязательных, но которые заметно расширяют возможности утилиты. Как вам, например, распознавание текста из wav или mp3-файла? Загружаете англоязычную песню, в которой не можете разобрать какие-то слова, а DNS выдает вам их в текстовом виде. Петь дифирамбы DNS можно почти до бесконечности. Это единственная программа в обзоре, которая справилась почти со всеми текстами и продемонстрировала даже больше возможностей, чем мы от нее ждали. Однозначный “мастхев” и “испешелиюз”. Плюсы: Просто, удобно, со множеством наворотов и вкусностей. Минусы: За регистрацию 30-дневной trial-версии просят почти $200 , что, мягко говоря, не скромно. Утилита не понимает русского — но это беда почти всех аналогичных программ. Резюме: Пожалуй, лучшая программа для распознавания речи и голосового управления компьютером. Если бы не высокая цена, то была бы просто идеальной.

Слово — не воробей! Обзор программ для распознавания голоса - фото 2

Realize Voice 4.1 __ Несмотря на то что создатели позиционируют Realize Voice как эдакий мультикомбайн, одинаково легко справляющийся с распознаванием речи, управлением приложениями и синтезом речитатива, детальное тестирование показало, что создатели, мягко говоря, преувеличивают возможности продукта. Как распознаватель речи утилита показала себя весьма слабо. Процент точного определения слов с последующим переводом в текстовую форму — очень низок. Даже длительные экзекуции над обучающим модулем ни к чему не привели. Многие слова и выражения программа понимать отказывается. И быть бы RV незамедлительно линчеванным и распятым, если бы не… уникальные возможности в области голосового управления различными приложениями. Тут RV поднатужился и дал такую фору другим утилитам, что мы разве что не аплодировали стоя. Программа с легкостью настраивается на запуск любой сторонней утилиты (хоть Word, хоть ICQ, хоть какой-нибудь драйвер) да еще и поддерживает работу с макросами. С их помощью можно вытворять такое, что и подумать страшно. На одну голосовую команду, которую, кстати, вполне можно сделать русской, разрешено повесить, например, такую многоступенчатую функцию: открыть почтовый клиент, подгрузить спам-фильтр, зайти на сервер, скачать все письма с заголовками на русском языке, все с заголовками на английском и с заголовками длиннее 20 символов — удалить. Это только для примера. Вообще же сложность макросов ничем не ограничена. Главное только успевать фантазировать. Единственное, на что Realize Voice натаскать не удалось, — на голосовое управление внутри компьютерных игр. Но в обычных приложениях — никаких проблем. В качестве бонуса RV предлагает, как бы это помягче выразиться, интегральную функцию голосовой организации рабочего пространства. Это по-научному, а если на русском, то голосом можно не только запускать приложения и управлять их работой, но и в любой момент подгружать другие утилиты, переключаться между окнами, закрывать программы… Иными словами, Бобик по команде “Апорт!” не только сбегает за косточкой, но еще по пути заглянет в магазин за молоком, выбросит мусор, оплатит телефонный счет и купит вашей девушки цветы. Плюсы: Уникальные функции голосового управления, поддержка сложных макросов, простота использования. Минусы: Слабый модуль распознавания речи. Цена $50. Резюме: Программа просто создана для голосового управления компьютером. Жаль, что разработчики пожертвовали другими важными функциями утилиты.

Слово — не воробей! Обзор программ для распознавания голоса - фото 3

Dictation 2004 v. 4.4 __ Утилита-середнячок. Тот самый случай, когда и придраться, вроде бы, не к чему, но на фоне конкурентов смотрится не очень. Dictation 2004 неплохо справляется с распознаванием устной речи, хотя тягаться, например, с Dragon Naturally Speaking не может: последний бьет по самому незащищенному месту Dictation 2004 — по проценту правильного угадывания слов. С этим у программы не все в порядке, дополнительное обучение болезнь лечит, но не полностью. Можно поставить утилите “пять” за умение управлять приложениями, но это будет оценка за прилежание, а не за мастерское владение предметом, как это делает Realize Voice. Разработчики напирают на то, что программа тесно интегрирована с Word, но мы этого не заметили — от работы с другими утилитами ничем не отличается. Наконец, Dictation 2004 хочется почесать за ушком за то, что он умеет неплохо распознавать речь из wav-файлов, но Dragon Naturally Speaking делает это не в пример лучше. Единственная же уникальная функция “Диктанта” — умение распознавать речь напрямую из различных внешних источников (диктофона, плеера, музыкального центра — вряд ли кому-то понадобится). Вот и выходит, что ну всем хорош Dictation 2004, а отдавать за него “зеленый полтинник” ($50) жалко. Плюсы: Умеет распознавать речь напрямую с различных внешних устройств. Минусы: Средние показатели по всем функциям. Резюме: Дешево, но не очень сердито. Утилита-середнячок, серая мышка в мире программ распознавания речи.

Слово — не воробей! Обзор программ для распознавания голоса - фото 4

Горыныч ПРОФ 3.0 __ “Горыныч” — отечественная разработка. Уже за одно умение работать с великим и могучим программу можно водружать на пьедестал. Но — будем объективными. Утилита построена на двух модулях, отвечающих за распознавание надиктованной в микрофон речи и за команды различным приложениям. Жесткое тестирование показало, что проблемы с русским языком у “Горыныча”, увы, имеются — если проводить аналогии с зарубежными программами и их уровнем знания английского, то отечественный продукт работает где-то на уровне Dictation 2004. То есть все здорово, но запинки случаются. Важный момент — в утилиту встроен блок самообучения: чем больше вы уделяете внимание “Горынычу”, тем лучше он вас понимает и меньше возмущается вашему неправильному русскому произношению. Мы испытывали нрав утилиты лишь несколько часов, и за это время, как нам показалось, программа действительно стала понятливей. Возможно, при более длительном общении результаты будут еще лучше. Тестирование “командных” умений “Горыныча” прошло без сучка, без задоринки. Утилита не пытается претендовать на мега-интегральную систему, реализованы только основные функции управления программами — никаких сложносочиненных макросов писать не придется, но то, что есть, — на твердую пятерку. Запуски, отключения программ, вызовы дополнительных окошек — сказочный змей со всем справился и от демонстрации норовистости воздержался. В природе встречается две версии коварного Горыныча — облегченная (Light), продающаяся в jewel-упаковке по цене около $5 (идеально подходит для домашнего пользования) и полноценный коробочный вариант за $49 (для дома функций явный перебор). Плюсы: Русскоязычность, эргономичный интерфейс, функция самообучения, наличие недорогой облегченной версии. Минусы: Средние показатели по всем функциям, но только на фоне зарубежных конкурентов, среди отечественных утилит аналогов нет. Резюме: Отличная русскоязычная программа. За неимением достойных отечественных аналогов — чуть ли не единственный вариант для тех, кто совсем не дружит с английским. Чего ждать? Чего бояться? Несмотря на относительную схожесть “голосовых” программ, они используют разные алгоритмы распознавания речи, ее декодирования и выведения на экран в виде текста. Обычно в одну утилиту встроено несколько алгоритмических ядер, отвечающих за различные функции утилит. В зависимости от того, какой из компонентов в данной программе спрограммирован тщательнее, утилита справляется лучше с теми или другими функциями. Чаще всего “голосовые” приложения умеют работать по двум основным направлениям. 1) Распознавание русской или английской речи и конвертация голоса в текстовый файл. Самая сложная в реализации функция — разумеется, для разработчиков. Программ, владеющих этим навыком в совершенстве, увы, пока не существует. 2) Голосовое управление компьютером. Какое-то простое — или не очень простое, а многоступенчатое — действие “ассоциируется” с какой-то голосовой командой. После этого достаточно произнести заветное слово или фразу, и компьютер незамедлительно проделает соответствующую операцию. Обратите внимание, что даже демоверсии описанных в статье программ занимают не менее 50 Мб. Это обусловлено большим объемом “словарного запаса” — чтобы понять произнесенное слово, утилита уже должна его “знать”. Не надейтесь, что “речевые” программы будут шустро бегать на слабых машинах. Для комфортной работы с большинством подобных утилит необходимо иметь вполне современный компьютер и хорошего качества микрофон.
*** В теории вы подкованы, дело — за практикой. Запасайтесь утилитами, инсталлируйте, осваивайте. Рынок программ распознавания речи молод, потому утилиты ведут себя как дети малые. За ними нужно ухаживать, вовремя менять им подгузники, следить, чтобы они вовремя узнавали новые слова (во всех программах есть модуль обучения новым выражениям), холить и лелеять. Что вырастет из скачанного из Сети или купленного дистрибутива — зависит только от вас. Если не будете уделять достаточно времени настройке и обучению программы — вырастет строптивый и хулиганистый отрок. Потратите несколько часов на изучение документации, лазанию по менюшкам, работе с микрофоном — взрастите прилежного юнца, который будет везде ходить за вами и глаголить: “ Чего желаете, папенька?! Кашки? Огурчиков малосольных? ”.

Комментарии
Чтобы оставить комментарий,Войдите или Зарегистрируйтесь