WebSound.ru Home
    Главная | Комментарии | Архив выпусков | Форум и чат | AudioTag.info | Музоблог | reTracked | Авторский блог  



  Поиск:

Поиск по WebSound.Ru:
Поиск в Интернете:
Powered by




  Партнеры, реклама:




Audio watermarking
TrustedAudio.com



 

Индексирование и распознавание аудио

По сообщению ленты.ру

Поисковик Google 16 сентября запустил в экспериментальном режиме сервис Google Audio Indexing (Gaudi), распознающий звуковую дорожку в видеоклипах, конвертирующий ее в текст и индексирующий эту информацию.

Gaudi является развитием идеи мини-приложения по индексации видеовыступлений американских политиков, выпущенного Google два месяца назад. Приложение встраивалось в персонализированную домашнюю страницу iGoogle и позволяло искать слова и выражения в речах политиков. Gaudi использует ту же базу видеоклипов.

Несколько выпусков назад я уже упоминал о другом похожем проекте. От себя ещё раз добавлю, что идея индексирования аудио не нова, и, боюсь, что гугл в этом, как минимум с сегодняшними технологиями вряд ли преуспеет. Проблема распознавания речи (именно текста) в аудио по нефиксированному словарю очень сложна, и учёные сходятся к выводу, что пока что человечество мало приблизилось к её решению. Проблема эта, надо сказать, не только аудио-акустическая, но и лингвистическая. Дело в том, что те фразы или слова, которые некорректно распознаны аудио анализатором, вполне могут быть исправлены, если только машина умеет распознавать контекст, тему, а ещё лучше - настроение речи (иронию, юмор и проч.). Сегодня же алгоритмы лингвистического разбора текста крайне примитивны по своим возможностям, сколь сложными бы они не были по своей организации. Проблемы акустического распознавания и лингвистического разбора находятся на довольно ранней стадии своего развития. Эту проблему понимают решительно все, кто занят в области распознавания речи. И само понимание этой проблемы - уже большой прогресс. Однако до успеха ещё очень далеко. Примером сегодняшнего провального положения в распознавании речи может служить любая автоматизированная система обслуживания клиентов по телефону, основанная на распознавании речи клиента. В подавляющем большинстве случаев такие системы не справляются с элементарными операциями и командами пользователя, вынуждая последнего нервничать и пытаться всеми средствами переключиться в ручной режим управления привычным нажатием кнопок телефона. Врут, решительно врут те, кто берутся утверждать, буд-то им удалось создать действительно хороший движок распознавания речи, пусть даже по фиксированному словарю. Чем шире словарь, тем хуже производительность системы. Любые фоновые помехи в речи (лай собаки, работающий телевизор на фоне) приводят к ужасному деградированию качества распознавания, тогда как обычный человек прослушав такую запись совершенно не затруднится понять всё дословно. Нет, распознавание речь находится сегодня в зачаточном состоянии и до решения проблемы ещё ох как далеко.

Вашими мыслями вы можете делиться в комментариях к заметке.



 

Читать весь 182-й номер 
Перейти в архив выпусков WebSound.Ru 



Ниже располагаются комментарии к этой заметке

Пожалуйста, обратите внимание! Если вы хотите что-то сообщить автору WebSound.Ru, лучше сделать это не здесь, а направить ваше сообщение по e-mail. Пожалуйста, составляйте свои комментарии в вежливой форме. Не засоряйте сайт бессодержательными и невежливыми сообщениями.


comments powered by Disqus