WebSound.Ru: Универсальный аудио API - попытки и немного теории

Универсальный аудио API - попытки и немного теории

Аудио сигнал - это такие же данные, как, скажем, текст. Только их нужно уметь прочесть и распознать. Скажем, с текстами всё просто, потому что текст - это и есть символьное представление данных, с которым компьютер (алгоритмы) и работает. А, вот, чтобы компьютер мог работать с аудио сигналами (не в смысле их преобразования, а в смысле их категоризации), аудио данные нужно сначала преобразовать в символьную форму.

Символьная форма представления аудио данных - это нечто произвольное. Скажем, элементарное отображение формы волны - это тоже один из типов символьного представления звука. Только этот способ наиболее простой и малоинформативный. Есть и другие, гораздо более информативные способы. Например, спектр (спектрограмма). Какие ещё типы есть? Ну, скажем, из наиболее "понятных" это питч (высота тона), количество ударов в секунду, огибающая энергии спектра, есть и посложнее - коэффициенты косинусного преобразования, zero-crossing rate (частота пересечения нулевой отметки), оценочные характеристики тембра и проч. Эти и многие другие характеристики звуковой волны (сигнала) дополняют друг друга и помогают составить наиболее подробное "описание" звуковой волны. По этому описанию нельзя восстановить звуковую волну, но можно довольно точно её классифицировать. На этом и основаны машинные аудио алгоритмы, сравнивающие, классифицирующие, разыскивающие и проч.

К чему я это всё написал? Ну, всё дело в том, что на сегодняшний день поиск и вообще работа с аудио сигналами, как с неким символьным объектом, находится в совершенно зачаточном состоянии. Ну, скажем, на сегодня просто нет ни одного поискового механизма, умеющего сколько-нибудь нормально производить поиск аудио сигналов. Отрасль эта новая, но работы в этом направлении ведутся...

Компания The Echo Nest сделала попытку собрать воедино разные способы символьного описания звука с тем, чтобы применить всё это в самых разнообразных приложениях - от поиска аудио, до сравнения и обработки. Компания создала некий API, который в некотором смысле "стандартизует" описание звукового сигнала. Каждый звуковой сигнал анализируется специальным алгоритмом, который генерирует XML-файл, содержащий описание аудио сигнала. Описание это состоит из набора самых разных характеристик сигнала - от темпа и высоты тона, до более детальных данных о спектре сигнала и проч. Полученный XML-файл является отпечатком пальцев аудио сигнала, который позволяет нетолько идентифицировать сигнал, но также производить над ним различные действия. Например, на основе данных о сигнале можно находить в нём участки, хорошо стыкующиеся в петлю (loop). Или же, например, находить участки тишины, с тем, чтобы обрезать их. А можно просто визуализировать аудио данные, опираясь, скажем, на темп и спектральный состав. И проч., и проч.

Если вам интересно узнать о наработках компании с их API, посетите их сайт. Там много информации с примерами. Я, скажу честно, поленился там регистрироваться (что требуется для получения доступа к анализатору и генератору XML). Поленился, потому что идея полностью ясна, а важна тут не столько идея, сколько её практическое использование. Такой API мог бы разработать всякий человек, понимающий в звукообработке. Дело в том, что сгенерировать XML-файл с набором самых разных характеристик аудио сигнала не так уж и сложно. Для этого нужно всего лишь разработать отдельные сигналоанализирующие блоки, каждый их которых будет "извлекать" из сигнала свою характеристику (например, характеристику изменения высоты тона и проч.) и дополнять полученными данными XML-описание. Важно здесь совсем не это. Важно тут как раз то, как это применять. А именно, как, например, построить алгоритм, умеющий находить "похожую" музыку по известным отпечаткам. Это очень нетривиальная вещь, поскольку "похожесть" - это понятие полностью субъективное и почти неподдающееся алгоритмическому постулированию, поскольку оно основано на ассоциативном восприятии каждого человека. И таких вот задач существует очень немало, а решений их пока что нет. Так что отпечаток составить - это самое простое во всём этом непростом деле. Так что увидеть "умный" аудио поисковик нам предстоит ещё очень нескоро.

Я буду рад поделиться с вами своими мыслями более подробно, если эта тема найдёт отклик.

Вашими мыслями вы можете делиться в комментариях к заметке.

Читать весь 177-й номер
Перейти в архив выпусков WebSound.Ru

Ниже располагаются комментарии к этой заметке

Пожалуйста, обратите внимание! Если вы хотите что-то сообщить автору WebSound.Ru, лучше сделать это не здесь, а направить ваше сообщение по e-mail. Пожалуйста, составляйте свои комментарии в вежливой форме. Не засоряйте сайт бессодержательными и невежливыми сообщениями.