Психоакустика

Автор: admin | | 19 Дек 2010 13:47

времени.
124

Распределение длительности пауз в речевых сигналах также носит
случайный характер, их средняя длительность для речи составляет
0,4 с, а суммарная длительность пауз достигает 5% от времени
передачи. Наиболее важная информация, которую позволяет
получить анализ уровнеграмм – это определение динамического
диапазона речевого сигнала и его пик-фактора. Динамическим
диапазоном звукового сигнала называется разница между его
квазимаксимальным и квазиминимальным уровнем D = Lmax – Lmin.
Под квазимаксимальным Lmax понимается такой уровень сигнала,
длительность пиков выше которого составляет 1% (для речи ) и 2%
(для музыки) от общей длительности отрезка сигнала. Аналогично
определяется квазиминимальный уровень Lmin (относительная
длительность составляет 99% и 98%). Значения пик-фактора
определяются как разница между квазимаксимальным и средним
уровнем сигнала D = Lmax – Lср.
Значения динамических диапазонов речевых сигналов находится в
пределах 35…45 дБ, значения пик-фактора 10…12 дБ.

Рис. 2. Распределение плотности
вероятности мгновенных значений
речевого сигнала. 1 – дикторский
текст; 2, 3, 4 – художественное
чтение
Условия Расстояние
(см)
Среднее звуковое
давление, Па (дБ)
Пиковое
значение
мощности
(мВт)
Пик-фактор
(дБ)
Область максимальных
уровней (Гц)
Речь телефонная
2,5
2 (100) 0,24 12 250-500
средний уровень 4 (106) 4 18 500-1000
громкий
1 (94) 0,025 8 250-500 тихий
Разговор 100 0,05 (68) 0,5 10 250-500
Оратор 100 0.1 (74) 2.0 12 250-500
Некоторые данные для речевого сигнала по развиваемым уровням звукового давления и мощности
приведены в таблице.
Если пересчитать уровни звукового давления для телефонной речи на расстояние 100 см, то получатся
следующие значения: 68, 74, 62 дБ.
Следует отметить ,что для вокальной речи (пения) эти уровни существенно выше, и могут достигать значений
115 дБ на 1 м. В старом итальянском руководстве по подготовке певцов было написано, что если певец может
развивать уровень от 110 дБ и выше, то он может петь в «Ла Скала», если ниже 100 дБ, то в камерном
ансамбле, если ниже 90 дБ, то не надо петь вообще… Интересно, сколько народу осталось бы петь на
эстраде сегодня при таком критерии?
Корреляционный анализ речевого сигнала позволяет рассчитать функцию текущей автокорреляции и
установить предел однородности, которые определяются временем, в течение которого функция
автокорреляции достигает некоторого предельного значения, независящего от времени запаздывания. Для
речи этот предел составляет 3…5 с.
Спектральный анализ речевого сигнала, как всякого непрерывно изменяющегося во времени акустического
сигнала, может быть выполнен на основе записанной уровнеграммы с помощью преобразования Фурье. В
любом музыкальном редакторе предусмотрена операция быстрого преобразования Фурье (БПФ, FFT),
позволяющая из выделенного отрезка уровнеграммы рассчитать его спектр.
Анализ спектров речевых сигналов позволяет установить форму огибающей и выделить области формантных
частот. Поскольку место и ширина формантных областей принципиально важны для распознавания речи, то
для точного определения формантных полос в речевом сигнале созданы специальные программы на основе
метода линейного предсказания или кепстрального анализа, позволяющие производить их автоматическое
125

распознавание.
Кроме того, поскольку интонация речевого высказывания определяется изменением частоты фонации, то
выделение основной частоты фонации из записанных уровнеграмм и характер ее зависимости от времени

Отзывов нет »

Комментариев пока нет.

Ваш отзыв