Психоакустика
времени.
124
Распределение длительности пауз в речевых сигналах также носит
случайный характер, их средняя длительность для речи составляет
0,4 с, а суммарная длительность пауз достигает 5% от времени
передачи. Наиболее важная информация, которую позволяет
получить анализ уровнеграмм – это определение динамического
диапазона речевого сигнала и его пик-фактора. Динамическим
диапазоном звукового сигнала называется разница между его
квазимаксимальным и квазиминимальным уровнем D = Lmax – Lmin.
Под квазимаксимальным Lmax понимается такой уровень сигнала,
длительность пиков выше которого составляет 1% (для речи ) и 2%
(для музыки) от общей длительности отрезка сигнала. Аналогично
определяется квазиминимальный уровень Lmin (относительная
длительность составляет 99% и 98%). Значения пик-фактора
определяются как разница между квазимаксимальным и средним
уровнем сигнала D = Lmax – Lср.
Значения динамических диапазонов речевых сигналов находится в
пределах 35…45 дБ, значения пик-фактора 10…12 дБ.
Рис. 2. Распределение плотности
вероятности мгновенных значений
речевого сигнала. 1 – дикторский
текст; 2, 3, 4 – художественное
чтение
Условия Расстояние
(см)
Среднее звуковое
давление, Па (дБ)
Пиковое
значение
мощности
(мВт)
Пик-фактор
(дБ)
Область максимальных
уровней (Гц)
Речь телефонная
2,5
2 (100) 0,24 12 250-500
средний уровень 4 (106) 4 18 500-1000
громкий
1 (94) 0,025 8 250-500 тихий
Разговор 100 0,05 (68) 0,5 10 250-500
Оратор 100 0.1 (74) 2.0 12 250-500
Некоторые данные для речевого сигнала по развиваемым уровням звукового давления и мощности
приведены в таблице.
Если пересчитать уровни звукового давления для телефонной речи на расстояние 100 см, то получатся
следующие значения: 68, 74, 62 дБ.
Следует отметить ,что для вокальной речи (пения) эти уровни существенно выше, и могут достигать значений
115 дБ на 1 м. В старом итальянском руководстве по подготовке певцов было написано, что если певец может
развивать уровень от 110 дБ и выше, то он может петь в «Ла Скала», если ниже 100 дБ, то в камерном
ансамбле, если ниже 90 дБ, то не надо петь вообще… Интересно, сколько народу осталось бы петь на
эстраде сегодня при таком критерии?
Корреляционный анализ речевого сигнала позволяет рассчитать функцию текущей автокорреляции и
установить предел однородности, которые определяются временем, в течение которого функция
автокорреляции достигает некоторого предельного значения, независящего от времени запаздывания. Для
речи этот предел составляет 3…5 с.
Спектральный анализ речевого сигнала, как всякого непрерывно изменяющегося во времени акустического
сигнала, может быть выполнен на основе записанной уровнеграммы с помощью преобразования Фурье. В
любом музыкальном редакторе предусмотрена операция быстрого преобразования Фурье (БПФ, FFT),
позволяющая из выделенного отрезка уровнеграммы рассчитать его спектр.
Анализ спектров речевых сигналов позволяет установить форму огибающей и выделить области формантных
частот. Поскольку место и ширина формантных областей принципиально важны для распознавания речи, то
для точного определения формантных полос в речевом сигнале созданы специальные программы на основе
метода линейного предсказания или кепстрального анализа, позволяющие производить их автоматическое
125
распознавание.
Кроме того, поскольку интонация речевого высказывания определяется изменением частоты фонации, то
выделение основной частоты фонации из записанных уровнеграмм и характер ее зависимости от времени
Страниц: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159
Отзывов (0)