Однако между частотой звука и высотой, которую мы слышим, не всегда соблюдается идеальная корреляция. Если мы улавливаем высоту звука (если этот звук можно пропеть), частота, на которой мы его пропоем, называется основной частотой. Волновые линии на рис. 1.4 имеют одинаковое количество пиков и провалов (примерно 35), так что номинально они имеют одну и ту же частоту. Однако они включаются и выключаются (модулируются) с разной скоростью. И высота слышимого нами звука определяется скоростью модуляции, а не частотой модулируемой волны.
Рис. 1.4. Черная и серая волны имеют одинаковую частоту. Однако скорость модуляции разная, то есть звук, обозначенный серой волной, включается и выключается быстрее, и поэтому он звучит выше, чем звук, обозначенный черной волной. Более быстрая модуляция звука, происходящая из-за более быстрых колебаний голосовых связок у женщин, объясняет более высокие голосовые ноты при произнесении одних и тех же слов.
Примером служит человеческий голос. Высота (основная частота) человеческой речи варьирует в диапазоне от 50 до 300 Гц. Основная частота речи соответствует скорости открытия и закрытия голосовых складок, приводимых в движение нашим дыханием. Скорость движения голосовых складок у мужчин самая низкая, так что у них более низкие голоса, а у детей самая высокая, и голоса у них высокие. Интересно, что высота голоса разная не только у разных индивидуумов и разных полов, но связана и с некоторыми другими неожиданными факторами. Различия в основной частоте в целом наблюдаются у людей, говорящих на разных языках[10], а также в разных демографических группах людей, говорящих на одном и том же языке[11]. Возможно, вы и по себе заметили, что двуязычные люди обычно говорят на одном языке на более высоких нотах, чем на другом[12].
Тембр
В музыке тембр важнейший параметр, позволяющий различить два инструмента, исполняющих одну и ту же ноту. В речи это главное средство для различения одного звука (гласного или согласного) от другого. Мужчина и женщина произносят одно и то же: основная частота (высота голоса) позволяет определить, кто есть кто. Женщина произносит два разных слова: тембр помогает отличить ее со от су. Физической мерой высоты звука является основная частота, а тембр определяется гармониками более высокими частотами, чем основная частота.
Полезно знать, из каких частот состоит конкретный звук. Речь идет о так называемом звуковом спектре. Спектр камертона состоит из одной-единственной частоты и поэтому представляет собой одну тонкую вертикальную линию, как на верхней панели на рис. 1.5. У этого звука нет гармоник, только основная частота. Естественный звук, такой как до первой октавы в исполнении тромбона или кларнета, имеет пик в спектре на основной частоте до первой октавы, соответствующей 262 Гц, а также дополнительные пики на частотах, кратных основной частоте (524, 786 Гц и т. д.) Это и есть гармоники (гармонические обертоны). Как показано на средней и нижней панели на рис. 1.5, не все гармоники обладают одинаковой энергией. Относительный энергетический уровень гармоник является характеристикой тромбона и кларнета и объясняет, почему мы слышим разницу между ними. Уникальный характер гармоник определяется формой и конструкцией инструмента, производящего звук. Аналогичным образом форма и положение языка, губ и носа определяют спектр гармоник, характеризующих разные звуки речи.
В зависимости от положения губ и языка и от объема проходящего через рот и нос воздуха мы изменяем спектр издаваемого звука (какие-то из гармоник усиливаются), как показано на рис. 1.6. Хотя в спектре двух гласных звуков есть пики, отстоящие друг от друга на 100 Гц (поскольку в данном примере основная частота составляет 100 Гц), высота пиков, изображенных серыми линиями, очень разная. Это речевой аналог разницы между звуками тромбона и кларнета. В случае звука и два максимума серой линии приходятся на частоты 300 и 2300 Гц, в случае звука у они располагаются примерно на частотах 400 и 1000 Гц. Спектр речи имеет выпуклости области с максимумом энергии, называемые формантами. Интересно, что эти полосы акустической энергии достаточно похожи у разных людей. Человек с высоким голосом имеет пики для звука у где-то в районе частот 400 и 1000 Гц, как и человек с низким голосом.
Рис. 1.5. Спектр камертона представляет собой единственную вертикальную линию на одной конкретной частоте в данном случае 262 Гц, что соответствует ноте до первой октавы. В звуковом спектре инструмента, исполняющего ноту до, есть пик на частоте 262 Гц, а также несколько гармоник на кратных частотах. Звук до первой октавы в исполнении тромбона или кларнета имеет разный рисунок гармоник из-за резонансных характеристик этих инструментов. Спектры помогают понять, почему одна и та же нота до первой октавы звучит по-разному в исполнении разных инструментов (по оси x отложены частоты, по оси y энергия).
Рис. 1.6. Вверху: спектр звука и, как в слове лик. Внизу: спектр звука у, как в слове лук. Оба звука имеют одинаковую основную частоту, но распределение энергии в гармониках различается принципиальным образом (по оси x отложены частоты, по оси y энергия).
Таким образом, тембр это восприятие звука, связанное с его гармоническим содержанием. Расположение гармоник и их относительная высота физические свойства звука, позволяющие нам по тембру определять разницу между двумя инструментами или двумя голосами. В речи группы гармоник выделяются в спектре конкретных слов или слогов. Рисунок 1.7 иллюстрирует полный диапазон частот (основных частот и гармоник) голоса и некоторых музыкальных инструментов.
Рис. 1.7. Полный диапазон частот голоса и музыкальных инструментов. Слева показан диапазон основных частот, справа диапазон гармоник.
Временная развертка
До сих пор мы говорили о камертоне, отдельных музыкальных нотах и гласных все это примеры звуков, устойчивых на протяжении какого-то времени. Однако существует группа звуков, для которых определяющей характеристикой является время не в том смысле, когда начинается и заканчивается звук, как слог или музыкальная нота, а в том смысле, как и когда звук развивается во времени. К этой группе относятся согласные звуки. При произнесении некоторых согласных звуков временная развертка играет важнейшую роль.
Рис. 1.8. Бил превращается в пил за счет добавления паузы длительностью 1 /20 с до начала произнесения гласного звука (по оси x отложено время, по оси y энергия).
Произнесите вслух слово был. А потом слово жил. Можете описать, чем различаются механические движения вашего рта? Это довольно просто. В первом случае ваши губы смыкаются, а язык занимает некую нейтральную позицию. Во втором случае губы слегка приоткрыты, а задняя часть языка прижата к небу. А теперь скажите бил и пил. Это сложнее. В чем тут разница? Механическая разница между произнесением б и п не так уж очевидна. Язык и губы в обоих случаях находятся фактически в одном и том же положении. Основное отличие заключается во временной развертке когда вы начинаете произносить гласную, то есть когда голосовые складки начинают издавать звук и. Произнося слово бил, вы включаете голос почти сразу. Однако при произнесении слова пил между тем, как ваши губы раскрываются, и тем моментом, когда вы начинаете произносить гласный звук, имеется очень короткий промежуток времени. В верхней части рис. 1.8 изображена звуковая волна слова бил. В нижнюю волну я включила паузу длительностью 1/20 секунды. Все колебания двух линий идентичны, за исключением этой добавленной паузы. Небольшой паузы до начала произнесения и достаточно, чтобы вторая волна отчетливо звучала как пил. Различие во времени в несколько долей секунды создает значительное различие в речи. Это одна из многих причин, почему для обработки таких едва заметных изменений звука нам с вами требуется сверхбыстрый слуховой мозг.