Основы настройки звука
Приветствую, тех, кто любит делиться своим контентом с аудиторией! Давайте начнем с основных принципов работы со звуком, и я постараюсь объяснить это наиболее простым и доступным языком.
Звук - это колебания, которые постоянно меняют свою амплитуду и частоту.
Амплитуда - это максимальное отклонение значения звука от среднего значения в определенный момент времени. Следовательно, чем больше разница между самым высоким и самым низким значением звуковой волны, тем сильнее мы воспринимаем звук как громкий или тихий.
Частота - это количество раз, которое звук колеблется за определенный промежуток времени (обычно за секунду). Частота определяет высоту звука. Единицей измерения частоты являются герцы, то есть, один герц соответствует одному колебанию в секунду. Диапазон, который человек способен воспринимать, варьируется от низких частот, называемых басом (от 20 Гц и ниже), до высоких частот (до 20 000 Гц, что равно 20 килогерцам).
Теперь, возможно, вы спросите: "Зачем нам знать все это?" Давайте перейдем к обсуждению плагинов и их влиянию на звуковую волну.
Плагины для обработки звука
Для ускорения процесса ознакомления с различными плагинами, мы сосредоточимся только на стандартных плагинах от OBS. Остальные плагины от других производителей (вендоров) будут рассмотрены в других статьях.
Шумоподавление
Среди звуковых инженеров широко используется эффект "Гейт" (Gate). Буквально, это можно интерпретировать как "ворота". В данном контексте, чтобы удалить фоновые звуки, такие как шум шагов или скрежет посуды и так далее, необходимо установить определенный уровень срабатывания, на котором эти звуки будут считаться незначительными, то есть будут приглушены.
В ОБС присутствуют два плагина, отвечающие за подавление шумов:
- Шумоподавление – содержит два пресета: RNNoise, Speex.
- RNNoise — это алгоритм подавления шума на основе глубокого машинного обучения, предназначенный для уменьшения фонового шума в речевых сигналах. Он использует рекуррентную нейронную сеть (RNN) для изучения закономерностей в речевом сигнале и идентификации компонентов шума, которые затем удаляются.
- Speex – обычный Gate с порогом срабатывания (уровень подавления). Чтобы данный прессет заработал, необходимо, при полной тишине, выставить уровень подавления на минус столько децибел, сколько покажет полоса с уровнем громкости на микшере.
Исходя из скриншота выше, при полной тишине громкость внешних звуков доходит до -45 дБ, соответственно, в Speex нужно выставить уровень срабатывания на -45, тогда все звуки, что тише имеющихся будут приглушены.
Советую пользоваться RNNoise. Как показывает практика, нейронные сети справляются с определением призвуков лучше, нежели аналоговые плагины.
- Пропускной уровень шума – плагин, который сход по принципу с шумоподавлением, однако главное различие заключается в том, что настройка здесь идет при помощи ползунков, и мы сами можем выбрать диапазон работы.
Верхний порог, как правило, определяет начало обработки звука. Например, если самый слабый звук варьируется в пределах -45 дБ, а наиболее громкий достигает -32 дБ, то настройка верхнего порога означает, что звук, начиная с -45 дБ и заканчивая -35 дБ, будет обрабатываться.
Нижний порог определяет уровень окружающего шума, который считается максимально допустимым.
Длительность атаки представляет собой интервал времени, в течение которого плагин начинает обрабатывать звуки. Рекомендуется удерживать эту длительность в диапазоне от 15 до 25 миллисекунд, так как слишком короткая атака может вызвать артефакты и нежелательные искажения звука. Простыми словами, слишком быстрая атака может пропустить шумы, не успев среагировать на них.
Длительность задержки определяет период времени, выделенный для обработки звуков.
Длительность затухания указывает на момент, когда плагин прекращает обработку. Обычно используется в сочетании с задержкой для достижения желаемого эффекта.
Рекомендация: В цепочке обработки, лучше ставить на первое место плагин Шумоподавление с пресетом RNNoise, на второе Пропускной уровень шума, для подстраховки, в случае, если нейронная сеть пропускает некоторые призвуки.
Компрессор
Как было упомянуто ранее, звук может иметь разную амплитуду, что означает наличие как громких, так и тихих звуков. Для уравновешивания разницы между самым высоким и самым низким уровнем звука, необходимо произвести процесс, известный как "компрессия", где громкие звуки становятся более тихими, а тихие - более громкими. Этот метод называется "Золотой серединой", и, возможно, это звучит необычно. Однако на практике эта концепция становится более ясной и понятной.
Основные “крутилки” и их назначение:
- Степень сжатия отражает соотношение ослабления звука. Например, для вокала и бочки (kick) используют значение 2:1. Если звук превысит порог на 6 дБ, то он будет снижен до 3 дБ.
- Порог срабатывания (Threshold) – пороговое значение громкости звука, при котором компрессор начинает работать со звуком. Рекомендуется, в случае, если наша разговорная речь доходит до -10 дБ, выставлять порог срабатывания -12 дБ.
- Атака (Attack) – временной показатель, за который компрессия начнет работать.
- Спад (Release) - время, за которое компрессия перестанет работать.
- Выходное усиление (Gain) – добавляет громкость к сжатому звуку.
Таким образом, после того, как вы убрали все шумы, необходимо сбалансировать общую громкость вашего звука с микрофона, поэтому 3 плагином должен стоять компрессор.
Эквалайзер
Это устройство или компьютерная программа, которая способна корректировать амплитудно-частотные характеристики аудио-сигнала. Я бы порекомендовал вам обновить свои знания в этой области, о чем подробно можно узнать выше. К сожалению, стандартный плагин в OBS ограничен и не предоставляет возможность настраивать параметры срезов. Вместо этого, он ограничивается лишь возможностью регулировать громкость определенных частот.
Для достижения более выразительного голоса требуется регулировать уровни звука в различных частотных диапазонах. Чтобы придать голосу "присутствие" и создать ощущение близкого контакта с аудиторией, рекомендуется увеличить громкость низких частот (около 200 Гц) на примерно 0,5 - 1 дБ. Начиная, возможно, с работы "на слух", с накоплением опыта, вы сможете лучше подбирать настройки звука в реальном времени.
Если же вашей целью является добавление яркости в голос, то стоит увеличить уровень высоких частот (между 15 и 18 кГц) на 1 - 2 дБ.
Лимитер
Лимитер - это специализированное устройство или программа, которая автоматически выравнивает уровень громкости звука до заданного уровня и предотвращает неприятные искажения и перегрузки аудио-сигнала.
Важно отметить, что лимитер является разновидностью компрессора, но в отличие от компрессора, его параметры не регулируются стандартными крутилками в плагине ОБС. Основное сходство между ними заключается в том, что лимитер также выполняет сжатие звука, но с фиксированной степенью сжатия в диапазоне от 10:1 до ∞:1.
Это означает, что лимитер предназначен для удаления резких звуков, таких как крики или громкие удары предметов. Настройка лимитера обычно не вызывает сложностей, и вы можете установить порог срабатывания в диапазоне от -3 до -1 в соответствии с вашими потребностями.
Лимитер – полка для звука или же кирпичная стена.
Итоговая последовательность плагинов
Мы надеемся, что представленная вам статья оказалась полезной. Ваше мнение и обратная связь для нас важны, поэтому не стесняйтесь делиться вашими комментариями и предложениями относительно тем, которые вам бы хотелось увидеть подробнее. Кроме того, стоит помнить, что все комментарии проходят модерацию перед публикацией, чтобы обеспечить качество и безопасность обсуждения.