Capacidades de la voz

FUNDAMENTOS DE EDICIÓN

Qué es: Las capacidades de voz se refieren al conjunto de técnicas y decisiones que aseguran que la voz humana en un vídeo se escuche clara, inteligible y natural. Abarcan desde la grabación inicial hasta el procesado en postproducción (ecualización, compresión, eliminación de ruido), con un objetivo central: que cada palabra se entienda sin esfuerzo. No se trata de que la voz suene «impresionante» o «grande», sino de que sea perfectamente comprensible en cualquier dispositivo.

Para qué sirve: Garantiza que el mensaje principal de tu vídeo —lo que dices— llegue al espectador sin obstáculos.El audio puede hacer o deshacer un proyecto: un sonido mal equilibrado obliga a la audiencia a esforzarse en descifrar las voces del ruido de fondo. Un 84 % de los espectadores prefiere un vídeo con audio claro y visuales mediocres que lo contrario, ya que el audio deficiente obliga al cerebro a trabajar hasta un 35 % más para interpretar la información.

Ejemplo: Estás editando un tutorial de edición de vídeo. Grabaste tu voz con el micrófono del portátil, hay algo de ruido de ventilador y tu voz suena apagada. En la edición, aplicas un filtro pasa-altos para eliminar el zumbido grave, refuerzas ligeramente las frecuencias medias para dar presencia a la voz, comprimes para igualar el volumen entre frases y reduces el ruido de fondo. El resultado: la voz se entiende perfectamente incluso desde el altavoz de un móvil.

En detalle..

Por qué la inteligibilidad es la prioridad absoluta

En la producción audiovisual existe una tentación comprensible: querer que el audio suene «cinematográfico», envolvente o potente. Pero cuando hablamos de voz en vídeos educativos, tutoriales, vlogs o cualquier contenido donde la palabra hablada transmite el mensaje principal, el objetivo no es impresionar con el sonido, sino comunicar con claridad.
Cuando grabas una voz en off, la meta no es el «mojo» ni la calidez: la limpieza es lo prioritario por encima de todo. Lo que buscas es una relación señal/ruido baja y un sonido claro y presente, que es más valioso que cualquier saturación armónica.

Un estudio sobre vídeos en línea encontró una correlación del 89 % entre los vídeos mejor valorados y una buena calidad de audio.

La ventana para conectar con una audiencia es más corta de lo que se piensa: tu proyecto puede tener tan solo 7 segundos para convencer a las personas de que sigan prestando atención.
Esto significa que si la voz no se entiende bien en los primeros instantes, el espectador abandonará el vídeo, sin importar la calidad visual.

La anatomía de la voz: frecuencias clave

Para trabajar la inteligibilidad de la voz, es esencial comprender qué zonas del espectro de frecuencias hacen qué.
El espectro de la voz puede dividirse en tres bandas: los fundamentales (125-250 Hz), que permiten identificar quién habla; las vocales (350-2000 Hz), que contienen la máxima energía; y las consonantes (1500-4000 Hz), que contienen poca energía pero son esenciales para la inteligibilidad.

Aquí reside la clave del concepto:
el rango de 63 a 500 Hz lleva el 60 % de la potencia de la voz pero solo contribuye un 5 % a la inteligibilidad, mientras que el rango de 1 a 8 kHz produce apenas el 5 % de la potencia pero aporta el 60 % de la inteligibilidad.
Dicho de otro modo, las frecuencias que hacen que la voz «suene grande» no son las mismas que hacen que se entienda. Priorizar inteligibilidad implica cuidar especialmente esa zona media-alta donde viven las consonantes.

Aunque el rango de audición humana va de 20 Hz a 20 kHz, nuestros oídos son más sensibles a las frecuencias entre 2 kHz y 5 kHz, que es también el rango donde la voz humana es más inteligible.

La cadena de procesado vocal: paso a paso

Una vez que tienes tu grabación de voz, el procesado en tu editor de vídeo o DAW (estación de trabajo de audio digital) sigue una secuencia lógica. Cada eslabón de la cadena cumple una función específica.

Filtro pasa-altos (High-pass filter)

Aplica un filtro pasa-altos para eliminar el zumbido y el «rumble» indeseado del extremo grave, como golpes al micrófono o ruido de tráfico. Prueba cortando las frecuencias por debajo de 80-100 Hz.

Un truco habitual de los ingenieros de sonido es activar un filtro de corte de graves durante la grabación, eliminando las frecuencias más bajas donde residen el zumbido y el rumble. No afecta a la voz hablada, pero las grabaciones suenan más limpias y profesionales.

Ecualización (EQ)

La ecualización es la herramienta que permite realzar o atenuar frecuencias específicas.
Para mejorar la inteligibilidad y claridad, se recomienda un refuerzo suave en el rango de 1 kHz a 5 kHz. Para añadir brillo, en el rango de 3 kHz a 6 kHz.

Un refuerzo cuidadoso en 2-4 kHz mejora la inteligibilidad vocal y ayuda a que la voz destaque en la mezcla.

Pero hay precauciones importantes. Cualquier ecualización en el rango de 2-5 kHz debe manejarse con cuidado. Ajustes pequeños de 1 o 2 dB son lo habitual. Demasiado refuerzo en esta zona hará que la voz suene agresiva y áspera; demasiado poco, que suene plana o ahogada.

Compresión

Aplicar una compresión suave a la pista de voz suaviza los picos y valles de la grabación. La compresión descendente reduce los picos de volumen repentinos y también puede elevar los valles, asegurando que cada palabra sea inteligible.

Para voz, una compresión suave con ratio de 2:1 a 3:1 funciona bien sin «aplastar» la dinámica.
El objetivo no es eliminar toda variación dinámica —que la voz suene robótica—, sino mantener el volumen dentro de un rango razonable para que las palabras suaves sean audibles y las fuertes no distorsionen.

De-esser

Un de-esser opera atenuando las frecuencias asociadas con los sonidos sibilantes en las grabaciones vocales. Es básicamente un compresor que responde a frecuencias agresivas, típicamente en el rango de 4 a 10 kHz, con el objetivo de mantener una calidad vocal natural e inteligible.

Es importante no excederse con el de-esser: cuando se aplica en exceso, crea un efecto de ceceo y pérdida de inteligibilidad en ciertas palabras.
La sibilancia es parte natural del habla; se trata de controlarla, no de eliminarla.

Reducción de ruido

Al eliminar ruido de fondo, hay que equilibrar y evitar el sobreprocesado. Demasiada reducción puede crear un sonido hueco y antinatural, especialmente en la voz hablada dinámica.

Niveles de loudness: el estándar de YouTube

Un aspecto que muchos principiantes ignoran es el estándar de volumen de las plataformas.
El estándar de loudness para YouTube es -14 LUFS (Loudness Units Full Scale). YouTube reducirá el volumen de los vídeos que superen ese umbral.
LUFS es una unidad que mide el volumen percibido, no solo los picos de señal.

Si comprimes agresivamente el rango dinámico de tu audio para que suene fuerte, una vez que YouTube normalice el loudness, tu audio no solo será más silencioso, sino que además tendrá menos rango dinámico. Otros vídeos con un rango dinámico más amplio sonarán igual de fuertes y se oirán mejor.

Si tu audio es demasiado silencioso, YouTube no hace absolutamente nada para elevarlo. El resultado es que tu vídeo parecerá más bajo que el resto en una playlist, y el espectador tendrá que subir el volumen, lo cual es molesto.
Por tanto, conviene apuntar a un rango cercano a -14 LUFS sin pasarse ni quedarse corto.

Mantén tu voz en off entre -6 dB y -3 dB de pico para asegurar claridad y prominencia
, y luego verifica el loudness integrado general del vídeo con un medidor LUFS antes de exportar.

Grabación: las decisiones que marcan la diferencia

La mejor postproducción del mundo no puede arreglar una grabación deficiente.
Cualquier ingeniero de grabación experimentado te dirá que capturar bien el sonido en origen es la clave. Si mantienes la mentalidad de «arréglalo en el origen» en vez de «lo arreglo en postproducción», tus vídeos sonarán mejor.

Consejos prácticos fundamentales:

Micrófono externo:
Evita grabar con el micrófono de tu portátil siempre que sea posible. Incluso un micrófono externo económico será mejor que el del portátil para grabar voz en off.
Distancia al micrófono:
Posiciona el micrófono entre 15 y 30 cm (6-12 pulgadas) de tu boca para equilibrar claridad y reducir plosivas.
Entorno de grabación:
El tratamiento acústico de la sala es lo más importante. No importa si usas un micrófono USB barato o el equipo más caro del planeta: si no tienes una habitación silenciosa y libre de acumulaciones de frecuencias indeseadas, no obtendrás un buen resultado.
Filtro antipop:
Un filtro antipop ayuda a reducir los sonidos plosivos (como los de la «p» y la «b») que pueden causar distorsión en el micrófono.
Niveles de ganancia:
Ajusta los niveles de ganancia correctamente: demasiado altos crean distorsión, demasiado bajos pierden detalle.

Errores comunes que destruyen la inteligibilidad

Música de fondo demasiado alta.
Es un error muy frecuente entre principiantes: el volumen de la música de fondo es más alto que la voz del presentador, haciendo que la audibilidad sea muy difícil.
La regla general es simple: la música existe para apoyar la voz, no para competir con ella. Baja la música entre -15 dB y -20 dB respecto a la voz, o más si es necesario.

Eco y reverberación excesiva.
Un audio con presencia de eco y reverberación puede arruinar el vídeo. Para evitar el rebote de voz en las paredes, hay que procurar grabar en una sala con aislamiento acústico o incluir mobiliario tapizado que absorba las ondas sonoras.

Velocidad de lectura inadecuada.
Muchos principiantes, sea por nervios o por querer mostrar su capacidad lectora, leen el texto demasiado rápido, lo que perjudica la comprensibilidad del contenido y hace que la audiencia no retenga la información.

Sobreprocesado. Aplicar demasiada reducción de ruido, demasiada compresión o demasiado de-esser puede dejar la voz inerte, metálica o con artefactos artificiales. Menos suele ser más: cada procesado debe tener un propósito audible.

No hacer prueba de grabación.
Hacer siempre una prueba de grabación para verificar niveles y claridad de audio puede ahorrarte horas de frustración más adelante.

La relación de la voz con el resto de la mezcla

En producción audiovisual,
la banda sonora se compone de tres grandes elementos: voces, música y ruidos (efectos de sonido), que conviven y es bueno trabajarlos de manera independiente tanto en el registro como en la edición.

La inteligibilidad de la voz no depende solo de cómo procesas la pista vocal, sino del espacio que le das dentro de la mezcla.
Corta las frecuencias de la música o los efectos donde coincidan con las de la voz. Refuerza la ecualización de la voz en esas zonas si es necesario, para presentar la música y la voz como dos sonidos diferenciados.
Este concepto se conoce como «hacer espacio» en la mezcla, y es el fundamento para que la voz se escuche limpia incluso con música de fondo.

Matices avanzados: no todas las voces son iguales

Cada voz tiene una tímbrica diferente. Una voz masculina grave puede necesitar menos refuerzo en graves y más presencia en medios-altos; una voz femenina aguda puede requerir cuidado extra con la sibilancia.
No hay una regla fija. La mezcla es tanto un arte como una ciencia. Confía en tus oídos por encima de todo.

Además, el dispositivo de reproducción importa. Un vídeo puede sonar perfecto en tus auriculares de estudio y ser ininteligible en los altavoces de un teléfono móvil. Los altavoces pequeños reproducen mal los graves y resaltan los medios, así que una voz con demasiado refuerzo en frecuencias bajas perderá cuerpo en esos dispositivos. La recomendación práctica: siempre revisa tu mezcla final en al menos dos sistemas de reproducción distintos (auriculares y altavoces del portátil o móvil).

Cuándo NO aplicar estas técnicas de forma agresiva

No todo vídeo requiere el mismo tratamiento vocal. Un cortometraje de ficción puede buscar deliberadamente un sonido de voz más ambiental, con reverberación del espacio real, para crear sensación de lugar. Una pieza artística puede jugar con la distorsión vocal como recurso expresivo. Pero en contenido informativo, educativo o de creación de contenido para plataformas como YouTube, la regla de oro permanece: la inteligibilidad de la voz es la base sobre la que se construye todo lo demás.

Relación con otros conceptos

Las capacidades de voz se conectan directamente con varios fundamentos de la edición de audio: la ecualización como herramienta de modelado tonal, la compresión como control dinámico, la normalización de loudness como estándar de entrega, los cortes J y L como técnicas de edición que solapan audio y vídeo para transiciones fluidas, y la accesibilidad (subtítulos, transcripciones) como complemento fundamental para que el mensaje llegue a todos.
Un audio equilibrado y sin ruido beneficia a todos los oyentes, incluidas las personas con discapacidad auditiva.3