Los clics de los cachalotes se habían descrito durante décadas casi como un código de ritmos: cuántos clics hay y cuánto tiempo pasa entre ellos. Ahora un estudio muestra que dentro de esos clics hay patrones espectrales organizados que se parecen a vocales y diptongos humanos. El trabajo, publicado en Open Mind y firmado por Gašper Beguš y colaboradores, analiza en detalle codas de cachalotes del Caribe y propone que, además del ritmo, estos animales juegan con la “calidad” del sonido de forma discreta y recurrente.
Los autores no dicen que los cachalotes tengan un lenguaje humano, pero sí que su sistema de comunicación es más estructurado de lo que sugerían las descripciones anteriores, centradas casi solo en el número de clics y su sincronía.
De un sistema tipo “código de clics” a algo más rico
Durante años, la mayoría de trabajos sobre cachalotes describían sus codas como secuencias de clics clasificadas por dos parámetros básicos: número de clics y tiempos entre clics. En la práctica se trataba de un análisis en dos dimensiones: cantidad y ritmo. Con esos dos elementos se han definido los famosos tipos de coda, como el 1 + 1 + 3 —muy frecuente en el clan del Caribe oriental— o las series regulares de cinco clics (5R1, 5R2).
Esa estructura ya era interesante, y se ha relacionado con aspectos sociales como la identidad de clan, pero dejaba fuera una parte importante del sonido: qué pasa dentro de cada clic.
El nuevo estudio entra precisamente en esa dimensión olvidada: las propiedades espectrales, es decir, cómo se distribuye la energía del sonido en distintas frecuencias dentro de los clics que componen una coda. Los autores proponen que estas propiedades espectrales forman patrones discretos que se repiten y podrían ser relevantes en la comunicación.

Para demostrarlo, analizan miles de codas grabadas con etiquetas acústicas (Dtags) colocadas directamente en los animales, lo que reduce al mínimo los efectos de la posición del micrófono o de la distancia a la fuente de sonido.
Hasta ahora, los trabajos que miraban al espectro se centraban sobre todo en clics de ecolocación o atribuían la variación a factores físicos, como la profundidad de buceo o la orientación del animal. Este estudio se centra en codas sociales y argumenta que parte de esa variación espectral no se explica bien solo por el movimiento. Esa diferencia de enfoque permite pasar de ver los clics como “golpes sonoros” más o menos rápidos a considerarlos como pulsos que llevan su propia estructura interna, comparable en algunos aspectos a la de las vocales humanas.
Qué son las “a-codas” y “i-codas” que describe el estudio
El hallazgo central del trabajo es la existencia de dos patrones recurrentes a nivel de coda, que los autores llaman a-coda vowel e i-coda vowel. Cada uno se define por cómo se distribuyen los formantes, es decir, las frecuencias de resonancia dominantes en el sonido.
En las a-codas aparece un solo formante fuerte por debajo de 10 kHz, mientras que en las i-codas aparecen dos formantes bien separados en ese rango. La elección de las letras “a” e “i” no significa que los cachalotes pronuncien esas vocales humanas, sino que la relación entre los formantes recuerda, de forma analógica, a la diferencia entre nuestras vocales [a] e [i].
Lo importante es que estos patrones no son caprichosos ni aparecen mezclados dentro de una misma coda. En la gran mayoría de codas analizadas, todos los clics de esa coda comparten el mismo tipo espectral: o bien son a-coda, o bien son i-coda. Cuando hay clics que no encajan con la mayoría de la coda son minoría y no rompen el patrón general. Esto sugiere que los cachalotes no están generando esas formas al azar ni como simple consecuencia de un cambio físico pasajero, sino que existe una estructura bastante limpia a nivel de unidad comunicativa.
Además, los investigadores comprobaron que esta distinción aparece en varios individuos y en distintos tipos clásicos de coda, no solo en un animal o en una configuración concreta. Los patrones a-coda e i-coda se observan, por ejemplo, tanto en codas 1 + 1 + 3 como en codas 5R2. Esa recurrencia, unida a la consistencia de los formantes entre distintos cachalotes, lleva a los autores a proponer que estas “vocales tipo coda” son un rasgo general del sistema de comunicación, y no una rareza local de un único ejemplar.
Cómo se parecen estas estructuras a las vocales humanas (y cómo no)
Para interpretar estos resultados, el equipo recurre a la teoría fuente-filtro que se usa en fonética humana. En nuestro caso, la fuente son las cuerdas vocales y el filtro es la forma del tracto vocal, que genera formantes distintos según cómo coloquemos la lengua y la boca. En los cachalotes, la fuente serían los labios fónicos, que producen los pulsos que oímos como clics, y el filtro estaría en el saco de aire distal y la compleja estructura nasal. Bajo esta analogía, el número de clics y la temporización entre ellos se corresponderían con la duración y el tono (F0), mientras que las propiedades espectrales se relacionarían con algo parecido a la “calidad vocálica”.
Los autores son muy claros en un punto clave: estas “vocales tipo coda” son una analogía acústica y articulatoria, no una clasificación lingüística. Las vocales humanas son fonemas que distinguen significado en palabras concretas; en cachalotes, todavía no se ha demostrado que las diferencias de tipo a-coda / i-coda cambien el sentido de un mensaje de forma referencial.
Lo que sí se ha establecido es que las codas, en general, tienen significado social, por ejemplo al señalar el clan al que pertenece un grupo, y que estos patrones nuevos encajan bien en ese marco más amplio de variación social y estructural.
Otro punto importante es el tratamiento del tiempo. Los clics de cachalote son mucho más lentos que los pulsos vocales humanos, de modo que algunos patrones pasan desapercibidos si se respetan las escalas temporales originales. Para ver las similitudes con nuestras vocales, el equipo “elimina” la información temporal entre clics y acelera los segmentos de interés. Al hacerlo, aparecen formantes en los espectrogramas de las codas que recuerdan, en su organización, a los de vocales humanas [a] e [i] producidas por un hablante.
La coincidencia no implica identidad, pero sirve como herramienta para describir de manera uniforme sistemas de producción sonora muy distintos.

Los “diptongos” de los cachalotes y el control articulatorio
Además de las a-codas y las i-codas, el estudio identifica trayectorias de formantes que cambian a lo largo de una misma coda. En lugar de mantener un formante estable, algunas codas muestran movimientos claros: ascendentes, descendentes, o combinaciones como ascendente-descendente y descendente-ascendente.
Esto recuerda a lo que en humanos llamamos diptongos, donde la calidad de la vocal se desplaza dentro de una misma sílaba, como en “ai”. De nuevo, no se trata de afirmar que haya sílabas o palabras, sino de señalar una organización del sonido que se le parece en términos técnicos.
Un aspecto llamativo es que estos diptongos no se explican bien por cambios de profundidad o por movimientos del cuerpo. Al comparar las trayectorias espectrales con datos de profundidad, cabeceo, guiñada y balanceo de las ballenas, los autores no encuentran una relación directa que obligue a que esos cambios sean simples artefactos físicos.
De hecho, documentan casos donde la coda es espectralmente estable mientras el animal se mueve más, y otros en los que la coda presenta un diptongo claro con apenas variación en la postura o en la profundidad. Esto sugiere, aunque no lo prueba de forma absoluta, que hay un grado de control articulatorio sobre estas trayectorias.
El equipo también describe un tipo concreto de patrón: codas en las que el primer clic tiene un formante notablemente más alto que el resto, repetido en varios individuos. Ese comportamiento, junto con la existencia de diptongos ascendentes y descendentes en distintos contextos, refuerza la idea de que no estamos ante ruido o distorsiones aleatorias. En vez de eso, parece que los cachalotes pueden modificar el “filtro” —la geometría interna de sus sacos de aire y estructuras nasales— de forma rápida dentro de una misma coda, aunque la biomecánica exacta de ese cambio todavía no se haya observado directamente.
El papel de la IA y los próximos pasos para entender su comunicación
Un detalle relevante que el propio artículo subraya es el papel de la inteligencia artificial en la formulación de la hipótesis. Antes de este análisis detallado, un modelo generativo entrenado con codas de cachalote ya había señalado que ciertas características espectrales parecían importantes.
Ese modelo, fiwGAN, estaba diseñado para aprender patrones significativos en señales acústicas sin supervisión, y en trabajos previos había demostrado captar estructuras relevantes en lenguajes humanos. Al aplicarlo a codas, los autores vieron que no solo atendía a número de clics y tiempos, sino también a aspectos del espectro.
El estudio actual puede verse como una verificación explícita de esa pista generada por la IA. En lugar de quedarse en la sugerencia del modelo, los autores bajan al detalle: proponen un método de visualización que elimina la información temporal, aplican análisis de formantes estándar en fonética y cuantifican la recurrencia de a-codas, i-codas y diptongos. Que una técnica de interpretabilidad de modelos haya precedido a un hallazgo empírico sólido es un punto que los autores destacan explícitamente.
De cara al futuro, el trabajo deja varias líneas abiertas. Una de las más claras es comprobar si estos mismos patrones aparecen en otros clanes de cachalotes y cómo se relacionan con contextos sociales concretos. Otra es avanzar en la conexión entre estructura acústica y posible significado, algo que exige combinar mejor los datos de sonido con observaciones de comportamiento y contexto.
Al mismo tiempo, los autores apuntan que el sistema de codas, con sus nuevas dimensiones espectrales, se parece cada vez menos a un simple “código de puntos y rayas” y más a un conjunto de señales en el que distintas capas de información pueden superponerse.

Implicaciones para la comunicación animal y para su conservación
Más allá del caso específico de los cachalotes, el estudio aporta datos a un debate más amplio: cómo aparecen estructuras tipo vocálicas en distintas especies y qué nos dice esto sobre la evolución de la comunicación compleja. Sabíamos que otros mamíferos y aves podían modular formantes, y que algunas ballenas jorobadas mostraban patrones que recuerdan a leyes estadísticas del lenguaje humano, pero los patrones descritos aquí son discretos, recurrentes y relativamente fáciles de identificar sin técnicas de reducción de dimensión. Eso los convierte en un caso especialmente útil para comparar sistemas.
También refuerza la idea de que no basta con detectar “sonidos bonitos” o espectaculares para hablar de complejidad, sino que hay que mirar con lupa cómo se organizan esos sonidos. En cachalotes, esa organización incluye al menos cuatro ejes potencialmente significativos: número de clics, temporización, tipo de “vocal coda” y trayectoria de formantes.
Aunque todavía no se haya establecido un diccionario entre esos rasgos y significados referenciales, la base física y estadística para que puedan cargar información está bien descrita. Esto aporta una referencia sólida para futuras discusiones sobre hasta qué punto podemos hablar de “proto-lenguaje” u otras etiquetas más ambiciosas.
Por último, aunque el paper no se centra en conservación, sus resultados tienen una consecuencia indirecta importante. Cuanto mejor se conozca cómo se comunican los cachalotes, más herramientas habrá para evaluar el impacto del ruido humano y otras perturbaciones en sus interacciones sociales.
Referencias
- Beguš, G., Sprouse, R. L., Leban, A., Silva, M., & Gero, S. (2025). Vowel-and Diphthong-Like Spectral Patterns in Sperm Whale Codas. Open Mind, 9, 1849-1874. doi: 10.1162/OPMI.a.252