05_TEXTOS

5

Prosodia emocional

RAFAEL LÓPEZ PÉREZ

MARTHA INÉS TORRES ARANGO

PATRICIA ARGÜELLO VÉLEZ

GLORIA STELLA LIZARRALDE GÓMEZ

Según Kappas (2011), la voz ha sido durante gran parte del siglo pasado el «niño olvidado» de la investigación de las emociones. Esta falta de investigación no es debida a la falta de interés, sino una consecuencia de la complejidad técnica y la práctica de estudiar la codificación y decodificación de las emociones en la voz. De hecho, hay estudios que parecen indicar que somos más capaces de decodificar las emociones de la voz que de las faciales.

La prosodia emocional es uno de los aspectos más interesantes en el análisis del comportamiento no verbal humano. Tal y como figura en el título del artículo publicado por Petisco y López (2014), a veces la voz dice más que las palabras. En este capítulo se abordará una breve introducción al habla y la voz para pasar posteriormente a profundizar en el concepto de prosodia. Se finalizará uniendo prosodia y emoción a través de la denominada prosodia emocional, comprobando las herramientas a través de las cuales ha sido estudiada en la comunidad científica.

1. EL HABLA Y LA VOZ

La comunicación humana requiere de diversos aspectos que de forma conjunta permiten el intercambio de información y a su vez el conocimiento del mundo. La comunicación debe tener unos parámetros para que el objetivo se logre, como son: los participantes (destinatarios o hablantes), la lengua (contenido, forma y uso), un canal (auditivo o visual), el mensaje y el contexto. Por ello la comunicación humana debe tener una connotación social, biológica y psicológica que permita su interacción, tratando de disminuir las barreras comunicativas (ruido y problemas visuales y auditivos, entre otros) que impidan la iniciativa e intención de comunicarse (Niño, 2005).

Martinet (1968) define el habla como la realización individual del hecho concreto de la comunicación lingüística. Este aspecto se incluye como una de las áreas del lenguaje que corresponde a la forma, lo que se relaciona con la parte fonológica (articulación), la prosodia (aspectos suprasegmentales, fluidez, ritmo, pausas y velocidad) y la voz (volumen, tono y timbre) como factores que facilitan la comunicación oral.

El habla en sí es un acto motor fino en el que participa una serie de órganos y sistemas que, de forma conjunta, permiten un adecuado funcionamiento, entre los cuales encontramos los sistemas nervioso central y periférico, el respiratorio, el emisor, el resonancial, el óseo muscular, el endocrino y el sensoperceptual.

Después de tener la motivación de comunicarse y la idea a comunicar organizada, los impulsos nerviosos envían la información al sistema respiratorio, ya que se requiere del suficiente potencial de aire para la vibración de las cuerdas vocales. Esta acción generará un sonido, llamado también tono fundamental, y, más arriba, en diversas estructuras (faringe, cavidad oral y cavidad nasal), se amplifica y se llena de armónicos, proporcionando a ese sonido cualidades tímbricas (brillo, armónico, nasalidad y ronquera) que más adelante, junto al funcionamiento de la cavidad oral, dientes, labios, lengua, paladar y senos paranasales, continuarán con los efectos de amplificación, resonancia y prosodia que culminarán en el proceso de articulación. La cavidad oral es el motor que permite que los sonidos del habla se produzcan (fonemas). Estos fonemas presentan unos rasgos mínimos de punto, modo y sonoridad que hacen que se diferencien entre sí para, posteriormente, poder producirlos de forma lógica, secuencial y organizada y faciliten la inteligibilidad del habla.

Esta secuencia de funciones anatomofisiológicas se verá modificada según la intención del hablante mediada por el contexto situacional y el contenido semántico y afectivo de su enunciado, desarrollándose en pleno y de manera simultánea los componentes suprasegmentales del habla: la entonación, las pausas, la acentuación, el ritmo y la velocidad, lo que lleva a que el discurso sea claro, eficaz, enfático y coherente. Unas inadecuadas entonación o acentuación pueden afectar de manera importante a la coherencia de la idea en un momento dado.

Para que se lleve a cabo la exteriorización del habla es necesario un proceso coordinado entre sistemas que trabajen conjuntamente para dar como resultado la producción del sonido y del resto de características que lo integran. Según Mysak (1989) (véase figura 5.1) y el modelo de procesamiento central de habla y lenguaje de Nation y Aram (1977), los mecanismos de recepción están dados por sistemas de función aferente cuyo sustrato neuroanatómico son los órganos de los sentidos y vías de trasmisión aferente nerviosa (vía auditiva, vía visual y relevos en el tallo cerebral) que permitirán el ascenso de la información exterior hacia niveles corticales para su procesamiento central. Es gracias al sistema nervioso central que el mundo exterior se traduce en palabras, imágenes y significados, lográndose procesar la información para la formulación adecuada de las respuestas. Estas respuestas consiguen su descenso por medio de las vías eferentes nerviosas (vía piramidal-extrapiramidal) hasta los sistemas efectores, que están determinados por los mecanismos de respiración, fonación, resonancia y articulación. Por último, el sistema sensor se encargará de controlar y monitorizar automáticamente el habla, detectar errores y reiniciar el proceso del habla mediante la autocorrección.

Figura 5.1.—Sistema de habla interrelacionada e interdependiente, de Edwar Mysak. Tomado de Mysak (1989).

De manera concreta, si nos referimos al concepto de voz, podemos decir que ésta es el soporte físico de la comunicación humana. Por medio de ella, los pensamientos se pueden hacer audibles y facilitan la comunicación oral. La voz emerge del soplo pulmonar, se transforma en sonido en la laringe y, luego, se amplifica gracias a los resonadores que incorpora el timbre de la voz. Posteriormente, se articula en fonemas y la secuencia sintagmática de éstos determina su metría en palabras, frases y oraciones; es allí cuando el pensamiento que se dirige a los demás es proyectado y a su vez recibido, captado, percibido e interiorizado por otros, para que se genere nuevamente el acto de fonar como respuesta o como reformulación de lo dicho. La voz posee las cualidades acusticoperceptuales de intensidad, tono y timbre, lo cual corresponde a la abundancia y a la proporción relativa de los armónicos (Perelló, 1977).

Según J. Gil (2007), en el marco de la acústica, el tono se entiende como la caracterización de los sonidos, lo que los hace más agudos o más graves dependiendo de su frecuencia fundamental. El timbre es la cualidad acústica propia de cada sonido y éste depende de la configuración general de su espectro. El timbre afectará al punto donde se amplifique cada sonido, evidenciando las voces nasales, engoladas, roncas o eufónicas, entre otras. La intensidad se refiere a la fuerza del sonido, si es muy fuerte o muy débil, lo que comúnmente la gente llama volumen. La intensidad depende de la amplitud de las vibraciones del sonido, las cuales producen una mayor o menor potencia.

Otro concepto fundamental para entender la producción del lenguaje es el de articulación. Después de que el sonido emerja de la laringe, se amplificará en las cavidades de resonancia uniéndose a cada una de las estructuras fonoarticuladoras, para, así, ganar puntos y modos articulatorios que conformarán los fonemas, unidad mínima de la palabra. Según Queiroz (2007), la boca tiene una función primordial, ya que una buena articulación dependerá de la posición, la movilidad y la forma de labios, lengua, dientes y mandíbula. Por su parte, González (2003) afirma que la correcta articulación de los fonemas vendrá dada por la producción de la praxia orolingual pertinente para cada fonema en particular.

Por último, antes de pasar al concepto de prosodia, es necesario prestar atención a otro aspecto fundamental de la voz, la fluidez. La fluidez verbal se percibe cuando el individuo que está hablando logra exteriorizar sus ideas, pensamientos, inquietudes o dudas de forma completa, incorporando en lo dicho un adecuado manejo del vocabulario, modalizadores discursivos y recursos cohesivos, con estructuras gramaticales adecuadas, en un contexto comunicativo asertivo. Birkenbihi (1983) reseña: «Cuanto más seguro está uno de su tema, o bien cuanto menos sentimientos negativos existan, tanto más clara será en general la pronunciación de las palabras aisladas» (p. 141).

La fluidez hace parte de la comunicación humana y se evidencia en el habla, cuando una persona logra extensiones de la frase y la oración con alta disponibilidad léxica, relaciones sintácticas cohesivas y secuencia discursiva de las ideas (inicio, nudo, desenlace y fin) logrando centralizar la atención del público con aquello que expresa. Blanco (2006, p. 4) reseña al respecto: «Es el conocimiento del vocabulario y la capacidad para utilizar conceptos verbales en contextos adecuados».

Las alteraciones de la fluidez se denominan disfluencia, y pueden ser causadas por fallas en el vocabulario, poco manejo del tema, dificultades para hablar en público, explicaciones de algo que no tiene fundamento, timidez o alteraciones psicológicas o del lenguaje.

2. PROSODIA

Todo enunciado verbal posee una figura tonal que le es propia. La prosodia es el componente del lenguaje que se refiere al procesamiento cognitivo necesario para comprender o expresar intenciones comunicativas usando aspectos suprasegmentales del habla, tales como las variaciones de la entonación, las pausas y las modulaciones de la intensidad vocal (Joanette et al., 2008).

El concepto de prosodia trata la manifestación concreta en la producción de las palabras, observado desde un punto de vista fonético-acústico, considerando aspectos suprasegmentales que afectan a la entonación de la frase en su conjunto y aspectos o fenómenos locales de coarticulación y acentuación controlados por la melodía. La prosodia se genera mediante sistemas basados en reglas, obtenidas a partir de estudios lingüísticos que posteriormente evolucionan en función de la experiencia del individuo hasta conseguir un habla sintética aceptable, modificando variables personales como la entonación o la evolución de la frecuencia fundamental, el ritmo o la duración y localización de los diferentes signos de síntesis (De Cantero, 2002; González y Romero, 2002).

En cuanto a los tipos de prosodia existentes, Monrad-Krohn (1947) ofrece la siguiente clasificación:

a)Prosodia intelectual. La prosodia intelectual se refiere al uso de sutilezas de la entonación para resaltar o enfatizar algunos aspectos del mensaje. Así, ante la frase «él es hábil» yo puedo enfatizar la habilidad («él ES hábil»), el atributo del individuo respecto a otros («ÉL es hábil») o darle cierto tono sarcástico (él es HÁBIL»).

b)Prosodia intrínseca. La prosodia intrínseca consiste en ciertos patrones melódicos que determinan diversas connotaciones semánticas. Así, empleando las mismas palabras, podemos diferenciar una afirmación («él es hábil») de una pregunta («¿él es hábil?»).

c)Prosodia inarticulada. La prosodia inarticulada estaría referida a aquellos «sonidos» que aportan información adicional a la comunicación como chistidos, gruñidos, jadeos, etc.

d)Prosodia emocional. La prosodia emocional estaría directamente relacionada con la comunicación de emociones.

Sin embargo, a efectos del estudio de la prosodia emocional, cabe realizar una única y amplia clasificación entre prosodia lingüística y prosodia emocional.

Dentro de la prosodia lingüística se pueden distinguir el acento léxico, el cual opera en el ámbito fonémico/silábico y permite discriminar palabras de composición fonémica idéntica; el acento enfático, que resalta una parte de la información verbal, y la modalidad, operando ésta en el ámbito de la oración y transmitiendo información complementaria o única sobre la intención del hablante (Joanette et al., 2008).

Por su parte, la prosodia emocional es el fenómeno consistente en introducir contenidos emocionales en el mensaje, los cuales, a su vez, son interpretados por el oyente, fijándose como vehículo de expresión de las emociones y contribuyendo por tanto a las funciones adaptativa, social y motivacional de éstas (Fernández-Abascal et al., 2003). Las emociones contribuyen a la comunicación entre individuos de la misma e incluso de diferente especie. A este concepto se le prestará una especial atención más adelante.

La prosodia del habla, según Quilis (1993), se describe como una melodía conformada por las variaciones de la frecuencia fundamental. Al mismo tiempo considera elementos como el ritmo, las pausas, la intensidad y otros elementos fónicos que ayudan a la organización del hilo fónico y segmental (fonemas). Las características suprasegmentales o prosódicas son recursos del habla que afectan a un segmento más largo que el fonema, es decir, frases, oraciones, párrafos y textos, mediante elementos como el acento, la entonación, el ritmo, la duración y otros.

J. Gil (2007) definió las características suprasegmentales como variables fonéticas o fonológicas que sólo pueden describirse en relación con dominios superiores al segmento, como la sílaba, la palabra, el grupo fónico, etc.

La prosodia tiene dos componentes fundamentales: los rasgos prosódicos y las unidades prosódicas, que de manera conjunta permiten el desarrollo lingüístico y paralingüístico en la consolidación de significados puestos en contexto. Los rasgos prosódicos responden a los fenómenos físicos auditivos, acústicos y articulatorios, mientras que las unidades prosódicas son fenómenos fonológicos que asumen una función lingüística clara en los actos de habla de orden sintáctico, semántico o pragmático.

De entre los aspectos mostrados, los que afectarán de manera definitiva a nuestro paralenguaje, y por tanto los de mayor interés para este manual, serán los suprasegmentales. Éstos se corresponden con las unidades prosódicas, que, como hemos mencionado, serán fenómenos que afectan al significado de la comunicación. Dado que tienen carácter no verbal, se pasa a continuación a revisar cada uno de ellos.

A) Entonación

La entonación es, por ejemplo, aquel ascenso o descenso de la voz en la última silaba de una expresión para significar si es una pregunta o una afirmación. Generalmente, la entonación se relaciona con las manifestaciones de la voz, con la gama de tonos que nos permiten expresar algo más que la expresión de las palabras. S. Gil (1988, p. 54) la define «como la curva melódica que la voz describe al pronunciar las palabras, frases y oraciones».

TABLA 5.1

Rasgos y unidades prosódicas. Tomado de Kehrein (2002)

Rasgos prosódicos		Unidades prosódicas
Fenómeno acústico (producción)	Fenómeno auditivo (recepción-percepción)	Unidades prosódicas
Intensidad.	Volumen: aumentado, disminuido y medio.	Acento.
Frecuencia fundamental (tono).	Altura tonal: agudo-grave.	Entonación-tono-acentos tonales.
Tiempo.	Duración.	Cantidad: velocidad y ritmo.

La entonación realza el sentido semántico y contextual de las frases y oraciones, logrando que el acto del habla supere su naturaleza de enunciado (categoría estrictamente gramatical) y se desarrolle como enunciación (patrón melódico según la actitud del hablante).

Las características de la entonación están dadas por su unidad de estudio, denominada tonema, que se encuentra en la parte final del grupo fónico, adyacente o propiamente dicha en la última sílaba acentuada, y su caracterización dependerá de la dirección de la línea tonal del enunciado. En la tabla 5.2 se presentan los cinco tipos de tonemas que se distinguen (Alarcos, 1994; T. Navarro, 1990).

B) Acento

El acento puede determinarse según la fuerza en algunas de sus sílabas si se está hablando de una palabra aguda, grave, esdrújula o sobreesdrújula. Asimismo, se puede hablar de acento en aquel rasgo melódico que diferencia una región de otra. El acento es una unidad importante en el habla y requiere de un adecuado funcionamiento auditivo para su desarrollo. J. Gil (2007) define al respecto: «Es la sensación perceptiva que pone de relieve una sílaba sobre el resto de las sílabas de la palabra».

Se pueden distinguir dos tipos de acentos:

—El acento léxico. Resalta y da relieve acústico a las sílabas acentuadas sobre las inacentuadas, y su presencia es determinante para distinguir dos unidades con significado diferente (Gleason, 1970). Ejemplo: capítulo/capitulo/capituló.

—El acento tonal. Toma una función afectiva o enfática y da relieve a las sílabas inacentuadas. Dependiendo de la fuerza elocutiva del hablante y la actitud de su enunciado, esto aportará información semántica y pragmática (Sampedro, Díaz, Ferreres y Gurlekian, 2012):

TABLA 5.2

Tipos de tonemas

•Realza la atención auditiva de su interlocutor. Por ejemplo:

–/TámBIen estóy INteresáda/ vs. También estoy interesada. En el primer caso, si ponemos especial énfasis en las sílabas resaltadas en mayúscula, podría reflejar una situación en la cual la persona se siente desplazada respecto a otra/s y quiere dejar claro que ella también está interesada en el asunto en cuestión.

–/ALGUIen me lo díjo/ vs. Alguien me lo dijo. Poniendo énfasis en las sílabas resaltadas en mayúscula, podemos estar ante la contestación de alguien que no está siendo creído y debe resaltar que «alguien» se lo dijo, dejando claro que no ha salido de él mismo.

•Perceptivamente, da la sensación de pausa, por lo cual marca el foco temático del enunciado. /La CASA está en la montaña/. Focaliza la importancia enunciativa en el sustantivo concreto casa.

•Funciona como mecanismo de anticipación. Si la acentuación se marca al unísono con un tono alto, es un indicio de la ausencia de relevos comunicativos; por tanto, la no aceptación de interrupciones o cambios de turno:

El martes por la MAÑANA

Mientras si la acentuación coincide con un tono bajo, se advierte perceptivamente el cierre de la emisión; por tanto, cambio de turno o de tema conversacional:

El martes por la MAÑANA

C) Pausas

Las pausas son los espacios de tiempo que se requieren en una frase para completar la idea, pensar, explicar, enumerar o hacer inspiración de aire. Deben ser armónicas y asertivas para cada emisión y cada contexto. J. Gil (2007) explica que las pausas son los silencios intercalados en el discurso.

Este aspecto suprasegmental tiene implícitos semánticos y pragmáticos importantes. Birkenbihi (1983, p. 138) refiere que una pausa puede contener más información que el mensaje verbal sustitutivo de dicha pausa: «Aunque la pausa parece representar un “no”, contiene con frecuencia más información que la que hubieran podido tener las palabras».

Entre otras, las pausas ejercen una función lingüística en el sentido de direccionar la significación del enunciado; las pausas pueden ser de índole (Betancour, 1987):

—Final o absoluta, después de un enunciado completo.

—Enumerativa, la que tiene lugar entre los miembros de una enunciación: «no cuelgo adornos rojos y verdes de las puertas/ no pongo arbolito/ no tengo pesebre/ no rezo la novena/ no canto villancicos/ no prendo las velitas/ no compro aguinaldos...» (Abad Faciolince, 2011).

—Explicativa, hace presencia al inicio y al final del enunciado. Esto ocurre en los incisos que se introducen en el texto: Ana Suárez/ licenciada en literatura/ ganó la beca del estado//.

—Potencial, la que se realiza por voluntad del hablante: estoy absolutamente// consternada.

—Significativa, su presencia o ausencia cambia por completo el sentido del enunciado: /no tenga compasión// o /no/tenga compasión//.

D) Velocidad

La velocidad del habla se puede definir como «el número de palabras por minuto que una persona expresa». Esta característica suprasegmental varía según la intencionalidad, el contexto, el tiempo y los rasgos de la personalidad. Hay velocidades absolutas registradas en los idiomas indoeuropeos: velocidad lenta, 200 sílabas por minuto; velocidad relativamente normal, 350 sílabas por minuto, y velocidad rápida, 500 sílabas por minuto (Birkenbihi, 1983).

E) Ritmo

La Nueva gramática de la lengua española, en su módulo de fonética y fonología, define al ritmo como: «la sensación perceptiva producida por la organización y agrupación de los elementos prominentes de un enunciado en intervalos temporales regulares» (p. 44). El ritmo se combina con el acento para resaltar los elementos prominentes del enunciado y lograr la percepción de sensaciones rítmicas; es por ello que facilita la memoria y la repetición.

Una información auditivamente agradable y fácilmente comprensible requerirá de una disminución en la velocidad del habla, acento enfático en la información relevante y una articulación cuidada e inteligible.

3. PROSODIA EMOCIONAL

La Nueva gramática de la lengua española vincula la entonación con los contenidos afectivos que trasmiten información relativa de la posición del hablante con respecto al enunciado por medio de expresiones de sorpresa, ironía, duda, sarcasmo e indiferencia, entre otras. Lo anterior guarda relación con las modalidades, las cuales serán manifestaciones lingüísticas expresadas según la actitud del hablante y desarrolladas tanto en un marco gramatical y literal que corresponde al dictum como en un marco paralingüístico que corresponde al modus. Así, en el enunciado ¡silencio!, el dictum corresponde al contenido gramatical de un sustantivo abstracto que intenta modular un contexto de situación, y el modus es la manera de representación paralingüística en forma imperativa o de mandato.

T. Navarro (1990, p. 209) explica que: «A cada frase, según el sentido especial en que se usa, le corresponde una determinada forma de entonación. Una misma frase, como, por ejemplo, duerme tranquilo, puede tener un valor afirmativo, interrogativo o exclamativo, según la entonación con que se pronuncie. Dentro de cada uno de estos casos dicha frase, precisando aún más su significación, expresará un determinado matiz emocional o mental —temor, alegría, súplica, ansiedad, duda, desdén, etc.— según las circunstancias particulares que caractericen su forma melódica».

H. Martínez y Rojas (2011) reconocen que el uso de emociones en el habla tiene como finalidad enriquecer el mensaje, con múltiples formas de expresarlo y muchas posibilidades de comprenderlo. Sus investigaciones centran la atención en la caracterización de los correlatos acústicos propios de emociones como la rabia, la alegría y la tristeza, registrándose que las emociones de rabia y alegría presentan incrementos en el tono fundamental y el volumen de la voz, mientras que la tristeza baja el tono fundamental y la intensidad del enunciado.

Desde que el sonido producido por un individuo se genera por su aparato fonador, éste sufre un proceso mediante el cual, una vez llegado al oído del receptor, se convierte en un mensaje lingüístico. Se produce un proceso de audición, percepción y comprensión que proporciona el sentido deseado en el receptor de los sonidos emitidos por el emisor. El proceso acústico llega al oído externo mediante determinadas vibraciones, configurando un proceso mecánico, y se transforma en un proceso hidráulico cuando llega a la cóclea, convirtiéndose a través del órgano de Corti en información electroquímica. En la corteza cerebral se realizará la decodificación de los sonidos percibidos clasificándolos y discriminando sonidos no significativos o ruidos de sonidos semánticamente válidos. A través del nervio auditivo, se transmite la información al córtex cerebral, exactamente al área de Wernicke, situada en la parte posterior del lóbulo temporal. A lo largo de este proceso se realizarán tres tareas clave: detectar el volumen, el tono del «sonido» (cóclea, tálamo y corteza) y la frecuencia (las células de la corteza están especializadas para cada frecuencia).

La importancia de este proceso en la comprensión de la relevancia de la prosodia emocional se debe a que este proceso es totalmente independiente del significado del mensaje. Es decir, las variables de volumen, tono y frecuencia afectarán a la discriminación del mensaje por parte del receptor de manera independiente al contenido semántico del mismo, o incluso careciendo éste de significado semántico. De este modo, estas variables afectarán, de manera previa a la decodificación semántica del mensaje, a las tres dimensiones afectivas de las emociones: valencia afectiva, activación y dominancia (Bradley y Lang, 1994; Fernández-Abascal et al., 2008; P. J. Lang, 2000; P. J. Lang, Greenwald, Bradley y Hamm, 1993). Como continuación del proceso, evidentemente, se procede a la compresión final del sonido percibido dotándole de contenido semántico.

Por otro lado, se puede comprobar cómo los sonidos simples producen poca alteración de la corteza mientras que los más complejos como las palabras o la música producen mecanismos de comprensión y aferencias con el hipocampo, integrado plenamente en los mecanismos de memoria, de ahí la discriminación de las palabras y, fundamentalmente, de las estructuras prosódicas del mensaje: volumen, ritmo, entonación y pausas (Llacuna, 2009).

De manera holística, el individuo procesa no sólo las percepciones fonéticas, sino que las integra también con las que llegan por otros cauces perceptivos, concretamente en los aspectos emocionales del habla, se integra a lo dicho, los aspectos visuales tanto del emisor como del entorno en el que se emite el mensaje, es decir, los aspectos no verbales (Poyatos, 1994), aunque, en caso de incongruencia entre los aspectos no verbales y prosódicos del mensaje, estos últimos primarán a la hora de establecer el sentido emocional (Pell, 2005).

La alteración de aspectos prosódicos o la no adecuación de la prosodia al mensaje concreto que se desea transmitir determinarían una comprensión poco coherente y, en consecuencia, una respuesta conductual diferente de la que se pretende en el receptor.

El camino fisiológico de la percepción de la palabra hablada resulta interesante porque, en un momento dado, dicho camino se entrecruza con las aferencias que provienen del tálamo hacia la amígdala, y se produce una vía rápida de información en el sistema límbico que procesa los aspectos emocionales de la percepción (LeDoux, 1996), afectando, por tanto, a las tres dimensiones de las emociones mencionadas anteriormente, pero muy especialmente a la valencia afectiva, interpretándose antes de decodificar semánticamente el mensaje el afecto positivo o negativo de la emoción que transporta implícitamente el mensaje.

De esta manera, se puede decir que el cerebro condiciona la capacidad de respuesta de manera previa a la interpretación del mensaje en función de los parámetros prosódicos que afectan a la carga emocional de éste, como son el ritmo, la melodía, la entonación, las pausas, la intensidad o el acento (Llacuna, 2009). Este hecho puede ser interpretado en un contexto evolucionista en términos de supervivencia, ya que, mediante la modulación de los diferentes elementos prosódicos, inferimos actitudes e intenciones del emisor del mensaje (Ortiz-Siordia, Álvarez-Amador y González-Piña, 2008).

En cuanto al efecto de la lateralidad cerebral en el reconocimiento de la prosodia emocional, puede parecer a priori que es un hecho demostrado que el procesamiento lingüístico es procesado en el hemisferio izquierdo y que el procesamiento de la prosodia emocional se realiza en el hemisferio derecho (McNeely y Netley, 1998). Existen estudios como el de Thompson, Malloy y LeBlanc (2009) que concluyen que incluso la atención del receptor del mensaje se centra en laterales diferentes del rostro del emisor cuando el mensaje tiene carga emocional negativa.

Sin embargo, se puede comprobar cómo otros autores presentan estudios que ponen en tela de juicio la unilateralidad respecto a la prosodia emocional, concluyendo que ésta provoca procesos bilaterales (Pihan, Tabert, Assuras y Borod, 2008).

De cara a arrojar algo de luz a este asunto, se revisan a continuación diferentes estudios realizados en este sentido. Para ello se debe comenzar estableciendo las diferentes etapas a nivel neurológico que pueden distinguirse en el reconocimiento de la prosodia. Se pueden observar tres etapas sucesivas y sincrónicas (Wildgruber, Ackermann, Klose, Kardatzki y Grodd, 1996):

—Obtención de la información suprasegmental acústica en las áreas acústicas primarias y secundarias del lóbulo temporal derecho.

—Representación de secuencias acústicas en el surco temporal posterosuperior derecho.

—Evaluación de la prosodia emocional en la corteza bilateral frontal inferior.

El proceso implícito de la elaboración del discurso a través de una entonación afectiva parece estar limitado a la región subcortical, que, a su vez, media la inducción automática de reacciones emocionales específicas. Los aspectos lingüísticos del discurso prosódico están ligados a las áreas del hemisferio izquierdo, mientras que la corteza orbitofrontal bilateral se ha implicado en la evaluación explícita de la prosodia emocional (Wildgruber, Ackermann, Kreifelts y Ethofer, 2006).

En sus estudios, Wildgruber (2006) concluye que durante la primera etapa del reconocimiento y percepción de la emoción el tono se caracteriza por la modulación de la intensidad, la variación de la frecuencia fundamental, el ritmo del discurso y la calidad o el timbre a través de elocuciones, características suprasegmentales que se imponen ante la secuencia de los sonidos del habla y sus elocuciones verbales.

El autor establece una hipótesis acústica de la lateralización según la cual la codificación de los parámetros suprasegmentales en el discurso está limitada predominantemente a las estructuras del hemisferio derecho, mientras que las transiciones rápidas se procesan dentro de áreas contralaterales. Estos efectos acústicos de lateralidad pueden explicar los patrones hemisféricos diferenciados del dominio del lenguaje, que incluyen la comprensión del significado (hemisferio izquierdo) y del proceso acústico que se refiere a la melodía del discurso (hemisferio derecho).

Se puede encontrar concordancia entre este planteamiento y el realizado por Ross y Monnot (1981; 2008), quienes sugieren que este primer nivel de reconocimiento de la emoción y la afectividad que se imprime al discurso se activa predominantemente en la corteza temporal media del hemisferio derecho.

La representación de las secuencias acústicas (segunda etapa) muestra una activación importante del lado homólogo derecho, en el surco temporal superior correspondiente al área de Wernicke, tal y como mencionamos anteriormente. Es aquí donde se realiza el procesamiento de estas secuencias que permiten la comprensión del habla melódica y la activación de la corteza frontal inferior en el hemisferio derecho, que hace posible reconocer la ejecución en la prosodia emocional (Ross, 1981).

Será en la tercera etapa donde se emitirá el juicio de la prosodia emocional. Algunos estudios confirman que existe una participación del hemisferio izquierdo mediante la activación de las áreas homólogas del hemisferio derecho correspondientes al lenguaje (Borod et al., 1998; Heilman, Bowers, Speedie y Coslett, 1984).

En los estudios de Wildgruber (2006) se concluye que la comprensión de los aspectos lingüísticos del habla melódica activan las áreas perisilvianas del hemisferio izquierdo. Por el contrario, la evaluación y juicio de señales emocionales en el discurso activan de forma bilateral la corteza orbitofrontal.

Pese a lo revisado hasta el momento, se puede comprobar cómo existen estudios en los cuales se analiza el hecho de que en una gran variedad de especies animales los daños bilaterales en la amígdala pueden afectar a las reacciones emocionales (Adolphs y Tranel, 1999). El autor comprueba cómo este tipo de daño en el ser humano altera el reconocimiento visual de las emociones a través de expresiones faciales y analiza el reconocimiento de la prosodia emocional en diferentes sujetos con daños unilaterales y bilaterales en la amígdala. Los resultados arrojaron que los daños bilaterales que se limitaban exclusivamente a la amígdala no afectaban al reconocimiento de la prosodia emocional, ocurriendo un déficit de reconocimiento sólo cuando los daños se extendían también a la estructura extra-amigdalar, especialmente en el hemisferio derecho y no en un número elevado de los casos. Por ello, el autor concluye que el papel de la amígdala humana en el reconocimiento de la emoción en la prosodia puede no ser tan crítico como lo es para las expresiones faciales. Este estudio contribuye a la constatación de la importancia de la amígdala en el reconocimiento de las emociones. La amígdala es una estructura fundamental en el procesamiento de la emoción, particularmente en la respuesta a estímulos de contenido negativo (Sánchez-Navarro y Román, 2004). Buen ejemplo de ello son los estudios que apuntan a la importancia de la amígdala en el reconocimiento prosódico emocional atribuyéndole una suma importancia, por ejemplo, en el reconocimiento del llanto de un hijo (Swain, Lorberbaum, Kose y Strathearn, 2007). Según los estudios realizados por el autor, las madres primerizas, en las semanas posteriores al parto, presentan una activación media cerebral de los ganglios basales, el cíngulo, la amígdala y la ínsula frente al estímulo del llanto de su hijo, que a los 3-4 meses se presenta en niveles mucho menores.

Otros autores, como Paulmann y Kotz (2008), introducen el efecto de la prosodia esperada, concluyendo que una alteración de la prosodia esperada por el receptor pone en marcha el procesamiento del hemisferio derecho, con lo cual existirían otras variables no contempladas hasta el momento que incidirían sobre el procesamiento unilateral o bilateral de la prosodia emocional.

En los inicios del siglo XXI, la investigación sobre la lateralización de la prosodia lingüística y emocional ha experimentado un renacimiento. Sin embargo, tanto las pruebas de neuroimagen como la evidencia empírica sobre individuos no establecen un marco definido en este sentido que demuestre la lateralización derecha de la prosodia lingüística y de la prosodia emocional en particular. El panorama actual respecto al procesamiento prosódico emocional en el cerebro viene a concluir que, ciertamente, existen subprocesos diferenciados en ambos hemisferios que sirven de base al tratamiento de la prosodia (van Rijn et al., 2005), y, por otro lado, que determinados factores metodológicos pueden influir en los resultados de las investigaciones a través de neuroimagen (Kotz, Meyer, y Paulmann, 2006).

En este sentido cabe destacar el estudio de la prosodia emocional en pacientes con lesiones en diferentes zonas de los hemisferios cerebrales; es algo que ha dado lugar a diversas investigaciones científicas (Breitenstein, van Lancker, Daum, Hertrich y Ackermann, 1999; Dimoska, McDonald, Pell, Tate y James, 2010; Grandjean, Sander, Lucas, Scherer y Vuilleumier, 2008; Harciarek, Heilman y Jodzio, 2006; Lalande, Braun y Whitaker, 1991; Pell, 2006) que en su mayoría concluyen, entre otros, en el resultado mencionado de la bilateralidad en el procesamiento de la prosodia emocional.

También existen diversos estudios que analizan la relación entre el reconocimiento de la prosodia emocional y diferentes enfermedades o patologías como parkinson (Breitenstein, van Lancker, Kempler, Daum y Waters, 1998; Mitchell y Boucas, 2009; Peron et al., 2010), alzheimer (Taler, Chertkow, Baum y Saumier, 2008), esquizofrenia (Pijnenborg, Withaar, van den Bosch y Brouwer, 2007; Scholten, Aleman y Kahn, 2008) y epilepsia (Cohen, Prather, Town y Hynd, 1990).

Gran importancia en el estudio de la prosodia emocional han tenido las investigaciones realizadas con niños en los cuales se ha demostrado que el contenido emocional del lenguaje es aprehendido más rápidamente que el propio significado (Bostanov y Kotchoubey, 2004). En este campo, al autor concluye que expresiones emocionales simples son reconocidas en no más de 100-150 milisegundos, mientras que otros sonidos ambientales son difícilmente reconocidos por el niño a partir de la acústica inicial. Otra investigación examina el procesamiento de la prosodia emocional por parte de bebés de 7 meses de edad (Grossmann, Striano y Friederici, 2005). Se produce un mayor reconocimiento de la prosodia emocional con valencia negativa en detrimento de los mensajes con prosodia positiva o neutra. Los resultados arrojan que, desde que somos bebés, el cerebro humano detecta palabras emocionalmente cargadas y muestra respuestas diferenciales de atención en función de su valencia emocional.

Respecto a la relación entre edad y procesamiento de la prosodia emocional, podemos mencionar que los adultos de avanzada edad, de hecho, pueden tener dificultades para deducir la emoción producida por la prosodia, y que, si bien esta dificultad puede ser incrementada por algunos aspectos del envejecimiento cognitivo, es una cualidad original del individuo (Mitchell, 2007).

Por otro lado, se puede comprobar cómo existen diversos estudios que relacionan el procesamiento de la prosodia emocional con el género, concluyendo que la emoción modula los procesos lingüísticos tanto en la generación como en la percepción. Es precisamente en la percepción donde se han comprobado diferencias significativas entre hombres y mujeres (Imaizumi, Homma, Ozawa, Maruishi y Muranaka, 2004). Existen diferencias probadas en el procesamiento de la prosodia emocional entre hombre y mujeres (Besson, Magne y Schon, 2002), y algunos de ellos apuntan a las hormonas como causa de esta diferencia (Everhart, Carpenter, Carmona, Ethridge y Demaree, 2003; Everhart, Demaree y Shipley, 2006; Jordan, Everhart y Demaree, 2004). Incluso hay estudios que concluyen una diferenciación en la lateralización del procesamiento (Johnsen, 1986).

Esta conclusión se ve avalada por estudios como el realizado por Krauss (2002), en el cual, a lo largo de dos experimentos, examinaron la capacidad de los oyentes para hacer inferencias precisas acerca de los oradores a través de los contenidos no lingüísticos de sus discursos. En el experimento 1, se seleccionaron a diversas personas que tomaron el papel de oyentes. Estas personas escucharon a un grupo de oradores masculinos y femeninos, los cuales articularon dos frases de prueba. El objetivo era tratar de seleccionar, de entre dos fotografías, cuál correspondía al orador. El resultado arrojó que un 76,5 % de las veces se seleccionó la foto correcta. En el experimento 2, los oyentes escucharon las frases de prueba, pero esta vez debían identificar la edad, la altura y el peso de los oradores. En este experimento se selecciona a otro grupo de personas a las cuales se les pide que también identifiquen la edad, la altura y el peso, pero en esta ocasión directamente a partir de sus fotografías, sin escucharles. Se procede a comprobar las diferencias entre ambos grupos al estimar edad, talla y peso a través de las fotos y a través de la voz. Las estimaciones hechas a partir de las fotos fueron más precisas que las hechas a través de la voz respecto de la edad y la talla, pero sorprendentemente la diferencia fue muy escasa respecto de las magnitudes inferidas a través de la voz. Por ejemplo, respecto a la edad, sólo hubo una diferencia media de un año en la estimación, y respecto a la altura una diferencia media de 0,5 pulgadas. Las estimaciones hechas a partir de fotos no fueron uniformemente superiores a las realizadas a través de las voces. A la luz de sus resultados, los autores sugieren que la exactitud en la inferencia de aspectos físicos a través del contenido paraverbal del discurso se debe a dos motivos. En primer lugar, las fuentes anatómicas. Diferentes edades, pesos y tallas pueden producir diferencias en los sonidos emitidos. Uno de los casos más evidentes es la diferencia entre hombres y mujeres. Los hombres tienden a ser más grandes y más musculosos que las mujeres, y esto tiene consecuencias en el grosor de sus cuerdas vocales y la arquitectura de sus tractos vocales, que a su vez afectan al tono y al timbre de sus voces. En segundo lugar, las fuentes culturales. La forma en la que las personas aprenden a usar sus voces depende de su entorno cultural. Los oradores podrían haber sido identificados como hombres o mujeres al hablar de una manera estereotipadamente masculina o femenina. Los hombres tienden a hablar en franjas bajas de tonos de voz y las mujeres en franjas medias y altas. Sin embargo, aunque es posible que culturalmente se definan normas de vocalización entre géneros, la idea de que existen normas de vocalización relacionadas con la altura o el peso es considerablemente menos plausible. En cualquier caso, los autores aceptan que no pudieron especificar con certeza las propiedades acústicas de las voces que hicieron posible que, a través de la voz, se realizarán esas inferencias tan exactas sobre género, edad, peso y talla. En cualquier caso, no conocerlas no resta rigor al hecho de demostrar que a través de la voz se pueden reconocer determinadas características de la persona con la misma certeza que mirando una fotografía.

Otro estudio de interés es el de la correlación positiva entre inteligencia emocional y capacidad para reconocer la prosodia emocional (Trimmer y Cuddy, 2008), de cara a establecer la importancia de desarrollar la inteligencia emocional desde temprana edad y que puede avalar la teoría anterior, ya que tradicionalmente se la ha atribuido una mayor inteligencia emocional al sexo femenino, hecho que podría afectar al mejor reconocimiento de la prosodia emocional.

Patrones vocales asociados a las emociones

Una de las conclusiones más perseguidas por la investigación de la prosodia emocional es la relación existente entre emociones concretas y determinados parámetros vocales, de manera que se pudiese comparar el mensaje verbal con dichos parámetros con el objeto de detectar incongruencias entre ambos canales.

En este sentido, los resultados existentes hasta la fecha no son concluyentes. Parece ser que no existe un patrón claro si nos referimos a una clasificación categorial de las emociones, es decir, un patrón claro, definido y diferenciado para las emociones básicas: tristeza, alegría, miedo, ira, sorpresa y asco. Parece ser que los patrones de patrones melódicos sólo serían útiles para arrojar información sobre los valores dimensionales de la emoción: valencia, activación y control (Garrido Almiñana, 2011). Según apunta el autor: «Las diferencias principales en el patrón melódico se localizan en el uso de determinados tonemas circunflejos, que alternan su uso con los tonemas descendentes y ascendentes propios del habla enunciativa neutra. Estos tonemas circunflejos parecen ser una marca genérica de emotividad, más que una marca específica de una determinada emoción... Con todo, sí pueden apreciarse ciertas diferencias en su uso entre las distintas emociones. Hay algunas, como la sorpresa, la alegría o el miedo, en las que este tipo de patrones parece utilizarse con más frecuencia que en el resto, y otra (la tristeza) en la que son muy poco frecuentes; al igual que en los parámetros globales, la tristeza, nuevamente, se comporta de una manera distinta al resto de emociones analizadas. Los datos obtenidos en este estudio muestran, además, una cierta correlación entre el comportamiento de los parámetros globales y los locales: la alegría, la sorpresa y el miedo son las emociones que presentan los valores más elevados de altura y rango tonales, a la vez que una mayor aparición de patrones circunflejos; a la inversa, la tristeza presenta los valores más bajos en rango y altura. Este comportamiento global podría relacionarse a su vez con el grado de activación de las distintas emociones analizadas (Whissel, 1989; Schröder et al., 2001): a mayor activación (mayor disposición a actuar de la persona que la siente), mayor rango y altura tonales, y uso más frecuente de los tonemas circunflejos, y viceversa. Así, alegría, sorpresa y miedo, emociones con un grado de activación alto, presentan también valores altos de rango y altura tonales, y un uso frecuente de tonemas circunflejos; la tristeza, en cambio, con un grado de activación bastante bajo, se manifiesta con valores semejantes o incluso inferiores al neutro en la altura tonal, y utiliza de forma mayoritaria tonemas ascendentes y descendentes, de forma semejante a lo que ocurre en el habla neutra».

Si bien parecen no existir patrones perfectamente definidos para cada emoción, diversos autores sí han concluido que existen determinadas características acústicas relacionadas con las emociones básicas. En la tabla 5.3 vemos la traducción que Iriondo Sanz (2008) realizó de las propuestas de Murray y Arnott (2008). Se comprueba cómo se pueden atribuir cualidades diferenciadas a cinco de las emociones básicas en las características de velocidad, cualidad y articulación de la voz y de promedio, rango y cambios en la frecuencia fundamental.

TABLA 5.3

Efectos de la emoción sobre el habla. Extraído de (Iriondo Sanz, 2008)

Emoción	Miedo	Alegría	Tristeza	Enfado	Asco
Caract. acústica	Miedo	Alegría	Tristeza	Enfado	Asco
Velocidad del habla	Ligeramente más rápida	Más rápida o más lenta	Ligeramente más lenta	Mucho más rápida	Mucho más lenta
Promedio F0	Mucho más alto	Mas alto	Ligeramente más bajo	Mucho más alto	Mucho más bajo
Rango F0	Más amplio	Más amplio	Ligeramente estrecho	Más amplio	Ligeramente amplio
Cualidad de la voz	Jadeante	Estrepitosa	Resonante	Sonoridad irregular	Ruidosa
Cambios F0	Abruptos en sílabas tónicas	Suaves inflexiones ascendentes	Inflexiones descendentes	Normal	Amplio, inflexiones descendentes finales
Articulación	Tensa	Normal	Arrastrada	Precisa	Normal

TABLA 5.4

Características prosódicas de las emociones y las declarativas neutras en el español merideño. Tomado de página 69 (H. Martínez y Rojas, 2011)

Emoción	F0	Int (db)	Duración total	Duración silábica	Velocidad del habla
Rabia	240,32	77,51	1,42	0,21656	Lenta
Alegría	202,83	74,81	1,08	0,16548	Rápida
Tristeza	183,77	61,68	1,17	0,17579	Normal
Neutro	176,84	71,77	1,12	0,17149	Normal

Por su parte, H. Martínez y Rojas (2011) analizaron sistemáticamente los correlatos acústicos asociados a emociones actuadas de alegría, tristeza y rabia a través del Praat y utilizando un espectrograma de banda ancha. Desarrollaron como recurso objetivo el cálculo de aspectos como la intensidad, la frecuencia fundamental, la duración promedio de cada una de los enunciados, la de cada una de las sílabas y la velocidad del habla. Así, se logró determinar las características prosódicas de las emociones y las declarativas neutras en el español merideño (dialecto utilizado en una zona de Venezuela).

Otros patrones que se han observado se producen, por ejemplo, ante el desencadenamiento de la emoción de miedo. Es la tendencia a emitir gritos de alta frecuencia y la elevación del tono de voz, produciéndose una gran variabilidad de éste (Kappas, Hess y Scherer, 1991; Scherer, 1986). La expresión vocal de la ira se caracterizará por una mayor intensidad de la voz y una mayor frecuencia de la expresión vocal (Fernández-Abascal et al., 2008).

4. RECURSOS CIENTÍFICOS (CORPUS) PARA EVALUAR EL RECONOCIMIENTO DE LA PROSODIA EMOCIONAL

Para el análisis de la prosodia emocional ha sido fundamental el desarrollo de un conjunto de bases de datos que permitiesen realizar esta tarea de manera adecuada en un entorno de laboratorio. Durante los últimos años han aparecido diferentes bases de datos (denominadas corpus en terminología lingüística) de las cuales destacaremos a continuación las consideradas de mayor interés. Se ha considerado de máximo interés para el lector, ya que muchas de ellas están disponibles en abierto y de manera gratuita si se utilizan para investigación.

Antes de pasar a enumerar los diferentes corpus debemos realizar una breve clasificación de los mismos en función del tipo de estímulos que toman como base. De esta manera tendremos bases de datos de los siguientes tipos:

a)Expresión vocal natural. Son locuciones espontáneas y tomadas de un entorno natural, por ejemplo, de programas de radio o televisión (Scherer, 2003):

—The Reading/Leeds Emotional Speech Corpus (Arnfield, Roach, Setter, Greasley y Horton, 1995).

—The Belfast Naturalistic Emotion Database, descrito y analizado por Schröder (2004).

—Base de datos JST/CREST (Campbell, 2002).

—El corpus VAM (Grimm, Kroschel y Narayanan, 2008).

—El corpus SEMAINE (McKeown, Valstar, Cowie y Pantic, 2010).

—El corpus WSJ1 (CSR-II(WSJ1), 1994.

b)Expresión vocal inducida. Son locuciones en las que se altera el estado emocional del locutor para que refleje una determinada emoción. Algunos corpus de esta categoría son:

—El desarrollado por Bachorowski y Owren (1995).

—El desarrollado por Fernandez y Picard (2003).

—El denominado FAU Aibo, elaborado por Steidl (2009).

—El denominado EmoTaboo (Zara, Maffiolo, Martin y Devillers, 2007).

c)Expresión vocal actuada. Locuciones consistentes en grabaciones de actores con un guión preestablecido. Se ajustan completamente a los requerimientos del investigador. Algunos ejemplos son:

—El denominado Talkapillar, elaborado por Beller y Marty (2006).

—La Berlin Database of Emotional Speech (Burkhardt, Paeschke, Rolfes y Sendlmeier, 2005).

—La base de datos desarrollada por Liberman, Davis, Grossman, Martey y Bell (2002).

—La GEFAV, elaborada por Ferdenzi et al. (2014).

—El MAV (Montreal Affective Voices), desarrollado por Belin, Fillion-Bilodeau y Gosselin (2008).

d)Expresión vocal estimulada. Es un sistema intermedio entre el actuado y los espontáneos. Ejemplos de esta categoría son:

—La Belfast Structured Emotion Database (Douglas-Cowie et al., 2005).

—El corpus BDP-UAB (Iriondo et al., 2009).

Otras bases de datos que incorporan estímulos acústicos pueden ser:

a)IADS. Una de las investigaciones que mayores avances ha propiciado en el ámbito de la prosodia emocional ha sido la elaborada por Bradley y Lang (1994, 1999). El IADS, o sistema «International Affective Digitized Sound», proporciona un conjunto de estímulos emocionales acústicos de utilidad para las investigaciones experimentales sobre atención y emoción. El IADS es un conjunto estandarizado de 110 sonidos digitalizados que son fiables y válidos para el estudio experimental de los procesos emocionales. Los resultados muestran una distribución de los sonidos, dentro del espacio bidimensional definido por la valencia y la excitación. En su adaptación al contexto español no se encontraron diferencias significativas con el análisis inicial elaborado por Bradley y Lang (Fernández-Abascal et al., 2008).