La fonética auditiva se ocupa del estudio de dos procesos que realiza el receptor: la audición y la percepción de la onda sonora. La onda sonora, producida por el emisor, se propaga a través de las moléculas de aire hasta llegar al oído del receptor. La audición comienza en el oído del receptor, donde el oído amplifica y analiza la onda sonora y la convierte en impulsos nerviosos que a su vez se transmiten al cerebro. La percepción ocurre en el cerebro con la interpretación lingüística de los impulsos nerviosos a él transmitidos, lo cual es el comienzo del proceso de descodificación.
La audición, cuyo órgano principal es el oído, resulta ser el más complejo de los cinco sentidos del ser humano debido al número de componentes fisiológicos del oído mismo y al número de transformaciones físicas que sufre la energía acústica recibida. El oído se divide inicialmente en tres partes: el oído externo, el oído medio y el oído interno. El proceso auditivo concluye con el componente del sistema nervioso auditivo que transmite la información recogida por el oído al cerebro. La Fig. 7.1 indica la ubicación de esas tres partes del oído.
Las partes principales del oído externo son la oreja (también llamado el lóbulo o pabellón de la oreja) y el canal auditivo externo, como se ve en la Fig. 7.2. La oreja misma sirve como una antena para capturar la onda sonora. Su diseño favorece la recepción de sonidos producidos delante del receptor. El trago, la pequeña prominencia saliente a la entrada del canal auditivo externo, sirve de protección para el oído.
El canal auditivo externo en sí es un tubo de aire con una extensión de entre 2,5 cm. y 3,5 cm. y un diámetro de aproximadamente 0,7 cm., por el que pasa la onda sonora. El tubo, abierto en el extremo exterior, está cerrado en su extremo interior por la membrana timpánica. Esa conformación permite que se amplifique un poco la amplitud de la onda sonora, sobre todo en las frecuencias más altas. El canal está forrado de pelitos y de cerilla que protegen el oído de objetos forasteros.
El oído medio es más complicado y tiene más componentes que el oído externo. Se compone principalmente de la membrana timpánica y de los llamados huesecillos, que se ven en la Fig. 7.3. Al llegar al final del canal auditivo exterior, la onda sonora transfiere sus patrones de vibración a la membrana timpánica, una membrana ovalada de tejido fibroso extremadamente sensible a las vibraciones del aire. Las frecuencias bajas hacen vibrar toda la extensión de la membrana, mientras que las frecuencias más altas hacen vibrar distintas regiones de la membrana.
De la membrana timpánica, la energía se transfiere a una cadena osicular formada por los tres huesos más pequeños del cuerpo: el martillo (malleus), el yunque (incus) y el estribo (stapes). Específicamente, la super-ficie interior de la membrana timpánica se conecta al mango del martillo que recibe la energía vibratoria. Con eso, la transmisión de energía cambia de un sistema acústico a un sistema mecánico. El mango del martillo funciona como una palanca que amplifica la energía transmitida a la cabeza del martillo. La cabeza del martillo encadena con el cuerpo del yunque que sirve de fulcro entre el martillo y el estribo, amplificando de nuevo la energía transmitida. El proceso inferior del yunque enlaza con el estribo, pasándole su energía. El estribo, el último elemento de la cadena osicular, contiene dos procesos cilíndricos que terminan en un asiento que se encaja en la ventana oval, que es el comienzo del oído interno.
El estribo sufre dos tipos de movimiento. En primer lugar, actúa como un pistón, pasándole en dirección horizontal la energía sonora a la ventana oval. En segundo lugar, puede sufrir un movimiento perpendicular, el llamado reflejo auditivo, cuando el oído medio siente un sonido de volumen muy alto. Ese reflejo tiene como motivo el proteger el oído interno de sonidos de volumen tan alto que podrían dañar su frágil mecanismo.
La cadena osicular se asienta en una cámara de aire, pero el aire no interviene en la transmisión de energía. El aire ambiental de la cámara del oído medio proviene de la trompa de Eustaquio, que conecta con la faringe nasal. Ese aire es necesario para que funcione la membrana timpánica, que no puede responder adecuadamente a la onda sonora acústica en el canal auditivo externo sin que haya un equilibrio de presión de aire por los dos lados de la membrana timpánica. La transmisión de la energía sonora a través del sistema mecánico de los huesos permite que la energía se amplifique para que la presión de energía sonora contra la ventana oval sea de treinta a cuarenta veces mayor que la presión contra la membrana timpánica.
El sistema auditivo del oído interno empieza donde el estribo conecta con la ventana oval que da entrada a la cóclea, el órgano principal del oído interno. Como se ve en la Fig. 7.4, el oído interno también contiene tres canales semicirculares, llenos de líquido, que se responsabilizan por el sentido de equilibrio y de posicionamiento corporal. Esas estructuras, junto con la cóclea, se conocen como el laberinto membranoso.
La cóclea es de forma fija y se encaja en el hueso más denso del cuerpo humano. La cóclea en sí tiene forma de caracol de dos vueltas y tres cuartos. Dentro de la cóclea hay tres canales, dos de ellos (uno superior y otro inferior) transmiten la energía sonora y el tercero (en el medio de los otros dos) convierte la energía en impulsos nerviosos. La ventana oval se conecta al canal superior, llamado la scala vestibuli. Cuando el estribo empuja contra la ventana oval, el estribo funciona como pistón, creando una ondulación en el líquido perilinfático del canal vestibular. Como se ve en la Fig. 7.5, la ondulación viaja a lo largo de la escala vestibular y pasa por el helicotrema, que queda al extremo de la cóclea, y la energía entra en el canal inferior o scala tympani. La ondulación sigue por la escala timpánica hasta llegar a la ventana redonda, que se distiende hacia el oído medio en compensación del movimiento de la ventana oval.
La ondulación del líquido en las escalas vestibular y timpánica causa un movimiento de una membrana que divide la escala timpánica del canal medio. El canal medio se llama la scala media o canal coclear. Ese canal, por su parte lleno de líquido endolinfático, contiene el llamado órgano de Corti o el órgano de audición, como se ve en la Fig. 7.6. La membrana inferior que divide la escala timpánica de la escala media se llama la membrana basilar. La membrana basilar está forrada en su superficie superior de fibras ciliadas, que son pelitos muy finos en patrones organizados. La membrana basilar varía en su grosor a lo largo de su extensión por la cóclea. Debido a la graduación de su grosor, la membrana basilar responde a frecuencias acústicas distintas. Cuando la membrana se distiende hacia arriba en la región que corresponde a determinada frecuencia, las fibras ciliadas se levantan y entran en contacto con el techo o membrana tectoria. Cuando las fibras ciliadas entran en contacto con la membrana tectoria, se excitan los sensores neurales que registran la existencia de energía sonora en su determinada frecuencia. El mecanismo auditivo del ser humano es tan preciso que responde a ocho frecuencias entre dos semitonos musicales, o sea puede precisar ocho niveles distintos entre dos notas consecutivas del piano.
Al transmitirse la onda compuesta por el líquido perilinfático de la cóclea, se registran las distintas frecuencias desde las bajas hasta las altas a lo largo de las vueltas de la cóclea. La Fig. 7.7 indica el lugar relativo de la percepción de las frecuencias reconocidas por el oído humano desde 20 cps hasta 20.000 cps.
Los sensores neurales se excitan al reconocer la presencia de energía acústica en la frecuencia que les corresponde. Los nervios que provienen de cada una de estas posiciones se combinan hasta unirse todos en el nervio auditivo, o el octavo nervio craneal. En el sistema auditivo humano hay como 30.000 fibras en cada uno de los dos nervios auditivos.
El nervio auditivo, como se ve en la Fig. 7.5, sale de la cóclea y pasa por un hueco (el meato del canal auditivo) en el hueso temporal a la médula oblongada. En esta región a donde llegan los dos nervios auditivos se comparan las señales de los dos para localizar la fuente del sonido producido. Los nervios aquí se entrecruzan; el nervio auditivo izquierdo pasa por el cerebro medio y sigue al lóbulo temporal derecho mientras el nervio auditivo derecho pasa por el cerebro medio y sigue al lóbulo temporal izquierdo, como se ve en la Fig. 7.8. De esa forma toda la información sobre las frecuencias y amplitudes percibidas a través del tiempo por la cóclea se transmite a la región del lóbulo temporal que se denomina la corteza auditiva central como se ve en la Fig. 7.9. Una vez comunicada esa información a la corteza auditiva, la información pasa a la región del cerebro denominada el área de Wernicke o coreteza posterior del habla, donde comienza el proceso de reconocimiento e identificación de los sonidos del mensaje transmitido.
En el área de Wernicke se analizan las distintas características acústicas provenientes de las ondas sonoras compuestas que pasaron por el canal auditivo externo hasta poner en movimiento la membrana timpánica. Todas las características acústicas de esas ondas, es decir, su amplitud, su frecuencia, su timbre, su duración, en fin, toda la caracterización espectrográfica de las ondas, se transmite al cerebro.
Uno de los primeros pasos en el análisis de los datos neurales es el de desechar los sonidos ambientales. Ejemplos de esos tipos de sonidos serían el silbido de los aparatos eléctricos, el zumbido de abanicos o el estrépito del tráfico. También puede incluir el habla de terceros que no son el enfoque de la atención del oyente. Una vez descartada esa información, el cerebro comienza el proceso de separación e identificación de los sonidos/impulsos individuales.
La categorización de los sonidos contiene tres procesos: la segmentación, la identificación y la sistematización. La segmentación tiene que ver con la separación de la cadena fónica/acústica/neural continua en unidades discretas. Es el mismo fenómeno comentado con referencia a la fonética articulatoria en la sección que presenta el concepto del segmento en el Capítulo 3 sobre “La fonética y la fonología”. Se examinaron los problemas de ese mismo proceso de segmentación en el análisis del espectrograma en el Capítulo 6 sobre “La fonética acústica”. La identificación es el proceso por el cual el receptor toma un sinfín de posibles realizaciones físicas y las reduce a un número finito de sonidos. La sistematización reduce ese número de sonidos aun más al relacionar cada uno con su imagen mental o fonema.
La categorización de los sonidos comienza con la separación de la onda sonora en segmentos. El problema principal del proceso es cómo dividir una onda fluida y continua no segmental en segmentos. Esa situación problemática origina en los propios movimientos articulatorios que produjeron la onda. Puesto que la onda sonora se produce mediante una serie de distintos movimientos articulatorios fluidos de varios órganos fisiológicos, existen zonas de transición entre los sonidos.
Cada sonido se reconoce principalmente por su fase tensiva; sin embargo, la onda sonora producida contiene la intensión y la distensión de cada sonido. Los encuentros entre la distensión de un sonido y la intensión del sonido siguiente crean zonas de transición. Esas zonas de transición a veces son también importantes en la identificación de los distintos segmentos, sobre todo con las oclusivas, como se vio en el Capítulo 6. A pesar de las complicaciones encontradas en las transiciones, el receptor sí es capaz de segmentar la información neuro-acústica recibida.
Una vez segmentada la onda sonora, el receptor necesita identificar el “sonido” relacionado con cada segmento. El problema de esa identificación se puede resumir de esta forma. Dada la producción de cien sonidos [f] o de cien sonidos [a], en términos articulatorios y, como consecuencia, en términos acústicos, cada [f] será un poco diferente como también cada [a] lo será. Por su gran semejanza entre sí, sin embargo, el cerebro clasificará todos como simplemente [f] o [a], a pesar de las diferencias físicas que pueda haber.
El hecho de que el receptor clasifique como un solo sonido toda una gama de realizaciones físicas implica que el cerebro usa varios indicios o límites acústico-neurales distintivos en la identificación del sonido. En ese proceso, se realiza en el área de Wernicke un análisis neurológico análogo al análisis espectrográfico estudiado en el Capítulo 6 sobre la fonética acústica. Cada sonido, entonces, tiene sus rasgos acústiconeurales diferenciadores.
Las vocales se identifican por la presencia de formantes fuertes. La identificación de una vocal específica depende de la ubicación de sus formantes. Conforme lo presentado en el capítulo anterior, el primer formante (F1) se correlaciona con el modo de articulación y el segundo formante (F2), con el lugar de articulación. No es que cada vocal se identifique por un valor absoluto del F1 y F2, porque los valores absolutos varían según el hablante o según el contexto fonéticofonológico de la vocal o según el humor o genio del hablante. Hasta habrá pequeñas diferencias en los formantes de la vocal [a] de /pán/ articulada varias veces por el mismo hablante. Por eso, lo que importa en la identificación de la vocal es una gama de valores para los dos formantes. El concepto de la gama relativa de valores se ejemplifica en el cuadro vocálico del Cuadro 7.10, que ubica varias articulaciones de cada vocal española. Como se puede ver, hasta puede haber traslapo de las gamas de dos vocales vecinas. En estos casos, intervienen en la identificación de la vocal otros factores: por ejemplo, el contexto en que se encuentra la vocal, la relación de la vocal con el sistema vocálico y la vocal que el receptor espera oír.
Las consonantes nasales y laterales se identifican por la presencia de formantes débiles. La identificación del modo y del lugar de articulación de esas consonantes específicas depende de la ubicación de sus formantes conforme se presentó en el capítulo anterior.
Las consonantes oclusivas se identifican por su período de silencio total en el caso de las oclusivas sordas y por una sonorización simple sin ninguna otra resonancia en el caso de las oclusivas sonoras. El lugar de articulación se identifica por las transiciones de los formantes de las vocales anteriores o posteriores a la consonante.
Las consonantes fricativas se identifican por su período de energía acústica inarmónica esparcida por una región amplia de frecuencia. Eso puede acompañarse o no de un tono fundamental. El lugar de articulación se identifica tanto por las transiciones de los formantes de las vocales anteriores o posteriores, como también por la gama e intensidad de la energía esparcida.
Las consonantes africadas se identifican por ser simplemente una combinación de una oclusiva más una fricativa.
Las vibrantes se identifican por el número de interrupciones rápidas en la cadena acústica-neural. Con una sola interrupción se reconoce una vibrante simple; con más de una, se identifica una vibrante múltiple.
El hecho de que el que aprende un segundo idioma identifique e interprete el sonido escuchado a través de su experiencia previa, hace que tienda a percibir los sonidos de un segundo idioma empleando el sistema de indicios o límites acústiconeurales distintivos de su idioma materno. En fin, piensa oír algo diferente a lo que oiría un hablante nativo de ese segundo idioma. Por ejemplo, un anglohablante al escuchar la secuencia fonética [áΒe], es capaz de identificar el sonido en el medio como [v] según los parámetros perceptivos del inglés. Debido a ese fenómeno, es imprescindible que el estudiante que aprende español como segundo idioma se dé cuenta de los nuevos sonidos y que aprenda a reconocerlos. Es necesario poder reconocerlos primero para después poder aprender a producirlos.
El tercer paso del proceso de categorización de los sonidos ocurre cuando el receptor encaja el sonido percibido en el sistema fonológico de la lengua. Es decir, identifica el fonema, o imagen mental del sonido, que el sonido físico evoca. De esa forma se completa la transferencia sonora del emisor al receptor; el receptor es capaz de identificar la misma secuencia de fonemas que tenía en mente el emisor al producir su onda sonora. Al sistematizar los segmentos percibidos, se reduce a un número menor las unidades identificadas, puesto que toda lengua contiene menos fonemas que alófonos.
Es importante notar que las asociaciones de sonidos o alófonos con sus respectivos fonemas pueden variar según la lengua examinada. Por ejemplo, tanto el anglohablante como el hispanohablante son capaces de identificar el sonido [ɾ], una vibrante simple alveolar sonora. El hispanohablante, sin embargo, lo sistematiza como el fonema /ɾ/ (por ejemplo en la palabra {para}), mientras que el anglohablante lo sistematiza como el fonema /t/ o /d/ (por ejemplo en las palabras {city} y {lady}). El estudiante que aprende español como segundo idioma tiene que aprender esas nuevas asociaciones; en fin, tiene que adquirir el nuevo sistema fonológico.
Un elemento importante de un sistema fonológico es la fonotáctica, o sea un entendimiento de las secuencias de fonemas que la lengua permite y las posiciones en que los fonemas pueden aparecer con respecto a la formación de sílabas y palabras. A veces, el receptor puede servirse del conocimiento de las reglas fonotácticas en la identificación de los sonidos. Por ejemplo, si en español, un receptor percibe un sonido fricativo en posición inicial de palabra delante de un sonido [l], sabe identificar el sonido fricativo como [f], puesto que es la única combinación posible de fonemas en este caso.
La percepción de los tres elementos suprasegmentales de acento, duración y entonación responde a la percepción de los matices de amplitud, duración y frecuencia presentes en la onda sonora inicial y en la transmisión acústica-neural resultante. Como se verá posteriormente, los indicios de cada uno son diferentes para cada lengua. Cada uno de estos aspectos se tratará individualmente en sus respectivos capítulos.
Además de los factores principales ya comentados en el proceso de la percepción, existen otros factores secundarios que mere-cen alguna discusión. Debido a que existe tanta variación en las características físicas de los órganos fonadores de los hablantes, existe también una inmensa variedad en las características de los impulsos acústiconeurales que llegan al área de Wernicke para interpretarse. Ya se mencionó el caso de la interpretación de los formantes vocálicos, en que el receptor no puede interpretar los valores absolutos de las frecuencias del F1 y F2 para la identificación de la vocal. Lo que hace, entonces, subconscientemente, es analizar toda la gama física usada por el emisor para F1 y para F2. Una vez determinada la gama, el receptor encaja cada valor reconocido en relación con la gama usada por el emisor. De esa forma el receptor es capaz de sistematizar las producciones individuales y relativas de cada emisor. Ese proceso se denomina normalización.
Otro ejemplo de normalización se puede ver en los ejemplos de la entonación. Por ejemplo, es muy posible que cuando un hombre pregunta ¿María está aquí? con tono ascendiente que aun así termine en un tono más bajo que el tono final de una mujer al declarar María está aquí con tono descendiente. Aun así, el receptor es capaz de determinar que lo que dijo el hombre fue una pregunta y que lo que dijo la mujer fue una declaración. Eso es posible porque el receptor no presta atención a los valores absolutos de la frecuencia del tono fundamental al interpretar el mensaje, sino que las normaliza o las relativiza con respecto a la gama de frecuencias fundamentales empleada por cada emisor.
En el proceso de percepción uno de los primeros pasos que realiza el receptor es el de fijar la gama empleada por el emisor de todas las características acústicas de la onda sonora. De esa forma normaliza las amplitudes, las frecuencias fundamentales, las duraciones, las frecuencias de los formantes; en fin, el receptor normaliza todos los aspectos de la onda sonora para poder interpretarlos.
Otro fenómeno adicional importante es que el receptor tiende a percibir lo que espera escuchar. Existen varias pruebas de eso. A veces en el habla, el emisor puede equivocarse y pronunciar mal una palabra o secuencia de palabras, pero aun así el receptor entiende bien lo que el emisor quería decir, a veces hasta sin darse cuenta del lapso del emisor.
El receptor a veces se aprovecha del contexto o de la situación para interpretar el impulso acústico-neural recibido. Por ejemplo, si el receptor espera recibir una llamada de su amiga Sarita, y de repente al teléfono se le dice “habla Anita”, bajo estas circunstancias el receptor es capaz de “escuchar” todavía “habla Sarita”. Relacionado con ese principio es el empleo del lenguaje no verbal en la forma de aclaraciones. Por ejemplo, si el emisor declara que quiere “tres boletos” y lo dice con los primeros tres dedos levantados, el receptor no va a equivocarse y pensar que quiere “seis boletos”.
Al examinar la percepción del habla, es interesante notar por qué el receptor se percibe a sí mismo de manera diferente a como le perciben otros. Esto se manifiesta cuando una persona se graba a sí misma: piensa ella que la grabación no representa bien su voz, mientras los demás creen que es una representación perfecta. Ese fenómeno se explica por reconocer que cuando una persona se escucha a sí misma, la onda sonora percibida por ella es una onda compuesta que viene de dos fuentes. La primera es la onda transmitida por el aire hasta los oídos; la segunda es la onda transmitida a través de los tejidos de la cabeza hasta los oídos. Ese segundo componente no hace parte de la grabación, y por eso la grabación representa lo que escuchan los demás y no lo que escucha el hablante mismo.
Otro aspecto interesante de la percepción es lo que ocurre con el teléfono. Sabido es que es más difícil entender una conversación telefónica que una conversación en vivo. La discrepancia de dificultad aumenta cuando la conversación ocurre en un segundo idioma y puede aumentar aun más dependiendo de la calidad de la transmisión acústica telefónica. Se presentan factores tecnológicos que dificultan la percepción. Como ya se ha expuesto, el ser humano es capaz de detectar una gama de frecuencias entre 20 Hz y 20.000 Hz. El teléfono, sin embargo, suele transmitir solamente una gama reducida de aproximadamente 400 Hz a 3200 Hz. Con esa reducción, no se transmite ni el tono fundamental ni tampoco el primer formante de algunas vocales, como se ve en la Fig. 7.11. Tampoco se transmite la información acústica necesaria para la identificación de las consonantes fricativas. Frente a esa reducción de información acústica, el receptor se ve forzado a adivinar qué es lo que va en los huecos. Resulta que el receptor adivina mejor la información ausente en su idioma materno que en un segundo idioma. En algunos países la gama de frecuencias transmitida se reduce aun más, dificultando aun más la tarea de la percepción. Otro problema es que puede haber ruidos o interferencias en la transmisión que complican el proceso del análisis de la onda sonora, sobre todo con los cortes que se sufren en los teléfonos celulares.
Existen varias teorías que intentan explicar exactamente cómo funciona el proceso de la percepción. Algunas se focalizan en los segmentos, otras en las transiciones entre segmentos, aun otras en los procesos que el receptor emplearía en la replicación articulatoria o acústica del sonido percibido. Existen también otras preguntas. ¿Cómo se archivan los indicios, como imágenes del significado mismo o del significante? ¿Cuál es el papel de la semántica, la sintaxis y la morfología en el proceso de la percepción? ¿Cómo se explica el hecho de que no existen siempre criterios acústico-neurales que permitan la identificación de los fonemas uno por uno? La realidad de la situación es que a pesar de las varias teorías existentes y de la cantidad de información ya recogida, no se saben todavía las respuestas a las muchas preguntas que quedan.
La fonética auditiva trata las actividades del receptor, quien recibe e interpreta la onda sonora que le llega del emisor. La primera actividad se conoce como la audición y la segunda como la percepción.
La primera actividad, la audición, es la recepción y el reconocimiento físico de los sonidos producidos. Como ya se vio, la onda sonora corre por el canal auditivo del oído externo y da contra la membrana timpánica. De ahí comienza la transmisión y amplificación de la onda sonora al pasar por el sistema mecánico osicular del oído medio. Luego la onda sonora pasa por el sistema líquido de la cóclea del oído interno; la cóclea realiza el análisis acústico de la onda que es necesario para la percepción de los sonidos. De ahí el sistema neural auditivo lleva la información acústica recogida hasta el área de Wernicke del lóbulo temporal del cerebro.
Las cuatro fases en la audición del ser humano corresponden a las distintas estructuras fisiológicas del oído y a los distintos medios empleados en su transmisión. Los componentes del sistema de audición se resumen en el Cuadro 7.12, que indica también sus estructuras fisiológicas y medios de transmisión.
La segunda actividad de la fonética auditiva es la percepción o la interpretación de la onda sonora. Una vez recibidos los indicios acústico-neurales en el área de Wernicke, el receptor comienza el proceso de categorización de los sonidos. Este proceso incluye tres etapas: la segmentación, la identificación y la sistematización. El Cuadro 7.13 resume el resultado de esas etapas de la categorización.
Como parte de ese proceso, el receptor tiene que normalizar todos los valores acústiconeurales recibidos para poder interpretarlos. El proceso de normalización se hace necesario debido a la gran variedad que existe en los órganos fonadores de los emisores con quienes el receptor puede conversar, lo que produce una gran variación en las ondas sonoras que tiene que interpretar. La normalización de las características acústicas ocurre a lo largo de todo el proceso de percepción, afectando el análisis de la amplitud, del tono fundamental, del timbre y de la duración.
El proceso descrito aquí para la percepción es un modelo simplificado que no toma en cuenta todas las complejidades que surgen en la práctica. Sin embargo, sirve muy bien como modelo para entender los procesos que tienen que ocurrir para que el receptor descodifique el mensaje. En este sentido, es como el científico que siempre habla de procesos que ocurren bajo “condiciones ideales”, que aunque no existan, le permite al estudiante un mejor entendimiento de los principios presentados.
Examinados ya los procesos por los cuales se producen, se transmiten y se interpretan las cadenas fónicas, se pasará a una presentación de las relaciones básicas de la fonología.