Cuando la lanzadera espacial Challenger explotó poco después de ser lanzada el 28 de enero de 1986, seis astronautas profesionales y una profesora de enseñanza secundaria encontraron una muerte trágica. La nación quedó destrozada, y la NASA vio quebrantada su autocomplacencia, producto de años de misiones espaciales exitosas, o, al menos, sin víctimas mortales. Se constituyó una comisión, dirigida por el secretario de Estado William P. Rogers y compuesta por políticos, astronautas, militares y un científico, para investigar la causa del accidente y recomendar medidas para impedir que sucediera de nuevo un desastre semejante. Quizá el hecho de que Richard Feynman fuera ese científico haya supuesto que la pregunta de por qué falló la Challenger no haya quedado enterrada en un eterno misterio. Feynman tenía más agallas que la mayoría de los hombres, no temía recorrer todo el país para hablar con los hombres de a pie, los ingenieros que habían reconocido que la propaganda se estaba imponiendo sobre la precaución y la seguridad en el programa de la lanzadera. Su informe, considerado como embarazoso para la NASA, estuvo a punto de ser rechazado por la Comisión, pero Feynman luchó por verlo incluido; fue relegado a un apéndice. Cuando la Comisión convocó una conferencia de prensa en directo para responder a preguntas, Feynman hizo su ahora famoso experimento casero con una de las juntas, o anillos-O, de la lanzadera y un vaso de agua helada. Probó de forma espectacular que aquellas juntas clave habían fallado debido a que unos gestores ansiosos por impresionar a sus jefes con la puntualidad de sus programas desoyeron la advertencia de los ingenieros que aconsejaban aplazar el lanzamiento. Éste es ese informe histórico.
Parece que existen opiniones muy diferentes respecto a la probabilidad de un fallo con pérdida del vehículo y de vidas humanas. Las estimaciones van desde aproximadamente un 1 por 100 hasta un 1 por 100.000. Las cifras más altas proceden de los ingenieros, y las cifras más bajas de la administración. ¿Cuáles son las causas y consecuencias de esta falta de acuerdo? Puesto que un 1 por 100.000 implicaría que se podría lanzar una lanzadera cada día durante trescientos años con la esperanza de perder tan sólo una, sería más adecuado preguntar: «¿Cuál es la causa de esta fantástica fe de la administración en la maquinaria?».
También hemos encontrado que los criterios de certificación utilizados en los informes de aptitud de vuelo tienden a ser cada vez menos estrictos. El argumento de que el mismo riesgo se corrió anteriormente sin que hubiera fallos se suele aceptar como argumento en favor de la seguridad de aceptarlo de nuevo. Por esta razón, se aceptan una y otra vez debilidades obvias, a veces sin hacer un intento suficientemente serio para remediarlas, o para retrasar un vuelo debido a su presencia continuada.
Existen varias fuentes de información. Están los criterios de certificación publicados, incluyendo una historia de las modificaciones en forma de exenciones y desviaciones. Además de esto, los registros de los informes de aptitud de vuelo para cada vuelo documentan los argumentos utilizados para aceptar los riesgos del vuelo. Se obtuvo información del testimonio directo y los informes del responsable de seguridad, Louis J. Ullian, respecto a la historia de los éxitos de los cohetes de combustible sólido. Había un estudio adicional debido a él (como presidente del comité de seguridad para el aborto de lanzamiento [LASP]) que trataba de determinar los posibles riesgos de accidentes en intentos de poner en vuelo una fuente de alimentación de plutonio (REG) para futuras misiones planetarias, que producirían contaminación radiactiva. También se dispone del estudio de la NASA sobre la misma cuestión. Para la historia de los motores principales de la lanzadera espacial se mantuvieron entrevistas con la administración y los ingenieros en Marshall, y entrevistas informales con ingenieros en Rocketdyne. También se mantuvo una entrevista informal con un ingeniero mecánico independiente (Caltech) que fue consultor de la NASA sobre motores. Se llevó a cabo una visita a Johnson para recoger información sobre la fiabilidad de la aviónica (computadores, sensores y efectores). Finalmente existe un informe, «Un examen de las prácticas de certificación potencialmente aplicables a motores de cohetes tripulados reutilizables», preparado en el Jet Propulsion Laboratory por N. Moore et al., en febrero de 1986, por encargo de la Oficina de Vuelos Espaciales en la sede central de la NASA. Trata de los métodos utilizados por la FAA[1] y el ejército para certificar sus turbinas de gas y sus motores para cohetes. También estos autores fueron entrevistados de manera informal.
Una estimación de la fiabilidad de los cohetes de combustible sólido fue realizada por el responsable de seguridad, estudiando la experiencia de todos los vuelos de cohetes anteriores. De un total de casi 2.900 vuelos, 121 fallaron (1 de cada 25). En éstos se incluyen, no obstante, los que pueden denominarse errores iniciales, cohetes lanzados en los primeros intentos y en los que se han detectado y corregido errores de diseño. Una cifra más razonable para los cohetes ya experimentados podría ser de 1 cada 50. Con un cuidado especial en la selección e inspección de las piezas, podría lograrse una cifra por debajo de 1 entre 100, aunque un 1 entre 1.000 no es probablemente alcanzable con la tecnología actual. (Puesto que hay dos cohetes en la lanzadera, estas tasas de fallo para cohetes deben multiplicarse por dos para obtener las tasas de fallo de la lanzadera a partir de las tasas de fallo de los cohetes propulsores de combustible sólido.)
Los oficiales de la NASA argumentan que la cifra es mucho más baja. Señalan que las cifras anteriores se refieren a cohetes no tripulados, pero puesto que la lanzadera es un vehículo tripulado, «la probabilidad de éxito de la misión está necesariamente muy próxima a 1,0». No está muy claro lo que quiere decir esta frase. ¿Significa que está próxima a 1 o que debería estar próxima a 1? Su argumento continúa diciendo que: «Históricamente, este grado extraordinariamente alto de éxito ha dado lugar a una diferencia entre las políticas de los programas de vuelos espaciales tripulados y los programas no tripulados; por ejemplo, uso de probabilidad numérica frente a juicio técnico». (Estas citas proceden de Space Shuttle Data for Planetary Mission RTG Safety Analysis, páginas 3-1, 3-2, 15 de febrero de 1985, NASA, JSC.) Es cierto que si la probabilidad de fallo fuera tan baja como un 1 por 100.000 se necesitaría un desmesurado número de pruebas para determinarla (pues lo único que se obtendría sería una serie de vuelos perfectos de los que no sale una cifra precisa, salvo que la probabilidad es probablemente menor que el número de tales vuelos en la serie). Pero si la probabilidad real no es tan pequeña, los vuelos manifestarían problemas, casi fallos, y posiblemente fallos reales con una estimación razonable. De hecho, en algunas ocasiones la experiencia previa de la NASA ha puesto de manifiesto precisamente estas dificultades, casi accidentes, y accidentes, todos los cuales son advertencias de que la probabilidad de fallo del vuelo no era tan pequeña. La inconsistencia del argumento para no determinar la fiabilidad a partir de la experiencia histórica, como hizo el responsable de seguridad, está en que la NASA también apela a la historia, cuando empieza diciendo: «Históricamente, este grado extraordinariamente alto de éxito de las misiones…». Finalmente, si vamos a reemplazar la utilización de la probabilidad numérica estándar por un juicio técnico, ¿por qué encontramos una disparidad tan enorme entre la estimación de la administración y el juicio de los ingenieros? Podría parecer que, con algún objetivo, ya fuera para consumo interno o externo, la administración de la NASA exagerara la fiabilidad de su producto hasta extremos fantásticos.
No se reproducirá aquí la historia de la certificación y los informes de aptitud de vuelo. (Véase otro apartado de los informes de la Comisión.) Resulta muy evidente el fenómeno de la aceptación de precintos de vuelo que han mostrado erosión y dilatación en vuelos anteriores. El vuelo del Challenger es un ejemplo excelente. Hay varias referencias a vuelos que habían tenido lugar antes. La aceptación y éxito de dichos vuelos se toma como evidencia de seguridad. Pero la erosión y la dilatación no son las que el diseño había previsto. Son advertencias de que algo está mal. El equipamiento no está funcionando como se esperaba, y por consiguiente hay un peligro de que pueda funcionar con desviaciones incluso mayores de forma inesperada y no completamente entendida. El hecho de que este peligro no condujera a una catástrofe antes no es garantía de que no vaya a hacerlo la próxima vez, a menos que se haya alcanzado una completa comprensión del mismo. Cuando se juega a la ruleta rusa, el hecho de que el primer disparo no haya producido daños sirve de poco consuelo para el siguiente. El origen y las consecuencias de la erosión y la dilatación no se entendían. No ocurrieron de la misma forma en todos los vuelos y todas las juntas; a veces eran mayores y a veces eran menores. ¿Por qué no iban a conducir alguna vez a una catástrofe, cuando se dieran ciertas condiciones determinadas?
Pese a estas variantes de un caso a otro, los oficiales se comportaban como si lo entendieran, dándose argumentos aparentemente lógicos unos a otros que con frecuencia se basaban en el «éxito» de vuelos previos. Por ejemplo, para determinar si el lanzamiento del vuelo 51-L[2] era seguro pese a la erosión del anillo en el vuelo 51-C, se hizo notar que la profundidad de erosión era sólo de un tercio del radio. En experimentos realizados haciendo cortes en el anillo se había advertido que era necesario un corte con una profundidad de un radio antes de que el anillo fallara. En lugar de preocuparse por la razonable posibilidad de que las variaciones de estas condiciones mal comprendidas pudieran crear esta vez una erosión más profunda, se afirmó que había «un factor de seguridad de tres». Éste es un uso extraño del término «factor de seguridad» del ingeniero. Cuando se construye un puente para soportar una cierta carga sin que las vigas se rompan, agrieten o se deformen permanentemente, debe diseñarse de modo que los materiales utilizados soporten realmente tres veces esta carga. Este «factor de seguridad» admite excesos imprevistos de carga, o cargas extra desconocidas, o una debilidad en los materiales que podrían tener fallos inesperados, etc. Si en estas condiciones se somete el nuevo puente a la carga esperada y aparece una grieta en una viga, esto indica un fallo del diseño. No había factor de seguridad en absoluto; incluso aunque el puente no se venga abajo realmente porque la grieta sólo ha llegado a un tercio del grosor de la viga. Los anillos-O de los cohetes propulsores de combustible sólido no estaban diseñados para desgastarse. La erosión era una clave de que algo iba mal La erosión no era algo a partir de lo cual pudiera inferirse la seguridad.
Sin una comprensión completa, no se podía confiar en que las condiciones del vuelo siguiente no fueran a producir una erosión tres veces más grave que en la ocasión anterior. En cualquier caso, los oficiales se engañaron al pensar que tenían esta comprensión y confianza, pese a las variaciones peculiares de un caso a otro. Se hizo un modelo matemático para calcular la erosión. Era un modelo que no se basaba en los conocimientos físicos, sino en un ajuste a una curva empírica. Más concretamente, se suponía que un chorro de gas caliente incidía sobre el material del anillo-O, y se determinaba la temperatura en el punto de remanso (hasta aquí, con leyes termodinámicas y físicas razonables). Pero para determinar cuánto caucho se erosionaba se suponía que esto dependía sólo de dicha temperatura a través de una fórmula sugerida por datos tomados de un material similar. Una representación logarítmica sugería una línea recta, de modo que se supuso que la erosión variaba como la potencia 0,58 de la temperatura, siendo determinado este 0,58 por ajuste. En cualquier caso, ajustando algunos otros números, se determinó que el modelo daba cuenta de la erosión (hasta una profundidad de un tercio del radio del anillo). ¡No hay nada más erróneo aquí que creerse la respuesta! En todos los lugares aparecen incertidumbres. La intensidad del chorro de gas era impredecible, pues dependía de agujeros formados en la masa. La dilatación mostraba que el anillo podría fallar incluso si no se erosionaba completamente, sino sólo parcialmente. Se sabía que la fórmula empírica era imprecisa, pues no pasaba directamente por los mismos puntos que sirvieron para determinarla. Había una nube de puntos bastante por encima, y otra bastante por debajo de la curva ajustada, de modo que era razonable predecir erosiones importantes por esta sola razón. Incertidumbres similares afectaban a las otras constantes que aparecían en la fórmula, etc., etc. Cuando se usa un modelo matemático, debe prestarse una cuidadosa atención a las incertidumbres del modelo.
Durante el vuelo 51-L los tres motores principales de la lanzadera espacial funcionaron perfectamente, incluso si, en el último momento, empezaron a apagarse los motores cuando el suministro de combustible empezó a fallar. Sin embargo, surge la pregunta acerca de si, de haber fallado y haber investigado con tanto detalle como lo hicimos con el cohete propulsor de combustible sólido, habríamos encontrado una similar falta de atención a los fallos y una fiabilidad en entredicho. En otras palabras, los fallos de organización que contribuyeron al accidente ¿se limitaban al sector del cohete propulsor de combustible sólido o eran una característica más general de la NASA? Con ese fin se investigaron los motores principales de la lanzadera espacial y la aviónica. No se hizo ningún estudio similar del vehículo orbital ni del tanque externo.
El motor es una estructura mucho más complicada que el cohete propulsor de combustible sólido, y en él interviene una ingeniería mucho más detallada. En general, la ingeniería parece ser de alta calidad y aparentemente se presta una considerable atención a las deficiencias y los defectos encontrados en el funcionamiento.
La manera usual de diseñar tales motores (para aviones militares o civiles) puede denominarse el sistema de componentes, o diseño de abajo arriba. En primer lugar, es necesario entender completamente las propiedades y limitaciones de los materiales que se van a utilizar (para aletas de turbina, por ejemplo), y se han iniciado test en bancos experimentales para determinarlos. Con este conocimiento se diseñan y ponen a prueba por separado piezas componentes mayores (tales como engranajes). A medida que se advierten deficiencias y errores de diseño, éstos son corregidos y verificados con pruebas adicionales. Puesto que sólo se prueban piezas de una en una, estas pruebas y modificaciones no son muy caras. Finalmente se construye el diseño final y el motor completo, con las especificaciones necesarias. Para entonces, hay una buena probabilidad de que la máquina tenga éxito en general, o que cualquier posible fallo sea fácilmente aislado y analizado porque los modos de fallo, limitaciones de materiales, etc., se entienden muy bien. Hay una buena probabilidad de que las modificaciones para que el motor supere las últimas dificultades no sean muy difíciles de hacer, pues la mayor parte de los problemas graves ya han sido descubiertos y tratados antes en las primeras y menos caras etapas del proceso.
El motor principal de la lanzadera fue tratado de una forma diferente: de arriba abajo, podríamos decir. El motor fue diseñado y ensamblado de una vez con relativamente pocos estudios preliminares y detallados del material y los componentes. En este caso, cuando se encuentran problemas en los engranajes, las aletas de las turbinas, los conductos refrigerantes, etc., es más caro y difícil descubrir las causas y hacer cambios. Por ejemplo, se han encontrado grietas en las aletas de las turbinas de la turbo-bomba de oxígeno a alta presión. ¿Son debidas a fallos en el material, al efecto de la atmósfera de oxígeno sobre las propiedades del material, a las tensiones térmicas de arranque o desconexión, a la vibración y las tensiones de funcionamiento estacionario, o son debidas fundamentalmente a alguna resonancia a ciertas velocidades, etc.? ¿Cuánto tiempo podemos funcionar desde el inicio de una grieta hasta la rotura, y cómo depende esto del nivel de potencia? Usar el motor entero como un banco de prueba para resolver estas cuestiones es extraordinariamente caro. Nadie quiere perder motores enteros para descubrir dónde y cómo ocurren los fallos. Pese a todo, un conocimiento preciso de esta información es esencial para adquirir confianza en la fiabilidad del motor en uso. Sin una comprensión detallada, no puede llegarse a esta confianza.
Una desventaja adicional del método de arriba abajo es que, si se alcanza a comprender un defecto, una simple modificación, tal como una forma nueva para la carcasa de la turbina, puede ser imposible de implementar sin rediseñar completamente el motor.
El motor principal de la lanzadera espacial es una máquina muy notable. Tiene una razón de propulsión a peso mayor que cualquier motor anterior. Está construido en el límite de, o fuera de, cualquier experiencia previa en ingeniería. Por consiguiente, y tal como se esperaba, se han manifestado muchos tipos diferentes de defectos y dificultades. Puesto que, por desgracia, estaba construido al modo de arriba abajo, éstos son difíciles de localizar. El objetivo de una vida media de 55 disparos equivalentes (27.000 segundos de operación, bien en una misión de 500 segundos, o en un ensayo) con el que fue diseñado, no ha sido alcanzado. El motor requiere ahora mantenimiento y reemplazamiento muy frecuente de piezas importantes, tales como turbo-bombas, placas metálicas para blindaje, etc. La turbo-bomba de combustible a alta presión tuvo que ser reemplazada cada tres o cuatro misiones equivalentes (aunque eso quizá se haya corregido ahora) y la turbo-bomba de oxígeno a alta presión cada cinco o seis. Esto es como mucho un 10 por 100 de la especificación original. Pero lo que más nos interesa aquí es la determinación de la fiabilidad.
En un total de unos 250.000 segundos de funcionamiento, las máquinas han fallado seriamente quizá 16 veces. La ingeniería presta mucha atención a estos fallos y trata de remediarlos lo más rápidamente posible. Esto se hace mediante estudios de prueba sobre bancos especiales diseñados experimentalmente para el fallo en cuestión, mediante inspección cuidadosa del motor en busca de claves reveladoras (tales como grietas), y mediante unos estudios y análisis considerables. De esta forma, pese a las dificultades del diseño de arriba abajo, muchos problemas han sido aparentemente resueltos con arduo trabajo.
A continuación se da una lista de algunos de los problemas. Los que están seguidos por un (*) están probablemente resueltos:
Grietas en las aletas de la turbina en las turbo-bombas de combustible a alta presión (HPFTP). (Quizá han sido resueltas.)
Grietas en las aletas de la turbina en turbo-bombas de oxígeno a alta presión (HPOTP).
Ruptura de línea en el Sistema de Encendido Ampliado (ASI).*
Fallo en la válvula de purgado.*
Erosión en la cámara ASI.*
Fractura en la placa metálica de la turbina HPFTP.
Fallo en el conducto refrigerante HPFTP.*
Fallo en el codo de la salida de la cámara de combustión principal.*
Fallo en el codo de entrada en la cámara de combustión principal.*
Torbellino subsíncrono HPOTP.*
Sistema de corte de seguridad de aceleración de vuelo (fallo parcial en un sistema redundante).*
Desprendimientos en el engranaje (parcialmente resuelto).
Una vibración a 4.000 hercios que hace inoperantes algunos motores, etc.
Muchos de estos problemas resueltos eran las dificultades iniciales de un nuevo diseño, pues 13 de ellos ocurrieron en los primeros 125.000 segundos y sólo tres en los siguientes 125.000 segundos. Naturalmente, nunca se puede estar seguro de que se hayan eliminado todos los problemas y, para algunos de ellos, quizá la corrección no haya abordado la verdadera causa. Así pues, no es irrazonable conjeturar que pueda haber al menos una sorpresa en los próximos 250.000 segundos, con una probabilidad de 1/500 por motor y por misión. En una misión hay tres motores, pero algunos accidentes estarían posiblemente controlados y sólo afectan a un motor. El sistema puede abortar con sólo dos motores. Por consiguiente, digamos que las sorpresas desconocidas no nos permiten conjeturar, ni siquiera respecto de sí mismas, que la probabilidad de un fallo en la misión debido al motor principal de la lanzadera espacial es menor que 1/500. A esto debemos sumar la probabilidad de fallo debido a problemas conocidos pero aún no resueltos (aquellos sin asterisco en la lista anterior). Los discutiremos más abajo. (Los ingenieros en Rocketbyne, el fabricante, estiman la probabilidad total en 1/10.000. Los ingenieros de Marshall la estiman en 1/300, mientras que la administración de la NASA, a quien informan estos ingenieros, afirma que es 1/100.000. Un ingeniero independiente consultado por la NASA piensa que 1 o 2 por 100 es una estimación razonable.)
La historia de los principios de certificación para estos motores es confusa y difícil de explicar. Inicialmente parecía existir la regla de que, para certificar un tiempo de funcionamiento del motor, cada uno de los motores de un par tomado como muestra debe haber funcionado sin fallos durante un tiempo doble al que se va a certificar (regla de 2x). Al menos ésa es la práctica de la FAA, y la NASA parece haberla adoptado, confiando originalmente en que el tiempo certificado fuera de 10 misiones (y, por consiguiente, de 20 misiones para cada muestra). Obviamente, los mejores motores para utilizar serían, por comparación, aquellos con un tiempo de funcionamiento total (vuelo más prueba) máximo: los denominados «líderes de flota». Pero ¿qué pasa si una tercera muestra y otras varias fallan en un corto tiempo? Ciertamente, el hecho de que dos de ellos tuvieran una duración anormalmente alta no nos ofrecería mucha seguridad. El tiempo corto podría ser más representativo de las posibilidades reales y, en la idea de un factor de seguridad de 2, deberíamos actuar la mitad del tiempo de las muestras de corta vida.
Este lento deslizamiento hacia un factor de seguridad cada vez menor puede verse en muchos ejemplos. Tomemos el de las aletas de la turbina HPFTP. En primer lugar, la idea de poner a prueba un motor entero fue abandonada. En cada motor se han reemplazado muchas piezas importantes (como las propias turbo-bombas) a intervalos frecuentes, de modo que la regla debe ser trasladada de los motores a los componentes. Aceptamos un tiempo de certificación para un HPFTP si cada una de dos muestras aleatorias ha funcionado con éxito durante el doble de ese tiempo (y por supuesto, como cuestión práctica, sin insistir ya en que este tiempo sea tan grande como 10 misiones). Pero ¿qué es «con éxito»? Cuando se trata de ofrecer en la práctica un factor de seguridad mayor que 2, la FAA considera como fallo una grieta en la aleta de una turbina. Un motor puede funcionar durante un cierto tiempo desde el instante en que se inicia una grieta hasta que se ha hecho suficientemente grande para provocar una fractura. (La FAA está considerando nuevas reglas que tomen en cuenta este tiempo de seguridad extra, pero sólo si se analiza con mucho cuidado con modelos conocidos dentro de un rango de experiencia conocido y con materiales completamente verificados. Ninguna de estas condiciones se aplica al motor principal de la lanzadera espacial.)
Se encontraron grietas en muchas aletas de turbina de HPFTP en la segunda etapa. En un caso se encontraron tres al cabo de 1.900 segundos, mientras que en otro caso no se encontró ninguna al cabo de 4.200 segundos, aunque normalmente estos ensayos más largos mostraban grietas. Para seguir con esta historia tendremos que darnos cuenta de que la tensión depende mucho del nivel de potencia. El vuelo del Challenger iba a producirse, y ya se habían realizado vuelos previos, con los motores funcionando durante la mayor parte del tiempo a un nivel de potencia llamado 104 por 100 del nivel de potencia tasado. A juzgar por algunos datos materiales se supone que, al nivel 104 por 100 de nivel de potencia tasado, el tiempo para la producción de grietas es aproximadamente el doble que al 109 por 100 o nivel de potencia total (FPL). Estaba previsto realizar futuros vuelos a este nivel debido a que debían llevar cargas más pesadas, y se hicieron muchas pruebas a dicho nivel. Por consiguiente, al dividir el tiempo del 104 por 100 por 2 obtenemos unidades llamadas equivalente de nivel de potencia completa (EFPL). (Obviamente, esto introduce cierta incertidumbre, pero no ha sido estudiada.) Las primeras grietas mencionadas más arriba ocurrieron a 1.375 EFPL.
Ahora la regla de certificación se convierte en «limitar todas las aletas de la segunda fase a un máximo de 1.375 segundos EFPL». Si uno objeta que se ha perdido el factor de seguridad de 2, se le señala que la turbina actuó durante 3.800 segundos EFPL sin grietas, y la mitad de esto es 1.900, de modo que estamos siendo más conservadores. Nos hemos engañado de tres maneras. En primer lugar, tenemos sólo una muestra, y no es la líder de flota, pues en las otras dos muestras de 3.800 segundos se detectaron en conjunto 17 aletas con grietas. (Hay 59 aletas en el motor.) En segundo lugar, hemos abandonado la regla 2x y hemos sustituido el tiempo doble por un tiempo igual. Y finalmente, 1.375 segundos es el tiempo que había transcurrido cuando detectamos una grieta. Podemos decir que no se había detectado ninguna grieta por debajo de 1.375, pero la última vez que miramos y no vimos grietas era al cabo de 1.100 segundos EFPL. No sabemos en qué momento se formó la grieta entre estos instantes; por ejemplo, pueden haberse formado grietas a 1.150 segundos EFPL. (Aproximadamente 2/3 de los conjuntos de aletas probadas con más de 1.375 segundos EFPL tenían grietas. De hecho, algunos experimentos recientes muestran grietas ya a los 1.150 segundos.) Era importante mantener alto el número, pues el Challenger iba a utilizar un motor muy próximo al límite para el instante en que el vuelo terminase.
Finalmente, se afirma que los criterios no se han abandonado, y que el sistema es seguro, abandonando así el convenio de la FAA según el cual no debería haber grietas y considerando como fallo sólo una aleta completamente fracturada. Con esta definición, ningún motor ha fallado todavía. La idea es que, puesto que hay un margen de tiempo suficiente para que una grieta crezca hasta fracturarse, podemos garantizar que todo es seguro inspeccionando todas las aletas en busca de grietas. Si se encuentran, las reemplazamos, y si no se encuentra ninguna tenemos tiempo suficiente para una misión segura. De esta forma, el problema de la grieta deja de ser un problema de seguridad de vuelo y se convierte en un mero problema de mantenimiento.
Quizá esto sea realmente cierto. Pero ¿hasta qué punto sabemos que las grietas siempre crecen con lentitud suficiente para que no pueda producirse ninguna fractura en una misión? Tres motores han funcionado durante tiempos largos (aproximadamente 3.000 segundos EFPL) con unas pocas aletas agrietadas y sin que se rompan aletas.
Pero quizá se haya encontrado una corrección para este agrietamiento. Cambiando la forma de la aleta, redondeando la superficie, y cubriéndola con aislante para excluir un choque térmico, las aletas no se han agrietado hasta ahora.
Algo muy similar aparece en la historia de la certificación de la HPOTP, pero no daremos aquí los detalles.
Es evidente, en resumen, que los informes de aptitud de vuelo y las reglas de certificación muestran un agravamiento de algunos de los problemas del motor principal de la lanzadera espacial que guarda una estrecha analogía con el deterioro visto en las reglas para el cohete propulsor de combustible sólido.
Por «aviónica» se entiende el sistema cibernético del vehículo orbital tanto como sus sensores de entrada y efectores de salida. En primer lugar, nos restringiremos a los ordenadores propiamente dichos y no nos interesaremos en la fiabilidad de la información de entrada procedente de los sensores de temperatura, presión, etc., o de si la señal de salida del ordenador es o no seguida fielmente por los efectores de disparos de cohetes, controles mecánicos, pantallas de los astronautas, etc.
El programa informático es muy complicado, con más de 250.000 instrucciones. Es responsable, entre muchas otras cosas, del control automático del ascenso completo hasta la órbita, y del descenso hasta bien entrada la atmósfera (por debajo de Mach 1) una vez que se ha presionado un botón que decide el lugar de aterrizaje deseado. Sería posible realizar todo el aterrizaje automáticamente (excepto que la señal de despliegue del tren de aterrizaje se deja expresamente fuera del control del ordenador y debe ser dada por el piloto, manifiestamente por razones de seguridad), pero semejante aterrizaje completamente automático no es probablemente tan seguro como un aterrizaje controlado por un piloto. Durante el vuelo orbital se utiliza, para el control de las cargas, la presentación de la información a los astronautas y el intercambio de información con la base en tierra. Es evidente que la seguridad del vuelo requiere una precisión garantizada de este complicado sistema de hardware y software informático.
En resumen, la fiabilidad del hardware se garantiza teniendo cuatro sistemas informáticos independientes esencialmente idénticos. Cada sensor posible tiene también múltiples copias, normalmente cuatro, y cada copia alimenta una de las cuatro líneas de ordenador. Si las entradas de los sensores no están de acuerdo, se utiliza como entrada efectiva algún promedio o la selección de la mayoría, según las circunstancias. El algoritmo utilizado por cada uno de los cuatro computadores es exactamente idéntico, de modo que sus entradas (puesto que cada uno de ellos ve una de las copias de los sensores) son las mismas. Por consiguiente, en cada paso los resultados de cada computador deberían ser idénticos. De cuando en cuando se comparan pero, puesto que podrían operar a velocidades ligeramente diferentes, se establece un sistema de parada y espera en instantes especificados antes de hacer cada comparación. Si uno de los computadores no está de acuerdo con los otros, o tarda mucho en tener lista su respuesta, se supone que los tres que coinciden son correctos y el computador discordante se elimina del sistema. Si ahora falla otro computador, a juzgar por el acuerdo de los otros dos, aquél se excluye del sistema, y el resto del vuelo se cancela y se inicia el descenso hacia el lugar de aterrizaje, controlado por los dos computadores restantes. Se ve que éste es un sistema redundante puesto que el fallo de un solo computador no afecta a la misión Finalmente, y como un aspecto extra en la seguridad, existe un quinto computador independiente, cuya memoria está cargada sólo con los programas para ascenso y descenso, y que es capaz de controlar el descenso si hay un fallo de más de dos de los computadores de entre los cuatro principales.
No hay suficiente espacio en la memoria de los computadores principales para todos los programas de ascenso, descenso, y para los programas de la carga en vuelo, de modo que los astronautas tienen que cargar la memoria unas cuatro veces a partir de cintas.
Debido al enorme esfuerzo necesario para reemplazar el software de un sistema tan complicado, y para comprobar un nuevo sistema, no se ha hecho ningún cambio en el hardware desde que el sistema se estableció hace aproximadamente quince años. El hardware actual es obsoleto; por ejemplo, las memorias son del viejo tipo de núcleo de ferrita. Cada vez es más difícil encontrar fabricantes que suministren este tipo de computadores pasados de moda que sean fiables y de alta calidad. Los computadores modernos son mucho más fiables, pueden funcionar con mucha más rapidez y con circuitos más simples, y permiten hacer más cosas; y no se necesitaría cargar la memoria tantas veces pues sus memorias son mucho mayores.
El software se comprueba con mucho cuidado de una forma de abajo arriba. Primero se comprueba cada nueva instrucción, y luego se verifican los módulos o secciones de código con una función especial. El alcance se aumenta paso a paso hasta que se incorporan los nuevos cambios en un sistema completo y se pone a prueba. Este output completo se considera como producto final, de nueva distribución. Pero de forma totalmente independiente hay un grupo de verificación independiente, que adopta una actitud contraria a la del grupo de desarrollo del software y comprueba y verifica el software como si fuera el cliente de un producto entregado. Hay otra verificación adicional al usar los nuevos programas en simuladores, etc. Un descubrimiento de un error durante la prueba de verificación se considera muy grave, y su origen se estudia cuidadosamente para evitar tales errores en el futuro. Tales errores inesperados se han encontrado sólo seis veces en toda la programación y los cambios de programas (para cargas nuevas o alteradas) que se han hecho. El principio que se sigue es que toda la verificación no es un aspecto de la seguridad del programa, sino que es simplemente un test de dicha seguridad, en una verificación no catastrófica. La seguridad del vuelo debe juzgarse solamente sobre la base de cómo funcionan los programas en las pruebas de verificación. Un fallo aquí genera una preocupación considerable.
Para resumir, la aptitud y el sistema de comprobación de software informático son de la máxima calidad. No parece que exista ningún proceso de engaño gradual similar a la degradación de las normas que es tan característica de los sistemas de seguridad del cohete propulsor de combustible sólido o del motor principal de la lanzadera espacial. Por supuesto, ha habido sugerencias recientes por parte de la administración para reducir estas pruebas complicadas y costosas como innecesarias en este último periodo de la historia de la lanzadera. Hay que resistirse a ello pues esto supone pasar por alto las mutuas influencias sutiles y las fuentes de error generado por cambios incluso menores de una parte del programa por otra. Hay peticiones continuas de cambios cada vez que se sugieren nuevas cargas y nuevas demandas y modificaciones por parte de los usuarios. Los cambios son costosos porque requieren unas pruebas exhaustivas. La forma adecuada de ahorrar dinero es reducir el número de cambios requeridos, y no la calidad de las pruebas para cada uno.
Se podría añadir que este complicado sistema podría mejorarse mucho con técnicas de hardware y programación más modernas. Cualquier concurso externo tendría todas las ventajas que supone el empezar de nuevo, y sería oportuno considerar cuidadosamente si ésa es o no una buena idea para la NASA
Finalmente, volviendo a los sensores y efectores de la aviónica, encontramos que la actitud hacia el fallo y la fiabilidad del sistema no es ni mucho menos tan buena como para el sistema informático. Por ejemplo, hubo problemas con ciertos sensores de temperatura que fallaban a veces. Pero dieciocho meses después todavía se estaban utilizando los mismos sensores, aun fallando algunas veces, hasta que un lanzamiento tuvo que ser suspendido porque dos de ellos fallaron al mismo tiempo. Incluso en un vuelo posterior fue utilizado de nuevo este sensor poco fiable. Una vez más, los sistemas de control de reacción, los chorros del cohete utilizados para reorientación y control en vuelo, siguen siendo poco fiables. Hay una redundancia considerable, pero también una larga historia de fallos, ninguno de los cuales ha sido todavía suficientemente extenso para afectar seriamente a un vuelo. La acción de los chorros se comprueba mediante sensores, y si éstos dejan de dispararse los computadores deciden que se dispare otro chorro. Pero el hecho es que no están diseñados para fallar, y el problema debería ser resuelto.
Cuando se quiere mantener un programa razonable de lanzamientos, sucede a veces que la ingeniería no puede desarrollarse a un ritmo suficientemente rápido para mantener las expectativas de los criterios de certificación originalmente conservadores diseñados para garantizar un vehículo muy seguro. En estas situaciones, de forma sutil, y a menudo con argumentos aparentemente lógicos, se alteran los criterios de modo que los vuelos puedan seguir siendo certificados a tiempo. Por consiguiente, se realizan vuelos en condiciones relativamente poco seguras, con una probabilidad de fallo del orden de un 1 por 100 (es difícil ser más preciso).
La administración oficial, por el contrario, afirma creer que la probabilidad de fallo es mil veces menor. Una razón para esto puede ser un intento de garantizar al gobierno de la NASA la perfección y el éxito, y asegurar la financiación. La otra puede ser que crean sinceramente que es verdad, lo que demuestra una casi increíble falta de comunicación entre ellos mismos y sus ingenieros.
En cualquier caso, esto ha tenido consecuencias muy desafortunadas, la más seria de las cuales es animar a ciudadanos normales a volar en una máquina tan peligrosa, como si ésta hubiera alcanzado la seguridad de un avión ordinario. Los astronautas, como los pilotos de pruebas, deberían conocer sus riesgos, y nosotros los admiramos por su valor. ¿Quién puede dudar que McAuliffe[3] era igualmente una persona de gran valor, que estaba más próxima a un conocimiento del verdadero riesgo que el que la administración de la NASA nos haría creer?
Hagamos recomendaciones para asegurar que los empleados de la NASA trabajan en un mundo de realidades cuando buscan una comprensión suficientemente buena de las debilidades e imperfecciones tecnológicas para tratar activamente de eliminarlas. Deben vivir en la realidad al comparar los costes y la utilidad de la lanzadera con otros métodos de ir al espacio. Y deben ser realistas al hacer contratos, al estimar los costes y la dificultad de los proyectos. Sólo deberían proponerse programas de vuelo realistas, programas que tengan una posibilidad razonable de ser llevados a cabo. Si así planteados el gobierno no los apoyara, entonces así sea. La NASA debe ser franca, honesta e informativa con los ciudadanos a quienes pide apoyo, de modo que estos ciudadanos puedan tomar las decisiones más sabias para el uso de sus recursos limitados.
Para una tecnología exitosa, la realidad debe tener preferencia sobre las relaciones públicas, pues la naturaleza no puede ser engañada.