At la altura de la Guerra Fría, durante el invierno de 1980, los agentes del FBI grabaron una llamada telefónica en la que un hombre organizó una reunión secreta con la embajada soviética en Washington, DC El día de su nombramiento, sin embargo, los agentes no pudieron ver al Hombre entrando en la embajada. En ese momento, no tenían forma de ponerle un nombre a la persona que llamaba solo por el sonido de su voz, por lo que el espía permaneció en el anonimato. Durante los siguientes cinco años, vendió detalles sobre varios programas secretos de Estados Unidos a la URSS.
No fue hasta 1985 que el FBI, gracias a la inteligencia proporcionada por un desertor ruso, pudo establecer a la persona que llamaba como Ronald Pelton, un ex analista de la Agencia de Seguridad Nacional. Al año siguiente, Pelton fue condenado por espionaje.
Hoy, los agentes del FBI y la NSA habrían identificado a Pelton segundos después de su primera llamada a los soviéticos. UNA nota clasificada de la NSA A partir de enero, 2006 describe a los analistas de la NSA utilizando una "tecnología que identifica a las personas por el sonido de sus voces" para unir con éxito los viejos archivos de audio de Pelton entre sí. "Si tales tecnologías hubieran estado disponibles hace veinte años", decía el memorando, "la detección temprana y la captura podrían haber sido posibles, reduciendo el daño considerable que Pelton hizo a la seguridad nacional".
Estos y otros documentos clasificados proporcionados por el ex contratista de la NSA Edward Snowden revelan que la NSA ha desarrollado tecnología no solo para grabar y transcribir conversaciones privadas, sino también para identificar automáticamente a los hablantes.
Los estadounidenses encuentran con mayor frecuencia esta tecnología, conocida como reconocimiento de altavoz o identificación de altavoz, cuando despiertan a Alexa de Amazon o llaman a su banco. Pero una década antes de que los comandos de voz como "Hola Siri" y "OK Google" se convirtieran en frases comunes de la familia, la NSA estaba utilizando el reconocimiento de los oradores para monitorear a terroristas, políticos, narcotraficantes, espías e incluso empleados de agencias.
La tecnología funciona analizando las características físicas y de comportamiento que hacen que la voz de cada persona sea distintiva, como el tono, la forma de la boca y la longitud de la laringe. Luego, un algoritmo crea un modelo informático dinámico de las características vocales del individuo. Esto es lo que popularmente se conoce como "huella de voz". Todo el proceso, capturar algunas palabras habladas, convertir esas palabras en una huella de voz y comparar esa representación con otras "huellas de voz" ya almacenadas en la base de datos, puede suceder casi instantáneamente. Aunque se sabe que la NSA depende de las huellas dactilares y faciales para identificar objetivos, las huellas de voz, según un documento de la agencia 2008, son "donde la NSA reina supremamente".
No es difícil ver por qué. Al interceptar y grabar millones de conversaciones telefónicas en el extranjero, videoconferencias y llamadas por Internet, además de capturar, con o sin órdenes judiciales, las conversaciones domésticas de los estadounidenses, la NSA ha construido una colección inigualable de voces distintas. Documentos del archivo de Snowden revela que los analistas alimentaron algunas de estas grabaciones a algoritmos de reconocimiento de locutores que podían conectar a las personas con sus expresiones pasadas, incluso cuando habían usado números de teléfono desconocidos, palabras de código secreto o varios idiomas.
Ya en la Operación Libertad Iraquí, los analistas estaban usando reconocimiento de los oradores para verificar que el audio que "parecía ser del depuesto líder Saddam Hussein era realmente suyo, contrario a las creencias prevalecientes". Los memorandos muestran además que los analistas de la NSA crearon huellas de voz para Osama bin Laden, cuya voz era "inconfundible y notablemente consistente en varias transmisiones". ; ”Para Ayman al-Zawahri, el actual líder de Al Qaeda; y para Abu Musab al-Zarqawi, entonces el tercero al mando del grupo. Utilizaron la voz de Zarqawi para identificarlo como el orador en los archivos de audio publicados en línea.
Los documentos clasificados, que datan de 2004 a 2012, muestran que la NSA refina iteraciones cada vez más sofisticadas de su tecnología de reconocimiento de altavoces. Confirman los usos del reconocimiento de los oradores en las operaciones antiterroristas y en las cazas de drogas en el extranjero. Y sugieren que la agencia planeó desplegar la tecnología no solo para identificar retroactivamente a espías como Pelton, sino también para evitar denunciantes como Snowden.
Siempre escuchando
Los expertos en libertad civil están preocupados de que estos y otros usos en expansión del reconocimiento de hablantes pongan en peligro el derecho a la privacidad. "Esto crea una nueva capacidad de inteligencia y una nueva capacidad de abuso", explicó Timothy Edgar, ex asesor de la Casa Blanca del Director de Inteligencia Nacional. “Nuestra voz viaja a través de todo tipo de canales de comunicación donde no estamos allí. En una era de vigilancia masiva, este tipo de capacidad tiene profundas implicaciones para toda nuestra privacidad ".
Edgar y otros expertos señalaron la naturaleza relativamente estable de la voz humana, que es mucho más difícil de cambiar o disfrazar que un nombre, dirección, contraseña, número de teléfono o PIN. Esto hace que sea "mucho más fácil" rastrear a las personas, según Jamie Williams, abogado de la Electronic Frontier Foundation. "Tan pronto como puedas identificar la voz de alguien", dijo, "podrás encontrarla de inmediato siempre que tenga una conversación, asumiendo que la estás grabando o escuchando".
La voz es un biométrico único y de fácil acceso: a diferencia del ADN, se puede recolectar de forma pasiva y desde una gran distancia, sin el conocimiento o consentimiento del sujeto. La precisión varía considerablemente según el grado de coincidencia de las condiciones de la voz recopilada con las de grabaciones anteriores. Pero en entornos controlados, con poco ruido de fondo, un entorno acústico familiar y una buena calidad de señal, la tecnología puede utilizar unas pocas frases habladas para hacer coincidir con precisión a las personas. Y cuantas más muestras de una voz dada se introduzcan en el modelo de la computadora, más fuerte y "maduro" se vuelve ese modelo.