Un equipo de investigadores ha desarrollado un ataque de espionaje para dispositivos Android que puede, en diversos grados, reconocer el sexo y la identidad de la persona que llama, e incluso discernir el habla privada. Denominado EarSpy, el ataque de canal lateral pretende explorar nuevas posibilidades de espionaje mediante la captura de lecturas de datos de sensores de movimiento causadas por reverberaciones de los altavoces de los oídos de los dispositivos móviles. |
EarSpy es un esfuerzo académico de investigadores de cinco universidades estadounidenses (Texas A&M University, New Jersey Institute of Technology, Temple University, University of Dayton y Rutgers University).
Aunque este tipo de ataque se ha explorado en los altavoces de los teléfonos inteligentes, se consideraba que los altavoces de los oídos eran demasiado débiles para generar vibraciones suficientes para que el riesgo de escuchas convirtiera un ataque de canal lateral de este tipo en algo práctico.
Sin embargo, los smartphones modernos utilizan altavoces estéreo más potentes que los modelos de hace unos años, que producen una calidad de sonido mucho mejor y vibraciones más fuertes.
Del mismo modo, los dispositivos modernos utilizan sensores de movimiento y giroscopios más sensibles que pueden registrar incluso las resonancias más pequeñas de los altavoces.
Una prueba de este progreso se muestra a continuación, donde el auricular de un OnePlus 3T de 2016 apenas se registra en el espectrograma, mientras que los altavoces estéreo de un OnePlus 7T de 2019 producen muchos más datos.
Altavoces de izquierda a derecha del OnePlus 3T, OnePlus 7T, altavoz del OnePlus 7T
fuente: (arxiv.org)
Experimento y resultados
Los investigadores utilizaron un dispositivo OnePlus 7T y OnePlus 9 en sus experimentos, junto con diferentes conjuntos de audio pregrabado que se reprodujo solo a través de los altavoces de los oídos de los dos dispositivos.
El equipo también utilizó la aplicación de terceros "Physics Toolbox Sensor Suite" para capturar datos del acelerómetro durante una llamada simulada y, a continuación, los introdujo en MATLAB para analizarlos y extraer características del flujo de audio.
Se entrenó un algoritmo de aprendizaje automático utilizando conjuntos de datos disponibles para reconocer el contenido del habla, la identidad de la persona que llama y el sexo.
Los datos de prueba variaron en función del conjunto de datos y el dispositivo, pero en general arrojaron resultados prometedores para la escucha a través del altavoz del oído.
La identificación del género de la persona que llama en el OnePlus 7T osciló entre el 77,7 % y el 98,7 %, la clasificación del identificador de llamadas entre el 63,0 % y el 91,2 %, y el reconocimiento de voz entre el 51,8 % y el 56,4 %.
En el dispositivo OnePlus 9, la identificación del género alcanzó un máximo del 88,7%, la identificación del hablante cayó a una media del 73,6%, mientras que el reconocimiento de voz osciló entre el 33,3% y el 41,6%.
Utilizando el altavoz y la aplicación "Spearphone" que los investigadores desarrollaron mientras experimentaban con un ataque similar en 2020, la precisión en la identificación y el género de la persona que llama alcanzó el 99%, mientras que el reconocimiento de voz alcanzó una precisión del 80%.
Limitaciones y soluciones
Algo que podría reducir la eficacia del ataque EarSpy es el volumen que los usuarios eligen para sus altavoces de oído. Un volumen más bajo podría evitar las escuchas a través de este ataque de canal lateral y, además, resulta más cómodo para el oído.
La disposición de los componentes de hardware del dispositivo y la estanqueidad del montaje también influyen en la difusión de la reverberación de los altavoces.
Por último, el movimiento del usuario o las vibraciones introducidas desde el entorno disminuyen la precisión de los datos de voz obtenidos.
Android 13 ha introducido una restricción en la recogida de datos de los sensores sin permiso para las frecuencias de muestreo de datos superiores a 200 Hz. Aunque esto impide el reconocimiento del habla a la frecuencia de muestreo por defecto (400 Hz - 500 Hz), sólo reduce la precisión en torno a un 10% si el ataque se realiza a 200 Hz.
Los investigadores sugieren que los fabricantes de teléfonos se aseguren de que la presión sonora se mantiene estable durante las llamadas y coloquen los sensores de movimiento en una posición en la que las vibraciones de origen interno no les afecten o, al menos, tengan el mínimo impacto posible.