Las aplicaciones de transcripción pueden ayudar a ahorrar tiempo y esfuerzo al convertir rápidamente archivos de audio en texto. Esto puede resultar útil en muchos contextos: desde el día a día para audios en aplicaciones de mensajería, en el entorno laboral facilitando la toma de notas durante reuniones y entrevistas, y hasta como herramienta para personas con discapacidad auditiva.
Recientemente se popularizó un bot para WhatsApp que realiza esta misma tarea con audios enviados en cuestión de minutos. Más allá de este bot en particular y el hecho de que sus creadores aseguran que protege la privacidad de las personas y que no tienen un registro de la información que contienen esos audios, lo cierto es que el uso de aplicaciones de transcripción de audio a texto en general puede plantear riesgos para la seguridad y privacidad de los usuarios que deben ser considerados. En este contexto, ESET, compañía líder en detección proactiva de amenazas, analiza las principales consideraciones de seguridad asociadas con el uso de estas aplicaciones y proporciona algunas recomendaciones clave para mitigarlas.
Algunos de los riesgos asociados a aplicaciones para transcripción de audio según ESET, son:
Funcionamiento de la transcripción y privacidad: Si bien WhatsApp anunció que está trabajando en una funcionalidad para transcribir audio a texto, existen diferentes apps desarrolladas por terceros que utilizan distintos métodos para transcribir un archivo de audio a texto, tanto de manera manual como automatizada.
En el caso de la transcripción automatizada, algunas aplicaciones utilizan algoritmos de reconocimiento de voz y aprendizaje automático para convertir el audio en texto sin intervención humana. Estos programas pueden ser desarrollados por la compañía detrás de la aplicación o ser un servicio tercerizado. Si bien esta última opción es generalmente más rápida y eficiente, también plantea algunas interrogantes con respecto a la privacidad, ya que en muchos casos se desconoce el alcance que podría tener el audio enviado: ¿Se utilizará para mejorar el algoritmo? ¿Se almacenará en servidores, propios o de terceros, durante el análisis del contenido? ¿Cómo se asegura el envío de esa información, si es que el procesamiento del audio se terceriza?
Por otro lado, la transcripción manual implica que la misma es realizada por una persona, lo cual puede plantear riesgos de privacidad si quienes realizan esta transcripción tienen acceso a información confidencial o si se comparte con contratistas terceros sin el consentimiento del usuario. De hecho, Meta (en ese entonces, Facebook) se vio envuelta en una polémica por tercerizar la transcripción de audios enviados por sus usuarios para poder mejorar su sistema de reconocimiento de voz.
Almacenamiento de datos: Una gran cantidad de estas aplicaciones solicitan a los usuarios que concedan permisos para acceder a diferente información del dispositivo, como la ubicación, contactos, chats en aplicaciones de mensajería, o hasta el micrófono del dispositivo, a fin poder funcionar o también proporcionar una mejor experiencia de usuario.
Sin embargo, desde ESET mencionan que la recopilación de esta información puede presentar un riesgo si se utiliza indebidamente o si se comparte con terceros sin el consentimiento del usuario en cuestión. También si no se asegura correctamente en los servidores de la compañía que la almacene. Si bien este punto no es exclusivo para las apps de transcripción de audio, sí es cierto que este tipo de aplicaciones recolecta archivos de audios que, usualmente, son de la voz del usuario o de sus allegados. Sobre todo en los casos en los cuales la aplicación se presenta como un bot para aplicaciones como WhatsApp o Telegram.
Además, la información de audio y texto recopilada por la aplicación también podría ser utilizada para crear un perfil de la persona y para personalizar anuncios y recomendaciones, un dato no menor. Si la aplicación no protege adecuadamente la información personal, los usuarios podrían ser vulnerables a ciberataques.
Aplicaciones maliciosas: Es posible que existan aplicaciones o chatbots fraudulentos para transcripción de audio a texto, ya sea que no cuentan con políticas de privacidad sólidas, que no protegen debidamente la información del usuario, o que incluso la comercialicen. También puede pasar que con el auge de estas tecnologías los cibercriminales quieran aprovechar la situación para lanzar falsas apps que utilizan como pantallas para infectar a las víctimas con algún tipo de malware.
El problema es que estas aplicaciones fraudulentas pueden ser muy exitosas debido a que los usuarios no siempre verifican quién desarrolló la aplicación ni examinan cuidadosamente sus políticas de privacidad. Además, estas apps maliciosas pueden ser copias de aplicaciones legítimas, lo que dificulta que los usuarios las identifiquen de manera simple como fraudulentas.
“Vale la pena mencionar que esto tampoco es exclusivo para aplicaciones de transcripción de audio, sino que también sucede con estos tipos de programas de “utilidad” o para usos específico, como conversores o lectores de archivos con extensiones específicas, editores de video, y más. De hecho, hemos visto en Google Play apps que ofrecen distintos tipos de funcionalidades, desde lectores de PDF y de códigos QR, pasando por traductores o editores de imágenes que son utilizadas para distribuir malware.”, comenta Martina López, investigadora de Seguridad Informática de ESET Latinoamérica.
Robo de información para realizar ciberataques: Ya sea por una aplicación falsa o por una vulneración de una app real, los audios y textos robados pueden ser utilizados para ciberataques. Un ejemplo de ello podría ser el entrenamiento de un modelo de machine learning para producir deepfakes en formato de audios, ya sea para noticias falsas o ataques de ingeniería social.
El proceso generalmente implicaría dos pasos: el entrenamiento del modelo y el uso del modelo en sí. En el primer paso es donde se utilizan los datos robados para entrenar el modelo de aprendizaje automático, el cual utilizará técnicas de procesamiento de señales de audio y de lenguaje natural para aprender cómo se pronuncian las palabras y cómo se estructuran las oraciones. Una vez que el modelo se entrena con suficiente cantidad de datos, sería capaz de generar texto a partir de un archivo de audio.
Un atacante podría utilizar el modelo para manipular los audios robados y hacer que las víctimas digan cosas que no hicieron. Pueden utilizar la transcripción falsa para chantajear, extorsionar o engañar a las mismas y a sus allegados, o incluso pueden suplantar la identidad de una persona reconocida y generar una noticia falsa.
A continuación, ESET acerca recomendaciones para utilizar estas aplicaciones de manera segura:
- Descargarlas solo de fuentes confiables y evitar la descarga de aplicaciones de terceros desconocidos o no verificados. En caso de ser un chatbot, verificar que el número o usuario sea el correcto, y no una copia maliciosa.
- Revisar las políticas de privacidad de la aplicación, verificar los apartados acerca de la información almacenada y compartida con terceros.
- No compartir información confidencial o sensible mediante los audios a cargar en la aplicación, como contraseñas o información financiera.
- Si se trata de una aplicación descargable, mantenerla actualizada para tener las últimas correcciones de seguridad y parches.
Fuente. ESET