Une nouvelle forme de cybercriminalité, basée sur les « deepfakes » vocaux, émerge à l’échelle mondiale, transformant la voix de n’importe qui en une arme potentielle pour des escrocs. En Afrique du Sud, un expert en cybersécurité, Andrew Bourne de Zoho Corporation Africa, a récemment tiré la sonnette d’alarme sur l’utilisation de notes vocales WhatsApp et d’appels téléphoniques pour récolter ces « biométries vocales », dans une interview à la radio CapeTalk.
Selon M. Bourne, une des techniques consiste en des « appels silencieux » où des criminels enregistrent les quelques mots que vous prononcez en décrochant. En compilant plusieurs extraits vocaux – issus d’appels, de notes vocales partagées ou de vidéos publiques sur les réseaux sociaux – les fraudeurs peuvent créer un « deepfake » audio très réaliste de la voix d’une personne ou de ses proches, notamment ses enfants.
Vous pourriez recevoir un appel où vous entendez votre enfant demander de l’aide. En réalité, ils pourraient avoir récupéré les données biométriques vocales de votre enfant à partir d’une vidéo sur les réseaux sociaux. — Andrew Bourne, Zoho Corporation Africa
Cette menace n’est pas théorique et dépasse largement les frontières africaines. Andrew Bourne rappelle le cas survenu à Hong Kong, où des escrocs ont utilisé une vidéo deepfake d’un PDG pour convaincre un employé de transférer 25 millions de dollars. Cela illustre le niveau de sophistication et les enjeux financiers colossaux de ces nouvelles fraudes.
Face à cette menace, M. Bourne insiste sur l’importance de la vigilance. Il recommande de ne jamais faire aveuglément confiance à un interlocuteur, même s’il détient des informations personnelles, et de toujours lui demander de prouver son identité. Plus concrètement, il suggère aux familles d’établir un « mot de sécurité » secret. Ce mot, s’il est demandé et donné lors d’un appel de détresse, permettrait de confirmer l’authenticité de l’interlocuteur et de déjouer les tentatives d’extorsion basées sur des voix clonées.
