Dans le sillage du triomphe de ChatGPT, qui a séduit plus de 200 millions d’utilisateurs depuis sa généralisation à la fin de l’année 2022, les robots conversationnels connaissent un essor remarquable, suscitant un vif intérêt et inspirant de nombreux projets.
Dans cette mouvance, un groupe de chercheurs sud-coréens a entrepris de repenser l’usage des robots conversationnels en les intégrant au dark web, cette portion clandestine et étendue d’Internet où prolifèrent les activités illicites et trafics en tous genres.
Baptisé DarkBERT, ce projet vise à contribuer à la lutte contre les cybermenaces sur le dark web, comme le révèle un rapport daté du 18 mai 2023 rédigé par les chercheurs sud-coréens.
DarkBERT s’appuie sur des modèles de langage déjà existants.
« Nous avons confronté DarkBERT à d’autres modèles de langage largement utilisés tels que BERT (Google) et RoBERTa (Meta), formés sur des données provenant de l’internet ‘de surface’, pour évaluer l’efficacité de DarkBERT dans le contexte textuel du dark web »
précisent les chercheurs dans leur rapport.
Pour entraîner DarkBERT, 5,3 gigaoctets de données provenant du dark web ont été utilisés. Cependant, certaines données sensibles ont été délibérément exclues.
« Il est primordial que le modèle n’assimile pas des représentations issues d’informations sensibles »
souligne le rapport.
Parmi les données sensibles omises figurent principalement des informations personnelles volées, souvent vendues à prix d’or sur les forums spécialisés du dark web. Ces données incluent des documents d’identité, des informations financières, médicales, etc. En raison de sa difficulté d’accès, le dark web est un terreau fertile pour un large éventail d’activités illicites, de la vente d’armes et de drogues à la revente de données précieuses.
« Étant donné la prolifération quotidienne de nouveaux forums, d’énormes ressources humaines sont nécessaires pour détecter manuellement chaque menace. L’automatisation de la détection des menaces potentielles pourrait considérablement alléger la charge de travail des experts en cybersécurité »
concluent les chercheurs
DarkBERT sera donc principalement utilisé pour fournir des informations cruciales sur le fonctionnement et les activités du dark web. Selon l’Institut supérieur coréen des sciences et des technologies, les modèles linguistiques spécifiques au dark web sont précieux car ils permettent une analyse textuelle approfondie de ce domaine. Ainsi, DarkBERT vise à aider les autorités, les enquêteurs et les chercheurs à mieux comprendre ce milieu, largement exploité par divers criminels.
Source illustration : pixabay