Rédigé par Emile Dev
24 mai 2023
Le Dark web est une partie de l’internet qui n’est pas accessible via les moteurs de recherche traditionnels. Il utilise des réseaux superposés, tels que Tor, pour masquer l'identité des utilisateurs et garantir leur anonymat. Ces réseaux font transiter le trafic Internet par plusieurs nœuds, ce qui rend difficile la traçabilité des activités en ligne. Le Dark Web peut héberger des marchés noirs en ligne, des sites de vente de drogue, des services de piratage et des forums de piratage.
DarkBERT est un modèle de langage pré-formé avec des données collectées sur le Dark web. Il s’inspire du modèle BERT de Google, qui utilise une architecture de type Transformer pour apprendre à partir de grands corpus de textes. DarkBERT a été conçu par une équipe de chercheurs sud-coréens du Korea Advanced Institute of Science and Technology (KAIST) et de S2W Inc, une société spécialisée dans l'analyse des données relatives à la cybersécurité.
L’objectif de DarkBERT est de mieux comprendre le langage utilisé sur le Dark web, qui présente des caractéristiques spécifiques, telles que des termes techniques, des abréviations, des argots ou encore des codes secrets. DarkBERT pourrait ainsi aider les experts en cybersécurité à effectuer une veille sur ce territoire, par exemple pour détecter des fuites de données, des menaces ou des fraudes .
Pour former DarkBERT, les chercheurs ont utilisé le réseau Tor pour collecter environ 1,5 million de documents provenant de divers services onion du Dark web. Ces documents ont été classés en 14 catégories thématiques, telles que les drogues, les armes, les cartes bancaires, les logiciels malveillants ou encore les livres électroniques.
Les chercheurs ont ensuite filtré les données brutes en appliquant des techniques telles que la déduplication, l'équilibrage des catégories et le prétraitement des données. Ils ont ainsi obtenu une base de données du Dark web contenant environ 500 000 documents et 200 millions de mots.
DarkBERT a été pré-entraîné sur cette base de données en utilisant deux tâches d’apprentissage automatique : la prédiction du mot masqué (Masked Language Modeling ou MLM) et la prédiction du segment suivant (Next Sentence Prediction ou NSP). La première consiste à prédire un mot caché dans une phrase à partir du contexte, tandis que la seconde consiste à prédire si deux phrases sont consécutives ou non dans un document.
DarkBERT a ensuite été affiné sur des tâches spécifiques au domaine du Dark web, telles que la classification de texte, l’extraction d’entités nommées ou encore la génération de texte.
Les chercheurs ont évalué les performances de DarkBERT sur plusieurs tâches liées au Dark web et l’ont comparé à d’autres modèles de langage pré-entraînés sur des données du Web classique, tels que BERT ou RoBERTa.
Les résultats montrent que DarkBERT surpasse les autres modèles sur toutes les tâches évaluées, ce qui suggère qu’il a réussi à capter les particularités du langage du Dark web. Par exemple, pour la classification de texte, DarkBERT atteint une précision de 94%, contre 86% pour RoBERTa et 84% pour BERT. Pour l’extraction d’entités nommées, DarkBERT obtient un score F1 de 81%, contre 74% pour RoBERTa et 72% pour BERT. Pour la génération de texte, DarkBERT produit des textes plus cohérents et plus diversifiés que les autres modèles.
DarkBERT est le premier modèle de langage pré-formé spécifiquement sur le Dark web. Il représente une avancée importante pour la compréhension et l’analyse de ce territoire caché et mystérieux. Il pourrait avoir de nombreuses applications pratiques pour la cybersécurité, comme la détection d’activités illégales ou malveillantes, la protection des données sensibles ou encore la prévention des cyberattaques .
Les chercheurs envisagent d’améliorer les performances de DarkBERT en utilisant davantage d’architectures récentes et d’explorer des données supplémentaires pour permettre la construction de modèles de langage multilingues. Ils souhaitent également rendre leur modèle accessible au public afin qu’il puisse être utilisé par d’autres chercheurs ou praticiens intéressés par le domaine du Dark web.
Le Dark web est une partie cachée et anonyme de l’internet qui héberge diverses activités légales ou illégales. Pour mieux comprendre le langage utilisé sur ce territoire, une équipe de chercheurs sud-coréens a développé un modèle de langage pré-formé avec des données collectées sur le Dark web. Ce modèle, nommé DarkBERT, s’inspire du modèle BERT de Google et surpasse les autres modèles pré-entraînés sur des données du Web classique sur plusieurs tâches liées au domaine du Dark web. DarkBERT pourrait ainsi aider les experts en cybersécurité à effectuer une veille sur ce territoire et à protéger leurs systèmes contre les menaces potentielles.
R : Le Dark web est une partie de l’internet qui n’est pas accessible via les moteurs de recherche traditionnels. Il utilise des réseaux de recouvrement, tels que Tor, pour masquer l'identité des utilisateurs et assurer leur anonymat.
Q : Qu’est-ce que DarkBERT ?R : DarkBERT est un modèle de langage pré-formé avec des données collectées sur le Dark web. Il s’inspire du modèle BERT de Google et vise à mieux comprendre le langage utilisé sur ce territoire.
Q : Comment fonctionne DarkBERT ?R : DarkBERT a été pré-entraîné sur une base de données du Dark web contenant environ 500 000 documents et 200 millions de mots. Il a ensuite été affiné sur des tâches spécifiques au domaine du Dark web, telles que la classification de texte, l’extraction d’entités nommées ou encore la génération de texte.
Q : Quels sont les résultats obtenus par DarkBERT ?R : Les résultats montrent que DarkBERT surpasse les autres modèles pré-entraînés sur des données du Web classique sur toutes les tâches évaluées. Il produit ainsi des textes plus cohérents et plus diversifiés que les autres modèles.
Q : Quelles sont les perspectives d’avenir pour DarkBERT ?R : Les chercheurs envisagent d’améliorer les performances de DarkBERT en utilisant davantage d’architectures récentes et d’explorer des données supplémentaires pour permettre la construction de modèles de langage multilingues. Ils souhaitent également rendre leur modèle accessible au public afin qu’il puisse être utilisé par d’autres chercheurs ou praticiens intéressés par le domaine du Dark web.