Quelles techniques d'ingénierie de modèles similaires à GPT fonctionnent sur les journaux système ? | par Dmitrijs Trizna

Évaluation des méthodologies de modélisation des réseaux neuronaux transformateurs appliquées aux traces de logiciels malveillants
Cette étude vise à évaluer différentes méthodologies d’ingénierie de réseaux neuronaux transformateurs appliquées à des données de machines – des journaux de comportement de logiciels malveillants provenant de l’émulateur Speakeasy. L’étude se concentre sur la tâche en aval de la classification des logiciels malveillants (apprentissage supervisé) et n’inclut pas l’auto-apprentissage supervisé. De manière spéculative, les mêmes conclusions peuvent être appliquées à n’importe quel ensemble de journaux de systèmes, tels que le télémétrie du système d’exploitation Sysmon sur Windows ou les frameworks Linux correspondants comme auditd, des journaux de niveau application tels que des événements d’audit kube-audit provenant du serveur API Kubernetes, ou des journaux d’accès des serveurs HTTP.

Expériences effectuées
Les auteurs ont examiné plusieurs configurations comme les optimisations de données, la dépendance du taux d’apprentissage en fonction de la taille du modèle, les planificateurs de taux d’apprentissage (triangulaire, cosinus, étape, et un seul cycle), les gradients cumulés, la restriction des gradients, et la normalisation des couches d’entrée et de sortie des blocs d’attention. Ils ont effectué une évaluation en trois volets en croisant toutes les options de configuration et ont ensuite généré des courbes ROC moyennes pour les ensembles d’entraînement et de test, ainsi que pour les pertes d’entraînement. Les auteurs ont également filtré les événements JSON pour réduire la longueur de séquences et ils ont utilisé une méthode de tokenisation pour traiter les ensembles de données à faible densité épistémique.

Données
Les données utilisées pour l’expérience sont disponibles gratuitement et ont été publiées dans le cadre d’une étude d’analyse de logiciels malveillants hybrides. Il s’agit de rapports JSON représentant les résultats d’émulation de quelque 120 000 exemples de logiciels malveillants et de logiciels sûrs. Les exemples malveillants couvrent sept types de logiciels malveillants différents, tels que les ransomwares, les chevaux de Troie, les portes dérobées, etc. Les auteurs se sont limités à la classification binaire en utilisant l’étiquette propre pour la classe sûre et toutes les autres étiquettes pour les exemples de logiciels malveillants
Ils ont filtré les événements JSON pour réduire la longueur des séquences et normalisé des champs de valeurs arbitraires tels que des hachages et des adresses IP. Le choix du taux d’apprentissage est crucial pour les architectures Transformateurs et est significativement réduit lorsque le modèle devient plus important. Ils ont utilisé un modèle de taille modeste avec environ 5-6 millions de paramètres pour leur expérience, bien que la taille optimale devrait s’adapter avec l’augmentation de la taille de l’ensemble de données.