SIEVE: Cybersecurity Log Dataset Collection for SIEM Event Classification

SIEVE (SIem Ingesting EVEnts) è una raccolta di 6 diversi set di dati sintetici contenenti log specificamente progettati per l’addestramento di modelli di machine learning nelle attività di classificazione dei log tipicamente utilizzati dai SIEM. Creato utilizzando l’innovativa tecnica SPICE (Semantic Perturbation and Instantiation for Content Enrichment), questo set di dati affronta la carenza critica della letteratura disponibile, di set di dati contenenti eventi di sicurezza diversificati ed etichettati. SIEVE contiene molteplici istanze con vari livelli di perturbazione sintetica, rendendolo ideale per l’addestramento di modelli di classificazione NLP che possono categorizzare efficacemente gli eventi di sicurezza prodotti da diversi sistemi e applicazioni. Il set di dati è stato costruito da campioni di log disponibili pubblicamente e trasformato attraverso la nostra innovativa metodologia di arricchimento del testo per creare voci di log realistiche e diversificate che mantengono le caratteristiche semantiche dei log di sicurezza autentici.
Per una descrizione dettagliata del set di dati, fare riferimento a:

Artioli, P., Dentamaro, V., Galantucci, S., Magrì, A., Pellegrini, G., & Semeraro, G. (2025). SIEVE: Generating a cybersecurity log dataset collection for SIEM event classification. Computer Networks, 111330

Formato del set di dati

I set di dati sono in formato CSV per facilitare l’uso immediato nelle pipeline di machine learning con le seguenti colonne di intestazione:

category: il campo di categorizzazione che cattura l’azione intrapresa così come è stata descritta dalla fonte (es.: authentication-success, http-request-success, process-started, user-deletion)
log: La voce di log grezza

Classi del set di dati

I set di dati comprendono 30 classi di eventi bilanciate assegnate manualmente da un panel di esperti di cybersecurity utilizzando le linee guida di categorizzazione degli eventi dell’Elastic Common Schema. Per ottenere un consenso generale ed evitare conflitti, gli esperti hanno eseguito due round di rivalutazione in cieco sul 20% dei modelli campionati casualmente, ottenendo un punteggio di 0,82 nell’alfa di Krippendorff (accordo sostanziale).

Procedura di richiesta del set di dati

Per accedere al set di dati SIEVE, inviare una richiesta via email a sieve.requests@bvtech.com contenente:

Il tuo nome e le informazioni di contatto
La tua affiliazione (università, istituto di ricerca o azienda)
Una breve descrizione dell’uso previsto per il set di dati
Conferma che citerai la fonte del set di dati SIEVE in eventuali pubblicazioni o applicazioni risultanti come segue:

Artioli, P., Dentamaro, V., Galantucci, S., Magrì, A., Pellegrini, G., & Semeraro, G. (2025). SIEVE: Generating a cybersecurity log dataset collection for SIEM event classification. Computer Networks, 111330

Menzione a:

@article{artioli2025sieve,
title={SIEVE: Generating a cybersecurity log dataset collection for SIEM event classification},
author={Artioli, Pierpaolo and Dentamaro, Vincenzo and Galantucci, Stefano and Magr{\`\i}, Alessio and Pellegrini, Gianluca and Semeraro, Gianfranco},
journal={Computer Networks},
pages={111330},
year={2025},
publisher={Elsevier}
}

Richiedi l'accesso

Seguici sui Social



Contatti

GROTTAGLIE:
Corso Europa, 3
74023 Grottaglie (TA)
Tel.: +39.04.64406755
Fax: +39.02.89093321

RUTIGLIANO:
S.P. 84 Adelfia-Rutigliano, C.da Caggiano
70018 Rutigliano (BA)
Tel.: +39.02.8596171
Fax: +39.02.89093321

Progetto finanziato dal Fondo Europeo di Sviluppo Regionale Puglia POR Puglia 2014 – 2020 – Asse I – Obiettivo specifico 1a – Azione 1.1 (R&S), e con il supporto dell’Università di Bari e del Massachusetts Institute of Technology (MIT).

Privacy e Cookie Policy

SIEVE: Cybersecurity Log Dataset Collection for SIEM Event Classification

Progetto

La sede

Media

Contatti