SIEVE: Cybersecurity Log Dataset Collection for SIEM Event Classification
Per una descrizione dettagliata del set di dati, fare riferimento a:
P. Artioli, G. Pellegrini, A. Magrì, V. Dentamaro, S. Galantucci, G. Semeraro : “SIEVE: Generating a Cybersecurity Log Dataset Collection for SIEM Event Classification, Computer Networks [LINK TO DOI]
Formato del set di dati
I set di dati sono in formato CSV per facilitare l’uso immediato nelle pipeline di machine learning con le seguenti colonne di intestazione:
- category: il campo di categorizzazione che cattura l’azione intrapresa così come è stata descritta dalla fonte (es.: authentication-success, http-request-success, process-started, user-deletion)
- log: La voce di log grezza
I set di dati comprendono 30 classi di eventi bilanciate assegnate manualmente da un panel di esperti di cybersecurity utilizzando le linee guida di categorizzazione degli eventi dell’Elastic Common Schema. Per ottenere un consenso generale ed evitare conflitti, gli esperti hanno eseguito due round di rivalutazione in cieco sul 20% dei modelli campionati casualmente, ottenendo un punteggio di 0,82 nell’alfa di Krippendorff (accordo sostanziale).
Per accedere al set di dati SIEVE, inviare una richiesta via email a sieve.requests@bvtech.com contenente:
- Il tuo nome e le informazioni di contatto
- La tua affiliazione (università, istituto di ricerca o azienda)
- Una breve descrizione dell’uso previsto per il set di dati
- Conferma che citerai la fonte del set di dati SIEVE in eventuali pubblicazioni o applicazioni risultanti come segue:
P. Artioli, G. Pellegrini, A. Magrì, V. Dentamaro, S. Galantucci, G. Semeraro : “SIEVE: Generating a Cybersecurity Log Dataset Collection for SIEM Event Classification, Computer Networks [LINK TO DOI]





Progetto finanziato dal Fondo Europeo di Sviluppo Regionale Puglia POR Puglia 2014 – 2020 – Asse I – Obiettivo specifico 1a – Azione 1.1 (R&S), e con il supporto dell’Università di Bari e del Massachusetts Institute of Technology (MIT).