Ospedale Pediatrico Bambino Gesù
Universitas Mercatorum
FLOPBG nasce dalla collaborazione scientifica tra l'Ospedale Pediatrico Bambino Gesù (IRCCS), il più grande centro di ricerca e cura pediatrica in Europa, e l'Università delle Camere di Commercio Italiane (Universitas Mercatorum), nell'ambito del Dottorato di Ricerca in Big Data and Artificial Intelligence.
Il progetto affronta una delle sfide più rilevanti dell'AI in sanità: come addestrare modelli di deep learning per la diagnosi medica per immagini quando i dati clinici sono distribuiti tra molteplici istituzioni e non possono essere condivisi centralmente per vincoli di privacy (GDPR), sovranità dei dati e regolamentazioni sanitarie nazionali ed internazionali.
La piattaforma è un sistema full-stack di simulazione e sperimentazione per il Federated Learning, progettato per valutare e confrontare strategie di addestramento distribuito rispetto ad approcci centralizzati, con particolare focus sull'imaging medico diagnostico — dalla radiologia pediatrica alla dermatologia oncologica, dalla tubercolosi alla retinopatia diabetica.
Il Federated Learning (FL) rappresenta un cambio di paradigma nell'addestramento distribuito di modelli di machine learning, consentendo a molteplici istituzioni di collaborare senza condividere i dati grezzi. Questa piattaforma di simulazione affronta le sfide reali del FL in ambito clinico: eterogeneità computazionale tra i nodi partecipanti (ospedali con risorse diverse), dinamismo nella partecipazione (disponibilità variabile dei client), distribuzione non-IID dei dati (casistiche cliniche diverse per sede), e vincoli di comunicazione (banda limitata, latenza variabile). Il framework implementa e confronta quattro algoritmi di aggregazione federata — FedAvg, FedProx, SCAFFOLD e FedNova — con meccanismi avanzati di quantizzazione dei pesi, sistema di reputazione dei client, e supporto per scenari multi-scala (nazionale, europeo, globale), con particolare applicazione all'imaging medico diagnostico.
A sinistra, una panoramica sintetica dell'intero framework — dal problema scientifico alle feature implementate. A destra, il diagramma metodologico dettagliato con il flusso operativo completo: configurazione, motore FL (client/server), aggregazione e valutazione dei risultati.
Il framework integra sette componenti chiave che affrontano le principali sfide del Federated Learning in ambienti reali, dalla gestione dell'eterogeneità dei nodi al sistema di raccomandazione per la selezione ottimale di algoritmo e configurazione.
Implementazione di 12 algoritmi FL (FedAvg, FedProx, SCAFFOLD, FedNova, FedExP, FedDyn, MOON, FedDisco, FedSpeed, FedLPA, DeepAFL, FedEL) per confrontare aggregazione, variance reduction, contrastive learning e selezione dinamica.
Simulazione realistica di nodi con potenza computazionale e velocità di rete variabili (strong, medium, weak), riflettendo le disparità infrastrutturali reali.
Modellazione della partecipazione intermittente dei client (fast, normal, slow) con tassi di partecipazione configurabili per simulare scenari realistici.
Supporto per distribuzioni non identicamente distribuite dei dati tra i nodi, condizione tipica degli scenari clinici multi-istituzionali.
Compressione dei pesi del modello (32, 16, 8 bit) per ridurre i costi di comunicazione, cruciale per nodi con connettività limitata.
Sistema di reputazione basato sulle prestazioni dei client per ponderare i contributi durante l'aggregazione, migliorando la robustezza del modello globale.
Sistema di raccomandazione condizionale che suggerisce algoritmo e iperparametri ottimali in base al dataset selezionato, considerando complessità, distribuzione e caratteristiche cliniche.
La pipeline di sperimentazione segue un flusso sequenziale in sei fasi: dalla selezione del dataset alla valutazione finale, passando per la configurazione dei client, il deployment geografico dei nodi, l'addestramento federato e l'aggregazione dei pesi.
La piattaforma include tre Use Case preconfigurati a scale geografiche crescenti, ciascuno ispirato a scenari clinici reali con diversi livelli di eterogeneità infrastrutturale, distribuzione dei dati e vincoli di comunicazione.
Rete di ospedali di montagna italiani per la detection di polmonite pediatrica. Simulazione di nodi con risorse limitate e connettività variabile.
Classificazione di lesioni cutanee distribuita su 12 centri in Europa nel framework EHDS. Eterogeneità tra grandi ospedali universitari e cliniche specializzate.
Rilevamento della tubercolosi coordinato dall'OMS su 15 centri in 6 continenti. Massima eterogeneità computazionale e partecipazione intermittente.