Gli algoritmi consigliano prodotti mentre facciamo acquisti online o suggeriscono brani che potrebbero piacerci mentre ascoltiamo musica su app di streaming.
Questi algoritmi funzionano utilizzando informazioni personali come i nostri acquisti passati e la cronologia di navigazione per generare consigli su misura. La natura sensibile di tali dati rende estremamente importante la tutela della privacy, ma i metodi esistenti per risolvere questo problema si basano su strumenti crittografici pesanti che richiedono enormi quantità di calcolo e larghezza di banda.
I ricercatori del MIT potrebbero avere una soluzione migliore. Hanno sviluppato un protocollo di tutela della privacy così efficiente da poter essere eseguito su uno smartphone su una rete molto lenta. La loro tecnica salvaguarda i dati personali garantendo al contempo che i risultati delle raccomandazioni siano accurati.
Oltre alla privacy degli utenti, il loro protocollo riduce al minimo il trasferimento non autorizzato di informazioni dal database, noto come perdita, anche se un agente malintenzionato tenta di indurre un database a rivelare informazioni segrete.
Il nuovo protocollo potrebbe essere particolarmente utile in situazioni in cui le fughe di dati potrebbero violare le leggi sulla privacy degli utenti, come quando un operatore sanitario utilizza la storia medica di un paziente per cercare in un database altri pazienti che presentavano sintomi simili o quando un’azienda offre pubblicità mirate a utenti sotto Normative europee sulla privacy.
“Questo è un problema davvero difficile. Ci siamo affidati a un’intera serie di trucchi crittografici e algoritmici per arrivare al nostro protocollo”, afferma Sacha Servan-Schreiber, uno studente laureato presso il Computer Science and Artificial Intelligence Laboratory (CSAIL) e autore principale del documento che presenta questo nuovo protocollo.
Servan-Schreiber ha scritto l’articolo con il collega studente laureato CSAIL Simon Langowski e il loro consulente e autore senior Srinivas Devadas, professore di ingegneria elettrica di Edwin Sibley Webster. La ricerca sarà presentata all’IEEE Symposium on Security and Privacy.
I dati della porta accanto
La tecnica alla base dei motori di raccomandazione algoritmica è nota come ricerca del vicino più vicino, che implica la ricerca del punto dati in un database più vicino a un punto di query. I punti dati mappati nelle vicinanze condividono attributi simili e sono chiamati vicini.
Queste ricerche coinvolgono un server collegato a un database online che contiene rappresentazioni concise degli attributi dei punti dati. Nel caso di un servizio di streaming musicale, tali attributi, noti come vettori di funzionalità, potrebbero essere il genere o la popolarità di brani diversi.
Per trovare un brano consigliato, il client (utente) invia una query al server che contiene un determinato vettore di funzionalità, come un genere di musica che piace all’utente o una cronologia compressa delle sue abitudini di ascolto. Il server fornisce quindi l’ID di un vettore di funzionalità nel database più vicino alla query del client, senza rivelare il vettore effettivo. Nel caso dello streaming musicale, quell’ID sarebbe probabilmente il titolo di un brano. Il client apprende il titolo del brano consigliato senza apprendere il vettore di funzionalità ad esso associato.
“Il server deve essere in grado di eseguire questo calcolo senza vedere i numeri su cui sta eseguendo il calcolo. In realtà non può vedere le funzionalità, ma deve comunque fornirti la cosa più vicina nel database”, afferma Langowski.
Per raggiungere questo obiettivo, i ricercatori hanno creato un protocollo che si basa su due server separati che accedono allo stesso database. L’utilizzo di due server rende il processo più efficiente e consente l’uso di una tecnica crittografica nota come recupero di informazioni private. Questa tecnica consente a un client di interrogare un database senza rivelare cosa sta cercando, spiega Servan-Schreiber.
Superare le sfide della sicurezza
Ma mentre il recupero delle informazioni private è sicuro sul lato client, non fornisce da solo la privacy del database. Il database offre una serie di vettori candidati – possibili vicini più prossimi – per il cliente, che in genere vengono vagliati in seguito dal cliente usando la forza bruta. Tuttavia, ciò può rivelare molto sul database al cliente. L’ulteriore sfida alla privacy è impedire al cliente di apprendere quei vettori aggiuntivi.
I ricercatori hanno utilizzato una tecnica di messa a punto che elimina in primo luogo molti dei vettori extra, quindi hanno utilizzato un trucco diverso, che chiamano mascheramento ignaro, per nascondere eventuali punti dati aggiuntivi ad eccezione del vicino effettivo più vicino. Ciò preserva in modo efficiente la privacy del database, quindi il client non imparerà nulla sui vettori di funzionalità nel database.
Una volta progettato questo protocollo, lo hanno testato con un’implementazione non privata su quattro set di dati del mondo reale per determinare come ottimizzare l’algoritmo per massimizzare la precisione. Quindi, hanno utilizzato il loro protocollo per condurre query di ricerca del vicino più vicino privato su quei set di dati.
La loro tecnica richiede alcuni secondi di tempo di elaborazione del server per query e meno di 10 megabyte di comunicazione tra client e server, anche con database che contenevano più di 10 milioni di elementi. Al contrario, altri metodi sicuri possono richiedere gigabyte di comunicazione o ore di tempo di calcolo. Con ogni query, il loro metodo ha raggiunto una precisione superiore al 95% (il che significa che quasi ogni volta ha trovato il vicino approssimativo più vicino al punto di query).
Le tecniche utilizzate per abilitare la privacy del database ostacoleranno un client dannoso anche se invia false query per cercare di indurre il server a perdere informazioni.
“Un client dannoso non apprenderà molte più informazioni di un client onesto che segue il protocollo. E protegge anche da server dannosi. Se uno si discosta dal protocollo, potresti non ottenere il risultato giusto, ma non impareranno mai quale fosse la domanda del cliente”, afferma Langowski.
In futuro, i ricercatori hanno in programma di adattare il protocollo in modo che possa preservare la privacy utilizzando un solo server. Ciò potrebbe consentirne l’applicazione in più situazioni del mondo reale, poiché non richiederebbe l’uso di due entità non collusive (che non condividono informazioni tra loro) per gestire il database.
“La ricerca del vicino più vicino è alla base di molte applicazioni critiche basate sull’apprendimento automatico, dalla fornitura agli utenti di consigli sui contenuti alla classificazione delle condizioni mediche. Tuttavia, in genere richiede la condivisione di molti dati con un sistema centrale per aggregare e consentire la ricerca”, afferma Bayan Bruss, responsabile della ricerca sull’apprendimento automatico presso Capital One, che non è stato coinvolto in questo lavoro. “Questa ricerca fornisce un passaggio chiave per garantire che l’utente riceva i vantaggi dalla ricerca del vicino più vicino, pur avendo la certezza che il sistema centrale non utilizzerà i suoi dati per altri scopi”.