[ad_1]
Per progettare proteine con funzioni utili, i ricercatori di solito iniziano con una proteina naturale che ha una funzione desiderabile, come emettere luce fluorescente, e la sottopongono a molti cicli di mutazioni casuali che alla fine generano una versione ottimizzata della proteina.
Questo processo ha prodotto versioni ottimizzate di molte proteine importanti, inclusa la proteina fluorescente verde (GFP). Tuttavia, per altre proteine, si è rivelato difficile generare una versione ottimizzata. I ricercatori del MIT hanno ora sviluppato un approccio computazionale che rende più semplice prevedere le mutazioni che porteranno a proteine migliori, sulla base di una quantità relativamente piccola di dati.
Utilizzando questo modello, i ricercatori hanno generato proteine con mutazioni che avrebbero portato a versioni migliorate della GFP e una proteina del virus adeno-associato (AAV), che viene utilizzata per fornire DNA per la terapia genica. Sperano che possa essere utilizzato anche per sviluppare ulteriori strumenti per la ricerca sulle neuroscienze e le applicazioni mediche.
“La progettazione delle proteine è un problema difficile perché la mappatura dalla sequenza del DNA alla struttura e alla funzione delle proteine è davvero complessa. Potrebbe esserci una grande proteina a 10 cambiamenti di distanza nella sequenza, ma ogni cambiamento intermedio potrebbe corrispondere a una proteina totalmente non funzionale. È come cercare di trovare la strada per raggiungere il bacino fluviale di una catena montuosa, quando ci sono picchi scoscesi lungo il percorso che bloccano la vista. Il lavoro attuale cerca di rendere il letto del fiume più facile da trovare”, afferma Ila Fiete, professore di scienze cognitive e del cervello al MIT, membro del McGovern Institute for Brain Research del MIT, direttore del K. Lisa Yang Integrative Computational Neuroscience Center, e uno degli autori senior dello studio.
Regina Barzilay, professoressa distinta di intelligenza artificiale e salute presso la School of Engineering del MIT, e Tommi Jaakkola, professore di ingegneria elettrica e informatica Thomas Siebel del MIT, sono anche autori senior di un articolo ad accesso aperto sul lavoro, che sarà pubblicato presentato alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento a maggio. Gli studenti laureati del MIT Andrew Kirjner e Jason Yim sono gli autori principali dello studio. Altri autori includono Shahar Bracha, un postdoc del MIT, e Raman Samusevich, uno studente laureato presso l’Università tecnica ceca.
Ottimizzazione delle proteine
Molte proteine presenti in natura hanno funzioni che potrebbero renderle utili per la ricerca o per applicazioni mediche, ma hanno bisogno di un po’ di ingegneria in più per ottimizzarle. In questo studio, i ricercatori erano inizialmente interessati allo sviluppo di proteine che potessero essere utilizzate nelle cellule viventi come indicatori di tensione. Queste proteine, prodotte da alcuni batteri e alghe, emettono luce fluorescente quando viene rilevato un potenziale elettrico. Se progettate per l’uso nelle cellule dei mammiferi, tali proteine potrebbero consentire ai ricercatori di misurare l’attività dei neuroni senza utilizzare elettrodi.
Sebbene decenni di ricerca siano stati dedicati all’ingegneria di queste proteine per produrre un segnale fluorescente più forte, su una scala temporale più rapida, non sono diventate abbastanza efficaci per un uso diffuso. Bracha, che lavora nel laboratorio di Edward Boyden presso il McGovern Institute, ha contattato il laboratorio di Fiete per vedere se potevano lavorare insieme su un approccio computazionale che potrebbe aiutare ad accelerare il processo di ottimizzazione delle proteine.
“Questo lavoro esemplifica la serendipità umana che caratterizza tante scoperte scientifiche”, afferma Fiete. “È nato dal ritiro del Collettivo Yang Tan, un incontro scientifico di ricercatori provenienti da più centri del MIT con missioni distinte unificate dal supporto condiviso di K. Lisa Yang. Abbiamo appreso che alcuni dei nostri interessi e strumenti nel modellare il modo in cui il cervello apprende e ottimizza potrebbe essere applicato nel dominio totalmente diverso della progettazione delle proteine, come viene praticato nel laboratorio di Boyden”.
Per ogni proteina che i ricercatori potrebbero voler ottimizzare, esiste un numero quasi infinito di possibili sequenze che potrebbero essere generate scambiando diversi amminoacidi in ciascun punto della sequenza. Con così tante possibili varianti, è impossibile testarle tutte sperimentalmente, quindi i ricercatori si sono rivolti alla modellazione computazionale per cercare di prevedere quali funzioneranno meglio.
In questo studio, i ricercatori si sono proposti di superare queste sfide, utilizzando i dati della GFP per sviluppare e testare un modello computazionale in grado di prevedere versioni migliori della proteina.
Hanno iniziato addestrando un tipo di modello noto come rete neurale convoluzionale (CNN) su dati sperimentali costituiti da sequenze GFP e dalla loro luminosità, la caratteristica che volevano ottimizzare.
Il modello è stato in grado di creare un “paesaggio del fitness” – una mappa tridimensionale che descrive il fitness di una data proteina e quanto differisce dalla sequenza originale – basato su una quantità relativamente piccola di dati sperimentali (da circa 1.000 varianti di GFP).
Questi paesaggi contengono picchi che rappresentano proteine più adatte e valli che rappresentano proteine meno adatte. Prevedere il percorso che una proteina deve seguire per raggiungere i picchi di fitness può essere difficile, perché spesso una proteina dovrà subire una mutazione che la renda meno adatta prima di raggiungere un vicino picco di fitness più elevato. Per superare questo problema, i ricercatori hanno utilizzato una tecnica computazionale esistente per “livellare” il panorama del fitness.
Una volta attenuati questi piccoli dossi nel paesaggio, i ricercatori hanno riqualificato il modello della CNN e hanno scoperto che era in grado di raggiungere più facilmente picchi di fitness maggiori. Il modello è stato in grado di prevedere sequenze GFP ottimizzate che contenevano fino a sette amminoacidi diversi dalla sequenza proteica con cui avevano iniziato, e si stima che le migliori di queste proteine fossero circa 2,5 volte più adatte dell’originale.
“Una volta ottenuto questo paesaggio che rappresenta ciò che il modello pensa sia nelle vicinanze, lo appianiamo e poi riqualifichiamo il modello sulla versione più uniforme del paesaggio”, afferma Kirjner. “Ora c’è un percorso agevole dal punto di partenza fino alla cima, che il modello è ora in grado di raggiungere apportando piccoli miglioramenti in modo iterativo. Lo stesso è spesso impossibile per i paesaggi irregolari”.
Verifica teorica
I ricercatori hanno anche dimostrato che questo approccio ha funzionato bene nell’identificare nuove sequenze per il capside virale del virus adeno-associato (AAV), un vettore virale comunemente utilizzato per trasportare il DNA. In tal caso, hanno ottimizzato il capside per la sua capacità di impacchettare un carico utile di DNA.
“Abbiamo utilizzato GFP e AAV come prova di concetto per dimostrare che si tratta di un metodo che funziona su set di dati molto ben caratterizzati e, per questo motivo, dovrebbe essere applicabile ad altri problemi di ingegneria proteica”, afferma Bracha .
I ricercatori ora intendono utilizzare questa tecnica computazionale sui dati che Bracha ha generato sulle proteine indicatrici di voltaggio.
“Decine di laboratori ci hanno lavorato per due decenni, e ancora non c’è niente di meglio”, dice. “La speranza è che ora, con la generazione di un set di dati più piccolo, potremmo addestrare un modello in silico e fare previsioni che potrebbero essere migliori rispetto agli ultimi due decenni di test manuali”.
La ricerca è stata finanziata, in parte, dalla National Science Foundation degli Stati Uniti, dal consorzio Machine Learning for Pharmaceutical Discovery and Synthesis, dalla Abdul Latif Jameel Clinic for Machine Learning in Health, dal programma DTRA Discovery of Medical Countermeasures Against New and Emerging threats, dal Il programma DARPA Accelerated Molecular Discovery, il finanziamento Sanofi Computational Antibody Design, l’Ufficio statunitense di ricerca navale, l’Howard Hughes Medical Institute, il National Institutes of Health, il K. Lisa Yang ICoN Center e il K. Lisa Yang e Hock E. Centro Tan per la Terapia Molecolare del MIT.
[ad_2]
Source link