La proteomica, forse per la sua complessità, forse perchè considerata secondaria rispetto alle genomica, ha un limitato numero di tools disponibili on-line. Specialmente, non è al momento ancora automatizzato il passaggio dal nome della proteina alla sua funzione.
Spesso sistemi di identificazione proteica come Mascot o Sequest sono in grado di fornire solo un’informazione di presenza/assenza delle proteine nel complesso analizzato. Con molta fatica già si riesce ad aggiungere un’informazione quantitativa (ovvero stabilire le proporzioni in cui si presentano le diverse proteine – quali sono quelle più espresse, insomma), usando tecniche che si basano su tag isotopici (iTRAQ, ICAT, SILAC).
Una volta identificate le proteine presenti in un complesso, entra in gioco il più delle volte l’esperienza del ricercatore, che deve analizzare le sequenze una ad una. Si possono usare database come prosite, o pfam per cercare di stabilire domini ofamiglie comuni, e qualche caratteristica funzionale. Non esistono però tools paragonabili a quelli a disposizione per l’analisi di liste genomiche, come la gene ontology, o David.
Personalmente per arricchire le informazioni generate da i software di identificazione ho sviluppato un piccolo tool che si integra con un software di visualizzazione di network molto leggero e dinamico (java biolayout). Faccio compiere su il database di SwissProt una ricerca degli ACC che ho a disposizione ed estraggo dalla query il campo KEYWORD. Questa è un’annotazione non sempre presente ma che -se c’è- identifica chiaramente quali sono le caratteristiche funzionali della proteina. Sulla base di questa informazione riesco a generare un’immagine che mi fornisce un’idea (parziale) del legame dei diversi elementi che fanno parte del complesso proteico.
Un’altra operazione ricorrente è collezionare le informazioni genomiche. Ora, come è noto, non vi è sempre una relazione univoca tra il gi| della proteina identificata e il suo gene. Spesso una stessa proteina può derivare da diversi cDNA, ecc..
La mia soluzione è operare una serie di step di calcolo impegnativi per il server ma che mi permettono con buona approssimazione di linkare all’informazione proteica anche i gene ID, le refseq, e via dicendo.
Sfrutto tre strumenti:
$query = "fastacmd -d $db -s $protID ";
$query = "blastall -p blastp -i temp.faa -d refseq_protein -e 1e-500 -m 8";
$query = "getz -e \'[refseqrelease -acc:$refseq]\'";
in questo modo riesco ad estrarre prima la sequenza della proteina identificata partendo dal sui gi|
la seconda query fa un allineamento della sequenza ottenuta con un database refseq di proteine, molto stringente. Del la lista di match risultanti viene preso solo il primo risultato utile. E a questo livello ho le informazioni fondamentali genomiche, ovvero il gi| del gene corrispondente. Un’ultima query mi permette di estrarre maggiori informazioni ancora, come i riferimenti alla letteratura, per esempio.
E’ un giro un po’ complesso ma funziona!