Sentinel (progetto pazzesco!!!)
Pubblicato da fuliggians su 10 Gennaio 2008
Pubblicato su bioinfo for fun, bioinformatica, link, scienza | Contrassegnato da tag: Sentinel | Lascia un commento »
Si cercano bioinformatici!! (oppotunità al DIBIT)
Pubblicato da fuliggians su 28 Novembre 2007
Ultimamente mi girano sotto gli occhi tante opportunità di lavoro, ma per lo più sono per posizioni high level.
Questa mi pare particolarmente appetibile, essendo -per pigri – qui in Italia, presso il dibit. Naturalmente ve la lascio in inglese, e vi segnalo solo il telefono, non la mail per evitare eventuali spider collettori spam. Comunque un bravo bioinformatico può facilmente desumerla
We look for a motivated and enthusiastic person with experience in bioinformatics to work within the bioinformatics group of the Val Borbera project, a large collaborative study of a genetically isolated population aimed at the identification of genetic risk factors for common disorders.
We are collecting phenotypic data from medical examinations and laboratory analysis, as well as genetic and genealogical data. We look for a person with a bioinformatics background to work at the development of the informatics tools for the analysis of clinical, genealogical and genetic data.
The salary will be based on the experience. For information contact
Daniela Toniolo, PhD
Genetics of Common Disorders
DIBIT, San Raffaele Scientific Institute
via Olgettina 58, 4-A2
I-20132 Milano, Italy
tel +39-02-26434764/4721
E’ previsto pure un salario!!!
Pubblicato su bioinformatica, novità, opportunità lavoro | Contrassegnato da tag: bioinformatica, DIBIT, lavoro, milano | 3 Commenti »
Presentazione per Galaxy (nuova piattaforma per analizzare dati genomici)
Pubblicato da fuliggians su 26 Novembre 2007
L’integrazione è sempre più facile da realizzare. Ecco uploadata una presentazione powerpoint di questo nuovo tool, di cui parlo su Inside Bioinfo. Un click ed ecco per i più pigri una favolosa presentazione offerta dal bioamico Matteo Cesaroni!
Many thanks!!
Pubblicato su bioinformatica, fuligramma, novità, sorgente, strumenti, tutorial | Contrassegnato da tag: bioinformatica, galaxy | 4 Commenti »
applicazioni biologiche per alberi dei suffissi
Pubblicato da fuliggians su 16 Novembre 2007
Le sequenze di informazioni biologiche sono comunemente archiviate in locazioni contigue della memoria del computer. Questo metodo di stoccaggio non risulta efficiente per un certo numero di applicazioni. Il nodo del problema sta nel fatto che i dati archiviati in modo sequenziale devono in buona sostanza essere processate in modo sequenziale.
Invece, spesso, il valore informativo all’interno della sequenza risulta essere caratterizzato dalla presenza di certe sottosequenze, ripetute o meno; come può capitare in sequenze di DNA codificanti per una determinata proteina. Risulta ovvio come il dover necessariamente accedere sequenzialmente ad ogni stringa dati – quando si cerca una determinata sottosequenza all’interno di un intero dataset, risulta inefficace e dispersivo; specie se il volume di dati da analizzare cresce in modo esponenziale come è avvenuto negli ultimi anni con la genomica e la proteomica. Il tempo di accesso diventa il fattore limitante. Quello che allora serve è un sistema di indicizzazione delle sequenze efficiente. Un sistema che permetta di accedere ad una sequenza in termini di cosa contenga, senza dover specificare dove essa sia contenuta. L’albero dei suffissi.
Lo stesso Dan Gusfield, in un suo breve scritto “Suffix trees (and relatives) come of age in bioinformatics”, mette l’accento su quante possano essere le applicazioni in bioinformatica di questa struttura dati.
- All’atto in cui divenne disponibile l’intera sequenza genomica di due organismi filogeneticamente omologhi, una delle prime questioni che venne posta fu la necessità di compiere un allineamento genomico.
Esistono molti, sofisticati algoritmi adatti per l’allineamento di due sequenze, includendo i famosi metodi di Needleman & Wunsch e di Smith & Waterman. Essi funzionano bene quando si tratta di allineare sequenze relativamente brevi (singole proteine, per esempio), ma spesso risultano o troppo lenti o necessitano di troppa memoria quando si tratta di allineare sequenze di milioni di nucleotidi.
Gli algoritmi standard ottimali di programmazione dinamica hanno un funzionamento con tempo e spazio proporzionale a O(n^2); invece tecniche euristiche come Fasta e Blast sono mediamente più veloci, ma sono anch’esse basate su una strategia “match and extend”, dove la seconda parte prende anch’essa un tempo O(n^2). Risulta quindi conveniente utilizzare una struttura come l’albero dei suffissi, che risulta in tali situazioni molto più efficace.
Vedremo poco più avanti come questo problema sia affrontato da due software, il MUMmer e il MGA, quali siano i diversi approcci e a quali risultati giungono.
¨ Una seconda applicazione molto interessante degli alberi dei suffissi è quella di individuare una eventuale contaminazione del DNA.
Il problema che si pone è meno banale di quanto si creda, se si pensa a quante possano essere le fonti di contaminazione all’atto di sequenziare (il classico problema dell’individuazione del DNA di un dinosauro). Generalizzando il problema, si tratta di riuscire confrontare due sequenze, e distinguere all’interno della prima sequenza la presenza di possibili sottostringhe della seconda.
Per risolvere efficacemente la questione, si può optare per costruire un albero dei suffissi generalizzato contenente le sequenze S1 (quella del presunto dinosauro) e la sequenza S2 (quella dell’elemento contaminante; il DNA del tecnico che ha lavorato sui dati, per esempio). Si marcano quindi i nodi interni che presentano nel relativo sottoalbero sia suffissi di S1 che di S2, ed infine si selezionano, tra questi, i nodi che presentano una profondità di stringa superiore ad una determinata soglia.
¨ Strutture ripetitive in sequenze biologiche. E’ noto che, specialmente per gli eucarioti, sono state individuate migliaia di famiglie di sequenze ripetitive di DNA.
Esse giocano un ruolo fondamentale per alcune funzioni biologiche, e per l’interesse che generano nello studio dell’evoluzione. Usualmente si distinguono tre strutture ripetitive: ripetizioni locali, ripetizioni singole (le cui funzioni sono meno chiare), ripetizioni complesse. Un esempio di architettura biologica molto importante e strutturate come ripetizioni locali sono le forcine (hairpin) che hanno una tipica struttura palindrome, o anche i siti di taglio degli enzimi di restrizione. Una palindrome è una stringa dati che può essere letta ugualmente in avanti o indietro. Strutture palindrome sono comuni nelle sequenze di DNA; sequenze di DNA sono palindrome complementari, ove A-T e C-G sono complementi, se ogni carattere in metà della stringa è cambiato con il suo carattere complementare, per esempio: AGCTCGCGAGCT.
Il problema dell’individuazione in tempo lineare di tutte le “maximal repeats” è risolvibile proprio con gli alberi dei suffissi.
¨ Altre applicazioni citate in rete sono il “Circular DNA Sequences Problems”. Ovvero, data una sequenza circolare S di lunghezza n è definita come una sequenza nella quale il carattere n è considerato precedente al carattere 1.
I caratteri nella sequenza sono numerati sequenzialmente da 1 ad n, partendo da un punto arbitrario di S. Date due sequenze della medesima lunghezza, un albero dei suffissi può essere usata per compararle, per determinare se sono uguali, in tempo lineare. Si può operare tagliando la prima sequenza circolare S1 in un punto arbitrario e quindi ottenere una sequenza lineare L1. Duplicando L1, si crea la sequenza L1L1. A questo punto, si costruisce l’albero dei suffissi T1 per L1L1.
Quindi si attraversa T1 secondo la regola per cui, ad ogni nodo, l’attraversamento segue l’arco il cui primo carattere è lessicalmente il più piccolo di tutti i primi caratteri dei vari archi del nodo. Il percorso continua finchè il path P1 attraversato ha una profondità di sequenza n.
Dopo di che si ripete l’operazione per la sequenza S2 fino a raggiungere il path P2. Infine si comparano P1 and P2 per verificare la loro eventuali uguaglianza.
¨ Il problema del “The k-mismatch (error)”, che tratta la ricerca di sequenze con errori. In special modo, ci si riferisce al match di sequenze con un dato (k) numero di errori.
Per esempio, dato un set di stringhe, si cerchino tutte le occorrenze del pattern P, tipo sequenza aminoacidica, permettendo un solo errore. P può presentarsi differentemente come P’ in ognuna delle stringhe, seguendo una dei tre possibili errori: inserzione, cancellazione, o sostituzione. Per risolvere questo problema, abbiamo bisogno di generare ogni possibile stringa P’ che può essere derivata da P cambiando un solo carattere. Si costruisce quindi l’albero dei suffissi generalizzato contenente la sequenza proteica di base e tutte queste stringhe. Infine si attraversa l’albero per individuare tutte le locazioni di partenza di tutte le possibili occorrenze di P’. Questa ricerca può essere effettuata in tempo lineare ed è proporzionale alla lunghezza di P’.
Pubblicato su bioinformatica, scienza, strumenti | Contrassegnato da tag: alberi dei suffissi, bioinformatica, suffix tree | 2 Commenti »
altra interessante opportunità
Pubblicato da fuliggians su 9 Ottobre 2007
The UNIBASEL-DKBV (Departement Klinisch-Biologische Wissenschaften Universitat Basel) are looking to recruit
A RESEARCH TECHNICIAN IN MOLECULAR BIOLOGY
(100% – permanent; starting November 1, 2007 or as agreed)
The successful applicant must have been trained as a research technician or hold an equivalent degree (but not a PhD). She/he will be highly motivated and ideally have expertise in molecular and cell biology techniques including DNA/RNA and cell biochemistry (cell transfection and/or protein expression analysis) and possibly knowledge of microscopy. Good knowledge of the English language is required.
The host group studies the cell-cell signalling processes controlling vertebrate embryonic development using mouse molecular genetics (advanced knockout and transgenic strategies) in combination with cell biochemistry, embryo and organ rudiment cultures. The successful candidate will join an international team at the DKBW Centre for Biomedicine. In addition to active participation in research projects, the position will also include lab management and support functions.
The University of Basel offers competitive salaries and an attractive research environment and the city of Basel provides an attractive cultural setting with a high standard of living and easy access to neighbouring Germany, France, Italy and the rest of Europe.
For additional information, please check the following website:
http://cbm.unibas.ch/frontpage/research-groups/group-zeller/
Complete applications should include a CV, copies of all relevant diplomas and degrees, summary of training, research and technology expertise and names and addresses of 2-3 referees. Please send your application as soon as possible by e-mail to: Rolf.Zeller@unibas.ch
Or
Prof. Rolf Zeller, Developmental Genetics, DKBW Centre for Biomedicine, Mattenstrasse 28, CH-4058 Basel / SWITZERLAND
Pubblicato su novità, opportunità lavoro | Lascia un commento »
job opportunity: occasione per un bioinformatico in UK
Pubblicato da fuliggians su 21 Settembre 2007
| Velocemente vi copio/incollo una nuova possibilità per fare un po’ di buona scienza in Scozia. Un’esperienza all’estero come fa a non attirare???:-)
Opening for a computer scientist to help solving one of the fundamental problems of Cell Biology: the elucidation of protein-protein interactions |
|
| Reference | |
| Job Type | Full-time |
| Job Status | Sourcing |
| Date Posted | Thursday, 20 September 2007 |
| Location | Wellcome Trust Centre for Cell Biology, University of Edinburgh, UK |
| Start Date | ASAP |
| Duration | |
| Company Information | University of Edinburgh Wellcome Trust Centre for Cell Biology Michael Swann Building, King’s Buildings Edinburgh, EH9 3JR Website: http://www.ed.ac.uk/ |
| Job Description |
Our group: We are a young group of currently seven people from Germany, UK, Denmark, Brazil, and China. The group has started four years ago in Milan, Italy, and relocated a bit more than a year ago to Edinburgh. We are embedded in one of the best Cell Biology Institutes of the UK interacting with some of the world’s best researchers in Cell Biology. Our own work focuses on acquiring data of proteins by mass spectrometry and on designing computational tools to mine this data for valuable information.
Our aim: We want to find out which proteins do interact in the cell. There are many thousand proteins in a human cell, most having their own distinct function. However, proteins usually act in complexes. Protein complexes can be isolated and their protein components be investigated by mass spectrometry. The analysis does reveal the identity of the proteins in the complex but not which proteins interact directly. This information is currently not accessible at all or only for a very limited number of complexes. We are therefore developing a new approach that will deliver this information.
Our approach: We chemically link proteins in complexes and preserve in this way their proximity for the mass spectrometric analysis. The proteins are then degraded in a controlled way into peptides. A few of the peptides are actually a pair of peptides stably linked to one an other by the chemical linker and thus containing the information we desire. These cross-linked peptides are at the centre of our interest. We detect them together with all the other peptide by mass spectrometry and then need to identify them. We do so by matching all spectra to a database containing all possible peptide combinations. In this way we find the peptide pair that matches best to our mass spectrometric data. The approach is computationally very challenging: 1000 proteins give easily rise to 1,000,000 peptides and hence to 5×1011 peptide pairs. A person in our lab has been working since 10 months on this computational problem and the open post is to reinforce these efforts.
Our requirements: Any candidate applying for this position should be knowledgeable about the techniques needed for the design of efficient algorithms and be able to use appropriate mathematical tools for analysing their performance. Moreover he/she should understand the importance of the data structures used in a particular implementation of an algorithm, and how the data structure that is used can affect the running time. Desirable skills include: knowledge of Java, databases (PostgreSQL) and web-based programming. More than four years of active research experience or a doctorate degree are required. Our offer: Application deadline is 03 October 2007. Funding is secured until 30.04.2009. The salary depends on the experience level (approx. 30,000 GBP/year) and is fixed by the European Commission who is the source of funding. In addition, travel allowance is paid according to the rules of the European Commission. Income tax in the UK is in the order of 25%. Besides this, Edinburgh is the capital of Scotland, one of the most beautiful cities of Europe with a vivid cultural live and a close proximity to the legendary highlands. People are cheerful and open making a stay here an ideal opportunity to perfect English skills in addition to participating in exciting science.
|
| Qualifications | PhD or minimum 4 years active research experience |
| Compensation | £28,023 – £30,779 |
| Highest finished education | University |
| How to Apply | Applications must be directed to www.jobs.ed.ac.uk quoting vacancy ref 3007967.Further information: Juri Rappsilber, Wellcome Trust Centre for Cell Biology, University of Edinburgh, juri.rappsilber@ed.ac.uk, www.wcb.ed.ac.uk/rappsilber.htm |
| Email Resume To | juri.rappsilber@ed.ac.uk |
| Contact Info | Juri Rappsilber Contact Phone: 0131 651 7057 Contact Email: juri.rappsilber@ed.ac.uk |
Pubblicato su bioinformatica, estero, link, opportunità lavoro, phd, protein-protein interaction | Lascia un commento »
Visualizzazione di network di interazione tra proteine (sulla base di parole chiave)
Pubblicato da fuliggians su 11 Settembre 2007
Parlando di protein-protein interaction, risulta spesso difficoltoso creare classi e categorie per poter assemblare cluster funzionali di proteine. Le informazioni circa interazioni funzionali sono o non disponibili, o limitate a piccoli e ben specifici gruppi proteici, oppure sono sottoposte a una diaspora che costringe il bioinformatico a raccogliere i dati dalle fonti e database più diversi.
Eppure, è comune in proteomica avere a che fare con enormi liste di proteine identificate in un unico complesso; un’analisi quantitativa può anche fornire informazioni importantissime quali per esempio la lista delle le proteine più espresse. Eppure al contempo non si è in grado di collezionare in modo semplice le relazioni che vigono tra di esse. Questo perchè uno studio funzionale non è certo un’analisi di routine da condurre, e le conseguenti annotazioni presenti nei vari DB non hanno una forma compiuta, facilmente accessibile, come avviene invece per esempio nelle analisi genomiche.
Per superare questo limite ci viene in aiuto il fatto che la visualizzazione delle reti biologiche sta diventando un’operazione sempre più comune per l’analisi di dataset di grosse dimensioni. Questi network fanno riferimento ad un’ampia varietà di interazioni biologiche, similarità di sequenza, vie metaboliche, regolazioni geniche o interazioni proteiche (evviva).
Il mio obiettivo in questo caso è trovare un modo automatico di dare una rappresentazione visiva delle interazioni che possono esserci tra le proteine che compongono il complesso analissato. Interazioni nel senso più ampio, non solo quelle funzionali.
Dunque, la mia piccola ricetta comprende:
1) una lista di proteine identificate con il relativo score di identificazione
2) un server SRS che mi permetta di accedere comodamente a swissprot
3) uno script perl realizzato ad hoc
4) un software di visualizzazione di network
Spieghiamo le cose con ordine. La lista di proteine possiamo ottenerla da un’analisi di spettrometria di massa, usando per esempio come software di ricerca Mascot. Un piccolo lavoro di parsing ci permette di ottenere una semplice lista di proteine identificate.
SRS è un sistema che permette di interrogare database biologici. All’interno di uno script perl è possibile inserire query che sfruttano la potenzialità del comando getz per estrarre facilmente la sequenza fasta e tutte le altre informazioni della relativa proteina.
L’assunto di base è che il database SWISSPROT contiene tra i vari dati che fornisce un campo molto utile KEYWORD. Ovvero una lista di parole chiave che identificano genericamente le caratteristiche della proteina, e che quindi danno un sunto di tutte le sue proprietà desunte dai vari paper.
Estraiamo allora per ogni protein ID (che abbiamo dalla lista di proteine identificate) i vari keyword, e li associamo allo score di identificazione.
Infine diamo in pasto il risultato ad un software per la visualizzazione di network.
Ce ne sono di ogni tipo. Ve ne propongo uno piccolo, dinamico, 2D: BIOLAYOUT JAVA. Lo potete trovare descritto qui e già scaricato nel box dei file del blog. Un breve studio della sua sintassi mi permette di generare un file da dargli in pasto.
Ecco il risultato, una bella immagine che può far bella figura nel mio paper, e che mi dà un’idea complessiva delle interazioni tra proteine, quali sono fosforilate, quali hanno una struttura 3D conosciuta, ecc…
Non male per 100 righe di programma:
Pubblicato su Mascot, bioinformatica, perl, protein-protein interaction, smart trick, sorgente, srs, swissprot | Lascia un commento »
un bash file per gestire agevolmente procedure e viste mysql
Pubblicato da fuliggians su 10 Settembre 2007
se sei un bioinformatico bravo e buono ti avran chiesto gentilmente almeno una volta di gestire il DB opensource (mysql, naturalmente) del tuo laboratorio; e questo col tempo diventerà sempre più complesso, con una proliferazione di query, stored procedure e viste. Il tutto in un organizzato disordine. Personalmente trovo utile cercare di tenere quanto più possibile le operazioni dentro mysql, tanto da preferire utilizzare il comando EVENT piuttosto che il CRONTAB del server. Scelta personale. Oggi volevo mostrarvi un piccolo trucchetto che mi sono inventato per gestire ed automatizzare molte delle situazioni che possono capitare.
La situazione (particolare) che mi ritrovo ad affrontare è questa: il database è popolato quotidianamente da una grande mole di dati (spettrometria?, microarray?, quel che vuoi). Ogni giorno viene creata una tabella che si chiama MOLEDIDATI_data. E rimane lì come archivio.
Ora immaginate di dover fare una qualunque operazione su una tabella passata. Dovresti scrivere o modificare una stored procedure per esempio indicando quale tabella usare. Personalmente preferisco automizzare quanto più possibile. Ho costruito allora una struttura del genere:
- Prima ho creato un database “action” (CREATE DATABASES action;)
- poi ho creato una tabella “listprocedure” così fatta:
DROP TABLE IF EXISTS action.listprocedure;CREATE TABLE action.listprocedure (
indice int(10) unsigned NOT NULL AUTO_INCREMENT,
tipo varchar(45) NOT NULL,
query text NOT NULL,
PRIMARY KEY (indice)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
- a questo punto posso popolare la tabella listprocedure con qualunque azione che voglio operare su una GENERICA tabella, per esempio gli piazzo dentro la creazione di una stored procedure (in questo caso semplicissima) e la sua relativa CALL:
INSERT INTO action.listprocedure (query) VALUES (‘DELIMITER $$
DROP PROCEDURE IF EXISTS DATABASE.nomeacaso $$
CREATE PROCEDURE DATABASE.nomeacaso ()
BEGIN
SELECT * FROM DATABASE.MOLEDIDATI_datagenerica;
END $$DELIMITER ;
CALL DATABASE.nomeacaso;’)
a questo punto sono pronto. Mi basta scrivere un piccolo file bash (che chiameremo pippo.sh) che fa da motore alla sostituzione dei nomi all’interno della query:
#!/bin/bash
indiceProc=$1
day=$2
result=`mysql -h [host] -u root –password=[psw]<<EOF
use action; SELECT query FROM action.listprocedure where indice=$indiceProc;
EOF
`
updated=${result//datagenerica/$day}
for line in $updated; do
if [ $line != "query"]; then
echo “$line” >engineUpdated.sql
fi
done#eseguo
mysql -h [host] -u root –password=[pwd]<engineUpdated.sql
a questo punto sono a posto. Mi basta lanciare il bash come:
pippo.sh 1 010307 (che lancia la query con indice 1 sulla tabella del 01 Marzo 2007)
il vantaggio è che non devo fare una specifica query per ogni tabella e tutte le query rimangono dentro al DB in un formato “generico”
Pubblicato su bash, bioinformatica, mysql, sorgente | Lascia un commento »
bio::blog #14 è uscito
Pubblicato da fuliggians su 5 Settembre 2007
Come al solito anche questo numero di bio::blog è pregno di interessanti link. Navigateli!
Mi lascia sorridente un articolo di Sandra Porter , linkato alla fine, che discute di quanto sia importante anche per un biologo imparare a programmare. A dimostrazione che le idee navigano da una regione all’altra, da una mente all’altra (sarà telepatia) vi rimando per il mio punto di vista al blog che avevo scritto all’inizio di luglio su Inside Bioinfo.
Pubblicato su bioinformatica, novità, scienza | Lascia un commento »
una chicca per un minuto di spasso (gli ingegneri sono umani molto strani)
Pubblicato da fuliggians su 31 Agosto 2007
Ho uploadato nel box dei file qui di fianco un nuovo file mp3 che mi è giunto.
Ahh, i bei tempi dei corsi di ingegneria!
Questo breve spezzone è un sunto filosofico che a nessuno dovrebbe essere negato; è una chiara espressione delle motivazioni per cui alcuni di noi si fanno del male iscrivendosi a ingegneria!
Il file è nominato: Prof.Franco Zappa… ecc. E che ci crediate o meno il tipo non ha nessun legame parentale con il più noto Frank Zappa.
Have fun!
Pubblicato su bioinfo for fun, fuligramma | Lascia un commento »
Feed del blog
Digg/fuliggians
Flickr/fuliggians
Myspace/radioborsotto
Friendster/Fuliggians
Del.icio.us/fuliggians
Blog/Fuliggians
