Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
www.bachelor-and-more.de Einführung in die evolutionäre Bioinformatik Evolutionsbiologie II für Bachelor-/Lehramtsstudierende 5. Februar 2019 Dr. Sonja Grath grath@bio.lmu.de Heutige Vorlesung – ein Überblick ✔ Was ist Bioinformatik? ✔ Sequenziermethoden ✔ Datenbanken und Modellorganismen ✔ Möglichkeiten des Sequenzvergleichs ✔ Maße zum Sequenzvergleich ✔ Bioinformatik in der Evolutionsbiologie
Was ist Bioinformatik? Eine Definition Bioinformatik, die: Zweig der Biowissenschaften, der sich mithilfe der Computertechnologie mit der Erforschung komplexer biologischer Zusammenhänge befasst www.duden.de
Sequenziermethoden Überblick Sequenzier-Strategien Shotgun sequencing/ Sanger Next-generation sequencing 454, Illumina Scheibye-Alsing et al. (2009)
Sanger-Sequencing Frederick Sanger (*1918, +2013) Nobelpreis: 1958,1980 Next-Generation Sequencing MacLean et al., 2009
Motivation: Projekte in der AG Parsch Fokus Evolution von Genen, Gen-Expression und Gen-Regulation Studienobjekt: Taufliege (Drosophila) Warum? Drosophila ist ein „Modell-Organismus“ Was ist ein Modell-Organismus? Definition (Wikipedia): “A model organism is a non-human species that is extensively studied to understand particular biological phenomena, with the expectation that discoveries made in the organism model will provide insight into the workings of other organisms” Allgemein: ● Zugang und Handhabung im Labor einfach ● Klein ● Einfach zu manipulieren ● Große Menge an biologischer Information verfügbar ● Ökonomischer oder medizinischer Nutzen
Beispiele Caenorhabditis elegans Escherichia coli Trichoplax adhaerens Danio rerio Chorthippus parallelus Physcomitrella patens Daphnia pulex Mus musculus Die Taufliege – Drosophila melanogaster ● Einfach im Labor zu halten und zu züchten ● Kurze Generationenfolge ● Hohe Anzahl von Nachkommen ● Männchen/Weibchen einfach unterscheidbar ● Techniken zur genetischen Transformation und Manipulation verfügbar ● Kleines Genom (~140 Mb (=140.000.000bp), zum Vergleich: Mensch ~3 Gb (=3.000.000.000bp) ● Ganzes Genom sequenziert
Modellorganismen haben in der Regel eigenen Genome-Browser Caenorhabditis elegans Drosophila melanogaster wormbase.org flybase.org Saccharomyces cerevisiae http://www.yeastgenome.org/ Arabidopsis thaliana http://www.arabidopsis.org/ ...und viele, viele mehr – z.B. ensembl.org Beispiel: Drosophila
Beispiel: Mensch UCSC Genome Browser: Human http://genome.ucsc.edu/cgi-bin/hgGateway Beispiel: Mensch
GenBank GenBank ● Geführt vom National Center for Biotechnologies (NCBI) ● GenBank ist das “Gedächtnis der Biowissenschaften” ● Enthält JEDE DNA-Sequenz, die jemals publiziert wurde ● GenBank ist die Originalquelle für die meisten biologischen Datenbanken ● GenBank ist komplizierter zu nutzen als Gen- zentrische Datenbanken http://www.ncbi.nlm.nih.gov/genbank/
GenBank http://www.ncbi.nlm.nih.gov/genbank/ GenBank Ein Prokaryotischer GeneBank- Eintrag ACCESSION ist die “Accession number”: ● Einzigartig für jeden Eintrag ● Permanent LOCUS enthält Informationen über die Gen-Größe ORGANISM bestimmt den Organismus, in dem das Gen enthalten ist REFERENCE bezeichnet, wer die Sequenz produziert hat FEATURES listet einige funktionale Eigenschaften des Gens auf GenBank-Einträge können mehr als ein Gen enthalten
GenBank Ein Eukaryotischer GeneBank- Eintrag ● Die Überschriften (einzelne Sektionen) sind die gleichen wie bei prokaryotischen Einträgen ● SOURCE enthält eine Map-Einheit, welche das Chromosom angibt, welches das Gen enthält ● GENE enthält Hinweise zur Rekonstruktion der codierenden Sequenz (CDS) des Gens Erinnerung: Eukaryotische Gene enthalten Introns GenBank Zusammensetzung einer CDS Die Sektionen gene, mRNA, und CDS enthalten die Informationen, welche Segmente von welchem Eintrag verbunden werden müssen um das Gen, die mRNA oder die CDS zu rekonstruieren
GenBank GenBank-Einträge können enthalten: • Vollständige Gene • Teile von Genen • Viele Gene GenBank-Einträge können von ungleicher Qualität sein • Duplikate und/oder ungenau • Alle Datensätze sind gleichberechtigt GenBank-Einträge sind nicht die 'absolute Wahrheit' • Keine verlässliche biologische Bedeutung • Vielmehr Buchführung über alles, was sequenziert wurde http://www.ncbi.nlm.nih.gov/genbank/ Warum hilft uns ein Vergleich weiter? Charles Robert Darwin (*1809, +1882)
Welche Tiere sind das? Das Beispiel der folgenden Folien basiert auf dem Buch “An Introduction to Molecular Evolution and Phylogenetics” (2016) von Lindell Bromham PLAZENTATIERE BEUTELTIERE
Homologie vs. Analogie Beutelwolf Hund Thylacinus Canis familiaris cynocephalus Beutelmaus Spitzmaus Sminthopsis Sorex cinereus psammophila Beutelmarder Katze Dasyurus Felis silvestris geofroyii Beutelmulle Maulwurf Notoryctes Talpa europaea typhlops Homologie Analogie Gemeinsamer Anpassung, Ursprung unabhängige Evolution Homologie vs. Orthologie vs. Paralogie Homolog Gemeinsamer Ursprung Ortholog Paralog Gemeinsamer Ursprung durch Gemeinsamer Ursprung durch Artbildung Genduplikation © 2002 by Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter Walter
Homologie vs. Orthologie vs. Paralogie Orthologe haben Paraloge, nach “homologe Funktion” Duplizierung: ● Subfunktionalisierung ● Neofunktionalisierung ● Nonfunktionalisierung (Pseudogene) © 2002 by Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter Walter Homologie versus Sequenzähnlichkeit http://biosiva.50webs.org/alignment.htm
Möglichkeiten des Sequenzvergleichs Dotplot Definition: Graphische Darstellung von Sequenzähnlichkeiten
Typische Anwendungen für Dotplots Vergleich einer Sequenz gegen sich selbst: – Wiederholungen von Domänen – Wiederholungen von Motiven (motifs) (low complexity) – Gespiegelte Regionen (Palindrome) in Nukleinsäuren Alignment Beispiel: Ein Teil des 12S ribosomalen RNA-Gens Paarweises Alignment Beutelwolf GGTCCTGGCCTTACTGTTAATTCTTATTAGACCTAC Hund GGTCCTAGCCTTCCTATTAGTTTTTAGTAGACTTAC Multiples Alignment Beutelwolf GGTCCTGGCCTTACTGTTAATTCTTATTAGACCTAC Beutelmarder GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC Beutelmaus GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC Beutelmulle GGTCCTAGCCTTATTATTAATTATTGCTAGTCCTAC Hund GGTCCTAGCCTTCCTATTAGTTTTTAGTAGACTTAC Katze GGTCCTGGCCTTTCTATTAGTTATTAATAAGATTAC Spitzmaus GGTCCTAGCCTTCCTATTAGTTGTTAGTAAACTTAC Maulwurf GGTCCTAGCCTTTCTATTAGCTGTCAGTAAAATTAC
Was ist ein Alignment? Definition ('Informatik'): Finden der optimalen Paarung zweier Sequenzen unter Beibehaltung der Elementenreihenfolge ATTCGCGAC ATTGCGCATAT Annahme in der Biologie: Je ähnlicher zwei Sequenzen, desto näher sind sie evolutionär oder funktionell verwandt Der Alignmentalgorithmus sucht nach einer Abfolge von Mutationen, welche die Anzahl der Mutationen (= 'Edit Distance') minimiert (Parsimonie-Kriterium) ATTCGCGAC ATTGCGCATAT Alignment (Anordnung, Ausrichtung) Wichtige Definitionen Beutelmarder ACC-TAATTA Beutelwolf ACC-TAATAC Hund ACCATAATTA InDel Substitution Alphabet: A, C, G, T (für Nukleotide), – (Gap) Ziel eines Alignments: Die Alinierung zweier oder mehrerer Sequenzen, so dass die Wahrscheinlichkeit homologe Positionen zu vergleichen, maximiert wird.
Motivation: Genomassemblierung Shotgun Sequencing und Assemblierung Die Ausgangs-DNA wird in eine Sammlung von Fragmenten geteilt Die Enden jedes Fragments (in grün) werden sequenziert Basierend auf Sequenzähnlichkeit, werden die einzelnen Stücke (reads) assembliert Modifiziert von: http://www.cbcb.umd.edu/research/assembly_primer.shtml
Genomassemblierung Start: Sammlung von reads Annahme: ATCTGTAT Überlappung zwischen GTATTTCG reads = TAGAAAGC CGTATATA GTGTAGGG Reads stammen vom gleichen Ort im Genom Aufgabe: Berechnung der Überlappungen Ausgabe: Satz von contigs (= contiguous pieces of DNA) ( n2 ) Operationen Indexstrategien → Laufzeit ~ O(n) Alle paarweisen Alignments ATCTGTATCGCG...TAGGG Genomsequenz Was ist “scaffolding”? Ideale Welt: Organismus mit 4 Chromosomen Assembly mit 4 Contigs I TA...................CG II CG...................AT III CT...................GA IV AT...................GC I II III IV Realität: Scaffolding Ordne und orientiere contigs entlang Set von unabhängigen eines Chromosoms Information von paired-end contigs Sequenzierung
Alignment 12S ribosomales RNA-Gen Beutelwolf GGTCCTGGCCTTACTGTTAATTCTTATTAGACCTAC Beutelmarder GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC Beutelmaus GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC Beutelmulle GGTCCTAGCCTTATTATTAATTATTGCTAGTCCTAC Hund GGTCCTAGCCTTCCTATTAGTTTTTAGTAGACTTAC Katze GGTCCTGGCCTTTCTATTAGTTATTAATAAGATTAC Spitzmaus GGTCCTAGCCTTCCTATTAGTTGTTAGTAAACTTAC Maulwurf GGTCCTAGCCTTTCTATTAGCTGTCAGTAAAATTAC Alignment 12S ribosomales RNA-Gen – eine andere Stelle Beutelmarder ACC-TAATTAGAATACGCTAAAAA----GAGGAG Beutelwolf ACC-TAATACGAATACG-TAAAAAA---GAGGAG Hund ACCATA-TTAACTTAA-CTAAAACACAAGAGGAG Beutelwolf – Beutelmarder: 2 Unterschiede Beutelwolf – Hund: 6 Unterschiede Beutelmarder ACC-TAATTAGAATACGCTAAAAA---------GAGGAG Beutelwolf ACC-TAAT--AC-GAA--TA---CG-TAAAAAAGAGGAG Hund ACCATA-TTAACTTAA-CTAAAACACAA-----GAGGAG Beutelwolf – Beutelmarder: 5 Unterschiede Beutelwolf – Hund: 3 Unterschiede Welches Alignment stimmt? Wie kann man Alignments vergleichen?
Vergleich von Alignments Einfachste Möglichkeit: Bestimmung der Identität (in %) … Beutelmarder ACCTAATTAT 8/10 = 0.8 = 80% Beutelwolf ACCTAATACT … unter Berücksichtigung von Insertionen/Deletionen (Indels, 'gaps') Beutelmarder ACCTAATTA-T 9/11 = 0.82 = 82% Beutelwolf ACCTAAT-ACT Vergleich von Alignments Einfachste Möglichkeit: Bestimmung der Identität (in %) … Beutelmarder ACCTAATTAT 8/10 = 0.8 = 80% Beutelwolf ACCTAATACT … unter Berücksichtigung von Insertionen/Deletionen (Indels, 'gaps') Beutelmarder ACCTAATTA-T 9/11 = 0.82 = 82% Beutelwolf ACCTAAT-ACT Problem: Durch das Einfügen von Indels (“gaps”) in ein Alignment kann die Identität künstlich erhöht werden. Deshalb wird das Einfügen von gaps in der Praxis mit einem “gap penalty” bestraft.
Substitutionsmatrizen Einheitsmatrix Nukleotide (DNA): A, C, G, T A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 Sequenz1 ATCG Score: 3 || | Sequenz2 ATGG Natürlich auch für Aminosäuren möglich (20 x 20 Matrix) Zusätzlich: Einführung einer “gap penalty”, hier: negativer Wert, z.B. -1
Transition vs. Transversion (DNA) http://www.mun.ca/biology/scarr/Transitions_vs_Transversions.html Eigenschaften von Aminosäuren http://de.wikipedia.org/wiki/Aminosäuren
Eigenschaften von Aminosäuren © Dr. Rainer Merkl, Universität Regensburg Point Accepted Mutation Matrix PAM-Matrix Dayhoff (1978) Margaret Oakley Dayhoff (*1925, +1983) Basieren auf 71 Protein-Familien mit 85% AS Identität • PAM = “Point/Percent Accepted Mutations” • PAM1: eine Punktmutation auf 100 AS • Höhere PAM-Matrizen werden durch Matrix-Multiplikation generiert • PAM2 = PAM1 · PAM1 etc. • PAM-Matrizen basieren auf einem evolutionären Modell • PAM-Matrizen sind symmetrisch P(A->B) = P(B->A) • Annahme: Mutationen sind unabhängig voneinander und positions-/sequenzabhängig
Beispiel: PAM250 Margaret Oakley Dayhoff (*1925, +1983) http://biosiva.50webs.org/alignment.htm BLOcks SUbstitution Matrix BLOSUM Henikoff & Henikoff (1992) Basieren auf BLOCKS (ungapped alignment blocks, „true“ Alignments) • Basieren auf empirischen Daten – kein zugrunde liegendes evolutionäres Modell • z.B. BLOSUM62 basiert auf BLOCKS mit 62% Sequenzidentität • BLOSUM62 am häufigsten genutzt (in Datenbanksuchen) https://de.wikipedia.org/wiki/BLOSUM
Substitutionsmatrizen Ähnlichkeitsmatrix BLOSUM62 A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 Distanzmatrix Ist das eine Ähnlichkeits- A C G T oder Distanzmatrix? A 0 1 1 1 C 1 0 1 1 G 1 1 0 1 T 1 1 1 0 PAM versus BLOSUM PAM1 PAM120 PAM250 BLOSUM80 BLOSUM62 BLOSUM45 Hohe Sequenzähnlichkeit/ Geringe Sequenzähnlichkeit/ Verwandtschaft Verwandtschaft
Maße zum Sequenzvergleich Maße zum Sequenzvergleich ● Hamming-Distanz: Anzahl der Positionen mit unterschiedlichen Buchstaben ('mismatches') AGTC || CGTA Hamming-Distanz: 2 ● Levenshtein-Distanz: Minimale Anzahl an Edit-Operationen (Substitution, Deletion, Insertion), die nötig sind um Sequenz 1 in Sequenz 2 zu überführen AGTCC | || CGCTCA Levenshtein-Distanz: 3 Substitutionen A ↔ C, C ↔ A Insertion – ↔ C
Maße zum Sequenzvergleich ● Score-basierte Methoden: Die Substitutionsmatrizen können auch komplexer sein und beispielsweise Substitutionen anders gewichten als Insertionen und Deletionen ● Ziel: Optimierung einer Punktezahl ● Werte für Übereinstimmung ('match'), Nicht-Übereinstimmung ('mismatch') und Lücke ('gap') Beispiel Match = 1, Mismatch = -1, Gap = 0 Sequenz1 ATCCG || | → Score: 1+11+0+1 = 2 Sequenz2 ATGG Algorithmus zur Bestimmung eines optimalen paarweisen Alignments Ziel: Optimierung (= Maximierung) des Scores für ein paarweises Alignment Erinnerung: 3 mögliche Operationen (Substitution, Deletion, Insertion) 2 Sequenzen (Längen m und n) Scoring-Schema (Werte für Match, Mismatch, Gap) Vorgehen: Berechnung einer (m+1)x(n+1)-Matrix (Tabelle) D(i-1, j-1) D(i-1, j) D(i, j-1) D(i, j)
Globales vs. Lokales Alignment Ein globales Alignment überdeckt die gesamte Länge der betroffenen Sequenzen → Der Needleman-Wunsch-Algorithmus findet das beste globale Alignment zweier Sequenzen Ein lokales Alignment überdeckt nur Teile der Sequenzen → Der Smith-Waterman-Algorithmus findet das beste lokale Alignment zweier Sequenzen QKESGPSSSYC Globales | ||| | Alignment VQQESGLVRTTC ESG ||| Lokales ESG Alignment
Was hat mit Evolution zu tun? ➔ Modularität ist ein Kennzeichen von Evolution Domänen sind die Bausteine von Proteinen >P11974|1PKN SKSHSEAGSAFIQTQQLHAAMADTFLEHMCRLDIDSAP ITARNTGIICTIGPASRSVETLKEMIKSGMNVARMN Konservierte FSHGTHEYHAETIKNVRTATESFASDPILYRPVAVALDTKGPEIRTGLIKGSGTAEVELKKGATLKITLDNAYM AACDENILWLDYKNICKVVEVGSKVYVDDGLISLQVKQKGPDFLVTEVENGGFLGSKKGVNLPGAAVDLPAVSE Sequenzbereiche KDIQDLKFGVDEDVDMVFASFIRKAADVHEVRKILGEKGKNIKIISKIENHEGVRRFDEILEASDGIMVARGDL GIEIPAEKVFLAQKMIIGRCNRAGKPVICATQMLESMIKKPRPTRAEGSDVANAVLDGADCIMLSGETAKGDYP (PF00224, PF02887) LEAVRMQHLIAREAEAAMFHRKLFEELARSSSHSTDLMEAMAMGSVEASYKCLAAALIVLTESGRSAHQVARYR PRAPIIAVTRNHQTARQAHLYRGIFPVVCKDPVQEAWAEDVDLRVNLAMNVGKAAGFFKKGDVVIVLGWRPGSG FTNTMRVVPVP Unabhängige strukturelle Regionen Eukaryotic DNA Topoisomerase I catalytic core Funktionale Einheiten Eukaryotic DNA Topoisomerase I DNA binding region
Wie werden Domänen entdeckt und beschrieben? >P11974|1PKN SKSHSEAGSAFIQTQQLHAAMADTFLEHMCRLDIDSAPITARNTGIICTIGPASRSVET LKEMIKSGMNVARMNFSHGTHEYHAETIKNVRTATESFASDPILYRPVAVALDTKGPEI RTGLIKGSGTAEVELKKGATLKITLDNAYMAACDENILWLDYKNICKVVEVGSKVYVDD GLISLQVKQKGPDFLVTEVENGGFLGSKKGVNLPGAAVDLPAVSEKDIQDLKFGVDEDV DMVFASFIRKAADVHEVRKILGEKGKNIKIISKIENHEGVRRFDEILEASDGIMVARGD LGIEIPAEKVFLAQKMIIGRCNRAGKPVICATQMLESMIKKPRPTRAEGSDVANAVLDG ADCIMLSGETAKGDYPLEAVRMQHLIAREAEAAMFHRKLFEELARSSSHSTDLMEAMAM GSVEASYKCLAAALIVLTESGRSAHQVARYRPRAPIIAVTRNHQTARQAHLYRGIFPVV CKDPVQEAWAEDVDLRVNLAMNVGKAAGFFKKGDVVIVLGWRPGSGFTNTMRVVPVP H. sapiens = { p1=(PF00224,PF02887), p2=(PF00021,PF02832,PF00012), >P11974|1PKN p3=(PF09283,PF56253,PF56253), 42 394 PF00224 1.9E-168 p4=(PF00007,PB9293823), 409 527 PF02887 1.4E-26 p5=(PF82736,PF73847), p6=(PF78273,PB0029382,PF82732), … } P11974 = (PF00224,PF02887) Domänenarchitektur http://pfam.sanger.ac.uk/ Datenbank: 3D-Strukturen http://www.rcsb.org
Domänen als Bausteine von Proteinen Gegenwart Repeat Fusion Fission Terminal X Loss Domain Gain Vergangenheit Konzept der modularen Evolution
Sequenzlogo für multiple Alignments clc.support.com IUPAC Code IUPAC = International Union of Pure and Applied Chemistry
Protein-Domänen Sequenzformate
FASTA >Taxon1 AATTCCCCAGCTTTCCACCAAGCTC >Taxon2 AATTCCACAGCTTTCCACCAAGCTC >Taxon3 AACTCCAGCACATTCCACCAAGCTC >Taxon4 AACTCCACAACATTCCACCAAGCTC Nexus #NEXUS Begin DATA; Dimensions ntax = 4 nchar = 25; Format datatype = NUCLEOTIDE gap = ; Matrix [ 1 11 21 ] [ | | | ] Taxon1 AATTCCCCAGCTTTCCACCAAGCTC Taxon2 AATTCCACAGCTTTCCACCAAGCTC Taxon3 AACTCCAGCACATTCCACCAAGCTC Taxon4 AACTCCACAACATTCCACCAAGCTC ; End;
PHYLIP 4 25 Taxon1 AATTCCCCAGCTTTCCACCAAGCTC Taxon2 AATTCCACAGCTTTCCACCAAGCTC Taxon3 AACTCCAGCACATTCCACCAAGCTC Taxon4 AACTCCACAACATTCCACCAAGCTC PHYLIP – sequential 4 25 Taxon1 AATTCCCCAGCTTTCCACCAAGCTC AATTCCCCAGCTTTCCACCAAGCTC Taxon2 AATTCCACAGCTTTCCACCAAGCTC AATTCCACAGCTTTCCACCAAGCTC Taxon3 AACTCCAGCACATTCCACCAAGCTC AACTCCAGCACATTCCACCAAGCTC Taxon4 AACTCCACAACATTCCACCAAGCTC AACTCCACAACATTCCACCAAGCTC
PHYLIP – interleaved 4 25 Taxon1 AATTCCCCAG CTTTCCACCA AGCTCAGCTC Taxon2 AATTCCACAG CTTTCCACCA AGCTCAGCTC Taxon3 AACTCCAGCA CATTCCACCA AGCTCAGCTC Taxon4 AACTCCACAA CATTCCACCA AGCTCAGCTC AATTCCCCAG CTTTCC AATTCCACAG CTTTCC AACTCCAGCA CATTCC AACTCCACAA CATTCC CLUSTAL CLUSTAL O(1.2.1) multiple sequence alignment Taxon1 AATTCCCCAGCTTTCCACCAAGCTC 25 Taxon2 AATTCCACAGCTTTCCACCAAGCTC 25 Taxon3 AACTCCAGCACATTCCACCAAGCTC 25 Taxon4 AACTCCACAACATTCCACCAAGCTC 25 ** *** * *************
Sie können auch lesen