Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik

Die Seite wird erstellt Dirk Keßler
 
WEITER LESEN
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
www.bachelor-and-more.de

     Einführung in die evolutionäre Bioinformatik

     Evolutionsbiologie II für Bachelor-/Lehramtsstudierende

     5. Februar 2019

     Dr. Sonja Grath
     grath@bio.lmu.de

             Heutige Vorlesung – ein Überblick
✔   Was ist Bioinformatik?
✔   Sequenziermethoden
✔   Datenbanken und Modellorganismen
✔   Möglichkeiten des Sequenzvergleichs
✔   Maße zum Sequenzvergleich
✔   Bioinformatik in der Evolutionsbiologie
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Was ist Bioinformatik?

                  Eine Definition

Bioinformatik, die:

Zweig der Biowissenschaften, der sich mithilfe der
Computertechnologie mit der Erforschung komplexer
biologischer Zusammenhänge befasst

www.duden.de
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Sequenziermethoden

Überblick Sequenzier-Strategien

                                  Shotgun sequencing/
                                  Sanger

                                  Next-generation
                                  sequencing
                                  454, Illumina
  Scheibye-Alsing et al. (2009)
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Sanger-Sequencing

                                   Frederick Sanger
                                   (*1918, +2013)
                                   Nobelpreis:
                                   1958,1980

     Next-Generation Sequencing

MacLean et al., 2009
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
2007                         2014
Next Generation Sequencing   Single Cell Sequencing

                     Datenbanken
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Motivation: Projekte in der AG Parsch
Fokus
Evolution von Genen, Gen-Expression und Gen-Regulation

Studienobjekt:
Taufliege
(Drosophila)

Warum?
Drosophila ist ein „Modell-Organismus“

             Was ist ein Modell-Organismus?
Definition (Wikipedia):
“A model organism is a non-human species that is extensively
studied to understand particular biological phenomena, with the
expectation that discoveries made in the organism model will
provide insight into the workings of other organisms”
Allgemein:
 ●   Zugang und Handhabung im Labor einfach
 ●   Klein
 ●   Einfach zu manipulieren
 ●   Große Menge an biologischer Information verfügbar
 ●   Ökonomischer oder medizinischer Nutzen
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Beispiele

                                                  Caenorhabditis elegans
Escherichia coli
                           Trichoplax adhaerens

                                Danio rerio
  Chorthippus parallelus

                                                                 Physcomitrella patens

                                        Daphnia pulex
  Mus musculus

        Die Taufliege – Drosophila melanogaster
   ●   Einfach im Labor zu halten und zu züchten
   ●   Kurze Generationenfolge
   ●   Hohe Anzahl von Nachkommen
   ●   Männchen/Weibchen einfach unterscheidbar
   ●   Techniken zur genetischen Transformation und Manipulation
       verfügbar
   ●
       Kleines Genom (~140 Mb (=140.000.000bp), zum Vergleich:
       Mensch ~3 Gb (=3.000.000.000bp)
   ●   Ganzes Genom sequenziert
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Modellorganismen haben in der Regel eigenen
             Genome-Browser

Caenorhabditis elegans      Drosophila melanogaster
wormbase.org                flybase.org

       Saccharomyces cerevisiae
       http://www.yeastgenome.org/               Arabidopsis thaliana
                                                 http://www.arabidopsis.org/

  ...und viele, viele mehr – z.B. ensembl.org

                         Beispiel: Drosophila
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
Beispiel: Mensch

UCSC Genome Browser: Human

http://genome.ucsc.edu/cgi-bin/hgGateway

                     Beispiel: Mensch
Heutige Vorlesung - ein Überblick - Einführung in die evolutionäre Bioinformatik
GenBank

                        GenBank

 ●   Geführt vom National Center for Biotechnologies
     (NCBI)
 ●   GenBank ist das “Gedächtnis der Biowissenschaften”
 ●   Enthält JEDE DNA-Sequenz, die jemals publiziert
     wurde
 ●   GenBank ist die Originalquelle für die meisten
     biologischen Datenbanken
 ●   GenBank ist komplizierter zu nutzen als Gen-
     zentrische Datenbanken

http://www.ncbi.nlm.nih.gov/genbank/
GenBank

http://www.ncbi.nlm.nih.gov/genbank/

                                       GenBank
  Ein Prokaryotischer GeneBank-
  Eintrag
  ACCESSION ist die “Accession number”:
  ● Einzigartig für jeden Eintrag

  ● Permanent

  LOCUS enthält Informationen über die
  Gen-Größe
  ORGANISM bestimmt den Organismus,
  in dem das Gen enthalten ist
  REFERENCE bezeichnet, wer die
  Sequenz produziert hat
  FEATURES listet einige funktionale
  Eigenschaften des Gens auf
  GenBank-Einträge können mehr als ein
  Gen enthalten
GenBank
Ein Eukaryotischer GeneBank- Eintrag

● Die Überschriften (einzelne Sektionen) sind die gleichen wie bei
  prokaryotischen Einträgen
● SOURCE enthält eine Map-Einheit, welche das Chromosom

  angibt, welches das Gen enthält
● GENE enthält Hinweise zur Rekonstruktion der codierenden

  Sequenz (CDS) des Gens
Erinnerung: Eukaryotische Gene enthalten Introns

                              GenBank
Zusammensetzung einer CDS

Die Sektionen gene, mRNA, und CDS enthalten die Informationen, welche
Segmente von welchem Eintrag verbunden werden müssen um das Gen, die
mRNA oder die CDS zu rekonstruieren
GenBank
  GenBank-Einträge können enthalten:
  • Vollständige Gene
  • Teile von Genen
  • Viele Gene
  GenBank-Einträge können von ungleicher Qualität sein
  • Duplikate und/oder ungenau
  • Alle Datensätze sind gleichberechtigt
  GenBank-Einträge sind nicht die 'absolute Wahrheit'
  • Keine verlässliche biologische Bedeutung
  • Vielmehr Buchführung über alles, was sequenziert wurde

http://www.ncbi.nlm.nih.gov/genbank/

            Warum hilft uns ein Vergleich weiter?

                          Charles Robert Darwin
                          (*1809, +1882)
Welche Tiere sind das?

Das Beispiel der folgenden Folien basiert auf dem Buch
“An Introduction to Molecular Evolution and Phylogenetics” (2016) von Lindell Bromham

                                               PLAZENTATIERE

                                                      BEUTELTIERE
Homologie vs. Analogie
                  Beutelwolf                                        Hund
                  Thylacinus                                        Canis familiaris
                  cynocephalus

                  Beutelmaus                                        Spitzmaus
                  Sminthopsis                                       Sorex cinereus
                  psammophila

                  Beutelmarder                                      Katze
                  Dasyurus                                          Felis silvestris
                  geofroyii

                  Beutelmulle                                       Maulwurf
                  Notoryctes                                        Talpa europaea
                  typhlops
                              Homologie   Analogie
                              Gemeinsamer Anpassung,
                              Ursprung    unabhängige
                                          Evolution

        Homologie vs. Orthologie vs. Paralogie
                                              Homolog
                                     Gemeinsamer Ursprung

                     Ortholog                                              Paralog
       Gemeinsamer Ursprung durch                          Gemeinsamer Ursprung durch
               Artbildung                                        Genduplikation

© 2002 by Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter Walter
Homologie vs. Orthologie vs. Paralogie

Orthologe haben                     Paraloge, nach
“homologe Funktion”                 Duplizierung:
                                    ● Subfunktionalisierung

                                    ● Neofunktionalisierung

                                    ● Nonfunktionalisierung

                                      (Pseudogene)

 © 2002 by Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter Walter

          Homologie versus Sequenzähnlichkeit

 http://biosiva.50webs.org/alignment.htm
Möglichkeiten des Sequenzvergleichs

                            Dotplot

Definition:
Graphische Darstellung von Sequenzähnlichkeiten
Typische Anwendungen für Dotplots

  Vergleich einer Sequenz gegen sich selbst:

  – Wiederholungen von Domänen
  – Wiederholungen von Motiven (motifs) (low complexity)
  – Gespiegelte Regionen (Palindrome) in Nukleinsäuren

                             Alignment
             Beispiel: Ein Teil des 12S ribosomalen RNA-Gens

Paarweises Alignment
Beutelwolf       GGTCCTGGCCTTACTGTTAATTCTTATTAGACCTAC
Hund             GGTCCTAGCCTTCCTATTAGTTTTTAGTAGACTTAC

Multiples Alignment
Beutelwolf       GGTCCTGGCCTTACTGTTAATTCTTATTAGACCTAC
Beutelmarder     GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC
Beutelmaus       GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC
Beutelmulle      GGTCCTAGCCTTATTATTAATTATTGCTAGTCCTAC
Hund             GGTCCTAGCCTTCCTATTAGTTTTTAGTAGACTTAC
Katze            GGTCCTGGCCTTTCTATTAGTTATTAATAAGATTAC
Spitzmaus        GGTCCTAGCCTTCCTATTAGTTGTTAGTAAACTTAC
Maulwurf         GGTCCTAGCCTTTCTATTAGCTGTCAGTAAAATTAC
Was ist ein Alignment?
Definition ('Informatik'):
Finden der optimalen Paarung zweier Sequenzen unter
Beibehaltung der Elementenreihenfolge

              ATTCGCGAC                 ATTGCGCATAT

Annahme in der Biologie:
Je ähnlicher zwei Sequenzen, desto näher sind sie evolutionär oder
funktionell verwandt

Der Alignmentalgorithmus sucht nach einer Abfolge von
Mutationen, welche die Anzahl der Mutationen (= 'Edit Distance')
minimiert (Parsimonie-Kriterium)

              ATTCGCGAC­­­­
              ATT­GCG­CATAT

          Alignment (Anordnung, Ausrichtung)
                        Wichtige Definitionen

   Beutelmarder       ACC-TAATTA
   Beutelwolf         ACC-TAATAC
   Hund               ACCATAATTA

              InDel                 Substitution

 Alphabet: A, C, G, T (für Nukleotide), – (Gap)

Ziel eines Alignments:
Die Alinierung zweier oder mehrerer Sequenzen, so dass die
Wahrscheinlichkeit homologe Positionen zu vergleichen, maximiert
wird.
Motivation: Genomassemblierung

           Shotgun Sequencing und Assemblierung

                Die Ausgangs-DNA wird in eine Sammlung von Fragmenten geteilt

                Die Enden jedes Fragments (in grün) werden sequenziert

                Basierend auf Sequenzähnlichkeit, werden die einzelnen Stücke (reads) assembliert
Modifiziert von: http://www.cbcb.umd.edu/research/assembly_primer.shtml
Genomassemblierung

Start: Sammlung von reads                Annahme:
                   ATCTGTAT              Überlappung zwischen
                   GTATTTCG              reads
             =     TAGAAAGC
                   CGTATATA
                   GTGTAGGG              Reads stammen vom
                                         gleichen Ort im Genom

Aufgabe: Berechnung der Überlappungen                 Ausgabe: Satz von contigs
                                                      (= contiguous pieces of DNA)
                          ( n2 ) Operationen
                          Indexstrategien →
                          Laufzeit ~ O(n)
Alle paarweisen Alignments
                                                     ATCTGTATCGCG...TAGGG
                                                     Genomsequenz

                        Was ist “scaffolding”?

Ideale Welt:
Organismus mit 4 Chromosomen                        Assembly mit 4 Contigs
                                                     I     TA...................CG
                                                     II    CG...................AT
                                                     III   CT...................GA
                                                     IV    AT...................GC
    I   II   III   IV

Realität:
                                 Scaffolding

                             Ordne und orientiere
                               contigs entlang
Set von unabhängigen         eines Chromosoms         Information von paired-end
contigs                                               Sequenzierung
Alignment
                   12S ribosomales RNA-Gen

Beutelwolf       GGTCCTGGCCTTACTGTTAATTCTTATTAGACCTAC
Beutelmarder     GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC
Beutelmaus       GGTCCTGGCCTTACTGTTAATTTTTATTAGACCTAC
Beutelmulle      GGTCCTAGCCTTATTATTAATTATTGCTAGTCCTAC
Hund             GGTCCTAGCCTTCCTATTAGTTTTTAGTAGACTTAC
Katze            GGTCCTGGCCTTTCTATTAGTTATTAATAAGATTAC
Spitzmaus        GGTCCTAGCCTTCCTATTAGTTGTTAGTAAACTTAC
Maulwurf         GGTCCTAGCCTTTCTATTAGCTGTCAGTAAAATTAC

                              Alignment
     12S ribosomales RNA-Gen – eine andere Stelle

   Beutelmarder      ACC-TAATTAGAATACGCTAAAAA----GAGGAG
   Beutelwolf        ACC-TAATACGAATACG-TAAAAAA---GAGGAG
   Hund              ACCATA-TTAACTTAA-CTAAAACACAAGAGGAG
   Beutelwolf – Beutelmarder: 2 Unterschiede
   Beutelwolf – Hund: 6 Unterschiede

  Beutelmarder      ACC-TAATTAGAATACGCTAAAAA---------GAGGAG
  Beutelwolf        ACC-TAAT--AC-GAA--TA---CG-TAAAAAAGAGGAG
  Hund              ACCATA-TTAACTTAA-CTAAAACACAA-----GAGGAG
   Beutelwolf – Beutelmarder: 5 Unterschiede
   Beutelwolf – Hund: 3 Unterschiede

 Welches Alignment stimmt? Wie kann man Alignments vergleichen?
Vergleich von Alignments

    Einfachste Möglichkeit: Bestimmung der Identität (in %) …

     Beutelmarder           ACCTAATTAT             8/10 = 0.8        = 80%
     Beutelwolf             ACCTAATACT

     … unter Berücksichtigung von Insertionen/Deletionen
     (Indels, 'gaps')

     Beutelmarder           ACCTAATTA-T            9/11 = 0.82 = 82%
     Beutelwolf             ACCTAAT-ACT

                     Vergleich von Alignments

    Einfachste Möglichkeit: Bestimmung der Identität (in %) …

     Beutelmarder           ACCTAATTAT             8/10 = 0.8        = 80%
     Beutelwolf             ACCTAATACT

     … unter Berücksichtigung von Insertionen/Deletionen
     (Indels, 'gaps')

     Beutelmarder           ACCTAATTA-T            9/11 = 0.82 = 82%
     Beutelwolf             ACCTAAT-ACT

Problem:
Durch das Einfügen von Indels (“gaps”) in ein Alignment kann die Identität künstlich
erhöht werden. Deshalb wird das Einfügen von gaps in der Praxis mit einem “gap
penalty” bestraft.
Substitutionsmatrizen

                     Einheitsmatrix

Nukleotide (DNA): A, C, G, T
                     A         C     G        T
              A      1         0     0        0
              C      0         1     0        0
              G      0         0     1        0
              T      0         0     0        1

            Sequenz1     ATCG
                                   Score: 3
                         || |
            Sequenz2     ATGG

Natürlich auch für Aminosäuren möglich (20 x 20 Matrix)
Zusätzlich: Einführung einer “gap penalty”, hier: negativer
Wert, z.B. -1
Transition vs. Transversion (DNA)

    http://www.mun.ca/biology/scarr/Transitions_vs_Transversions.html

                   Eigenschaften von Aminosäuren

http://de.wikipedia.org/wiki/Aminosäuren
Eigenschaften von Aminosäuren

© Dr. Rainer Merkl, Universität Regensburg

                     Point Accepted Mutation Matrix
                              PAM-Matrix
                                             Dayhoff (1978)

                                                              Margaret Oakley Dayhoff
                                                              (*1925, +1983)

   Basieren auf 71 Protein-Familien mit 85% AS Identität
   • PAM = “Point/Percent Accepted Mutations”
   • PAM1: eine Punktmutation auf 100 AS
   • Höhere PAM-Matrizen werden durch Matrix-Multiplikation
   generiert
   • PAM2 = PAM1 · PAM1 etc.
   • PAM-Matrizen basieren auf einem evolutionären Modell
   • PAM-Matrizen sind symmetrisch P(A->B) = P(B->A)
   • Annahme: Mutationen sind unabhängig voneinander und
   positions-/sequenzabhängig
Beispiel: PAM250

                                                                                 Margaret Oakley Dayhoff
                                                                                 (*1925, +1983)

http://biosiva.50webs.org/alignment.htm

                              BLOcks SUbstitution Matrix
                                      BLOSUM
                                     Henikoff & Henikoff (1992)

  Basieren auf BLOCKS (ungapped alignment blocks, „true“
  Alignments)
  • Basieren auf empirischen Daten – kein zugrunde liegendes
  evolutionäres Modell
  • z.B. BLOSUM62 basiert auf BLOCKS mit 62% Sequenzidentität
  • BLOSUM62 am häufigsten genutzt (in Datenbanksuchen)

                                          https://de.wikipedia.org/wiki/BLOSUM
Substitutionsmatrizen
Ähnlichkeitsmatrix                        BLOSUM62

     A    C    G   T
A    1    0    0   0
C    0    1    0   0
G    0    0    1   0
T    0    0    0   1

Distanzmatrix
                                          Ist das eine Ähnlichkeits-
     A   C    G    T                      oder Distanzmatrix?
A    0   1    1    1
C    1   0    1    1
G    1   1    0    1
T    1   1    1    0

                       PAM versus BLOSUM

    PAM1                       PAM120           PAM250
    BLOSUM80                   BLOSUM62         BLOSUM45

    Hohe Sequenzähnlichkeit/                Geringe Sequenzähnlichkeit/
    Verwandtschaft                          Verwandtschaft
Maße zum Sequenzvergleich

                Maße zum Sequenzvergleich
●   Hamming-Distanz: Anzahl der Positionen mit unterschiedlichen
    Buchstaben ('mismatches')

     AGTC
      ||
     CGTA
     Hamming-Distanz: 2

●   Levenshtein-Distanz: Minimale Anzahl an Edit-Operationen
    (Substitution, Deletion, Insertion), die nötig sind um Sequenz 1 in
    Sequenz 2 zu überführen

     AG­TCC
      | ||
     CGCTCA
     Levenshtein-Distanz: 3
     Substitutionen A ↔ C, C ↔ A
     Insertion – ↔ C
Maße zum Sequenzvergleich
●   Score-basierte Methoden: Die Substitutionsmatrizen können
    auch komplexer sein und beispielsweise Substitutionen anders
    gewichten als Insertionen und Deletionen

●   Ziel: Optimierung einer Punktezahl

●   Werte für Übereinstimmung ('match'), Nicht-Übereinstimmung
    ('mismatch') und Lücke ('gap')

     Beispiel
     Match = 1, Mismatch = -1, Gap = 0

     Sequenz1         ATCCG
                      || |            → Score: 1+1­1+0+1 = 2
     Sequenz2         ATG­G

    Algorithmus zur Bestimmung eines optimalen
              paarweisen Alignments
Ziel: Optimierung (= Maximierung) des Scores für ein paarweises
Alignment

Erinnerung:
3 mögliche Operationen (Substitution, Deletion, Insertion)
2 Sequenzen (Längen m und n)
Scoring-Schema (Werte für Match, Mismatch, Gap)

Vorgehen:
Berechnung einer (m+1)x(n+1)-Matrix (Tabelle)

                          D(i-1, j-1) D(i-1, j)

                          D(i, j-1)   D(i, j)
Globales vs. Lokales Alignment

Ein globales Alignment überdeckt die gesamte Länge der
betroffenen Sequenzen
→ Der Needleman-Wunsch-Algorithmus findet das beste
globale Alignment zweier Sequenzen

Ein lokales Alignment überdeckt nur Teile der Sequenzen
→ Der Smith-Waterman-Algorithmus findet das beste
lokale Alignment zweier Sequenzen

              QKESGPSSSYC
                                   Globales
              | |||     |
                                   Alignment
             VQQESGLVRTTC

                 ESG
                 |||               Lokales
                 ESG               Alignment
Was hat                    mit Evolution zu tun?

    ➔   Modularität ist ein Kennzeichen von Evolution

        Domänen sind die Bausteine von Proteinen
                     >P11974|1PKN
                     SKSHSEAGSAFIQTQQLHAAMADTFLEHMCRLDIDSAP ITARNTGIICTIGPASRSVETLKEMIKSGMNVARMN
Konservierte         FSHGTHEYHAETIKNVRTATESFASDPILYRPVAVALDTKGPEIRTGLIKGSGTAEVELKKGATLKITLDNAYM
                     AACDENILWLDYKNICKVVEVGSKVYVDDGLISLQVKQKGPDFLVTEVENGGFLGSKKGVNLPGAAVDLPAVSE
Sequenzbereiche      KDIQDLKFGVDEDVDMVFASFIRKAADVHEVRKILGEKGKNIKIISKIENHEGVRRFDEILEASDGIMVARGDL
                     GIEIPAEKVFLAQKMIIGRCNRAGKPVICATQMLESMIKKPRPTRAEGSDVANAVLDGADCIMLSGETAKGDYP
(PF00224, PF02887)   LEAVRMQHLIAREAEAAMFHRKLFEELARSSSHSTDLMEAMAMGSVEASYKCLAAALIVLTESGRSAHQVARYR
                     PRAPIIAVTRNHQTARQAHLYRGIFPVVCKDPVQEAWAEDVDLRVNLAMNVGKAAGFFKKGDVVIVLGWRPGSG
                     FTNTMRVVPVP

Unabhängige
strukturelle
Regionen

                                                            Eukaryotic DNA
                                                            Topoisomerase I
                                                            catalytic core
Funktionale
Einheiten
                     Eukaryotic DNA
                     Topoisomerase I
                     DNA binding region
Wie werden Domänen entdeckt und
            beschrieben?
>P11974|1PKN
SKSHSEAGSAFIQTQQLHAAMADTFLEHMCRLDIDSAPITARNTGIICTIGPASRSVET
LKEMIKSGMNVARMNFSHGTHEYHAETIKNVRTATESFASDPILYRPVAVALDTKGPEI
RTGLIKGSGTAEVELKKGATLKITLDNAYMAACDENILWLDYKNICKVVEVGSKVYVDD
GLISLQVKQKGPDFLVTEVENGGFLGSKKGVNLPGAAVDLPAVSEKDIQDLKFGVDEDV
DMVFASFIRKAADVHEVRKILGEKGKNIKIISKIENHEGVRRFDEILEASDGIMVARGD
LGIEIPAEKVFLAQKMIIGRCNRAGKPVICATQMLESMIKKPRPTRAEGSDVANAVLDG
ADCIMLSGETAKGDYPLEAVRMQHLIAREAEAAMFHRKLFEELARSSSHSTDLMEAMAM
GSVEASYKCLAAALIVLTESGRSAHQVARYRPRAPIIAVTRNHQTARQAHLYRGIFPVV
CKDPVQEAWAEDVDLRVNLAMNVGKAAGFFKKGDVVIVLGWRPGSGFTNTMRVVPVP

                               H. sapiens = {
                                  p1=(PF00224,PF02887),
                                  p2=(PF00021,PF02832,PF00012),
>P11974|1PKN                      p3=(PF09283,PF56253,PF56253),
42   394 PF00224   1.9E-168       p4=(PF00007,PB9293823),
409 527 PF02887    1.4E-26        p5=(PF82736,PF73847),
                                  p6=(PF78273,PB0029382,PF82732),
                                  …
                               }

P11974 = (PF00224,PF02887)

                             Domänenarchitektur          http://pfam.sanger.ac.uk/

          Datenbank: 3D-Strukturen

                                                  http://www.rcsb.org
Domänen als Bausteine von Proteinen

Gegenwart
                                      Repeat

                                      Fusion

                                      Fission

                                      Terminal
                    X                 Loss

                                      Domain
                                      Gain
Vergangenheit

        Konzept der modularen Evolution
Sequenzlogo für multiple Alignments

 clc.support.com

                   IUPAC Code
IUPAC = International Union of Pure and Applied Chemistry
Protein-Domänen

Sequenzformate
FASTA

>Taxon1
AATTCCCCAGCTTTCCACCAAGCTC
>Taxon2
AATTCCACAGCTTTCCACCAAGCTC
>Taxon3
AACTCCAGCACATTCCACCAAGCTC
>Taxon4
AACTCCACAACATTCCACCAAGCTC

                Nexus

#NEXUS

Begin DATA;
   Dimensions ntax = 4 nchar = 25;
   Format datatype = NUCLEOTIDE gap = ­;
   Matrix
   [       1      11           21    ]
   [       |      |            |     ]
   Taxon1 AATTCCCCAGCTTTCCACCAAGCTC
   Taxon2 AATTCCACAGCTTTCCACCAAGCTC
   Taxon3 AACTCCAGCACATTCCACCAAGCTC
   Taxon4 AACTCCACAACATTCCACCAAGCTC
;
End;
PHYLIP

4 25
Taxon1   AATTCCCCAGCTTTCCACCAAGCTC
Taxon2   AATTCCACAGCTTTCCACCAAGCTC
Taxon3   AACTCCAGCACATTCCACCAAGCTC
Taxon4   AACTCCACAACATTCCACCAAGCTC

          PHYLIP – sequential

4 25
Taxon1 AATTCCCCAGCTTTCCACCAAGCTC
AATTCCCCAGCTTTCCACCAAGCTC
Taxon2 AATTCCACAGCTTTCCACCAAGCTC
AATTCCACAGCTTTCCACCAAGCTC
Taxon3 AACTCCAGCACATTCCACCAAGCTC
AACTCCAGCACATTCCACCAAGCTC
Taxon4 AACTCCACAACATTCCACCAAGCTC
AACTCCACAACATTCCACCAAGCTC
PHYLIP – interleaved

   4 25
   Taxon1   AATTCCCCAG   CTTTCCACCA   AGCTCAGCTC
   Taxon2   AATTCCACAG   CTTTCCACCA   AGCTCAGCTC
   Taxon3   AACTCCAGCA   CATTCCACCA   AGCTCAGCTC
   Taxon4   AACTCCACAA   CATTCCACCA   AGCTCAGCTC

   AATTCCCCAG   CTTTCC
   AATTCCACAG   CTTTCC
   AACTCCAGCA   CATTCC
   AACTCCACAA   CATTCC

                    CLUSTAL

CLUSTAL O(1.2.1) multiple sequence alignment

Taxon1      AATTCCCCAGCTTTCCACCAAGCTC     25
Taxon2      AATTCCACAGCTTTCCACCAAGCTC     25
Taxon3      AACTCCAGCACATTCCACCAAGCTC     25
Taxon4      AACTCCACAACATTCCACCAAGCTC     25
            ** ***    * *************
Sie können auch lesen