Bioinformatik I (Einführung) - Algorithmen Sequenzen Strukturen - Kay Diederichs, Sommersemester 2019

Die Seite wird erstellt Mercedes Schön
 
WEITER LESEN
Bioinformatik I (Einführung) - Algorithmen Sequenzen Strukturen - Kay Diederichs, Sommersemester 2019
Kay Diederichs, Sommersemester 2019

Bioinformatik I (Einführung)

               Algorithmen
                Sequenzen
                Strukturen
• PDFs unter http://strucbio.biologie.uni-
  konstanz.de/~dikay/bioinformatik/

• Klausur: Mo 29.7. 14:00-15:00 R712

• Nachklausur: Mo 30.9. 8:00-9:00 R712

                                             2
Literatur zur Vorlesung (z.B.)

                Dehnert, Manuel; Hütt, Marc-Thorsten
                Springer Verlag (2016), ISBN 978-3-662-46150-1

  online in eBook-Sammlung der UB Konstanz

                                                                 3
Weitere Literatur
•   A.M. Lesk: Introduction to bioinformatics
•   A.M. Lesk: Bioinformatik: eine Einführung
•   P.M. Selzer: Angewandte Bioinformatik: eine Einführung
•   D.W. Mount: Bioinformatics: sequence and genome analysis
•   D. Rigden: From Protein Structure to Function with Bioinformatics .
    Springer. Online verfügbar unter eBooks UB Konstanz
•   V. S. Mathura, P. Kangueane: Bioinformatics : a concept-based
    introduction. Springer. Online verfügbar unter eBooks UB Konstanz
•   Jährlich kommen Titel hinzu – bitte nachschauen!

                                                                          4
Vorträge
• Bewerber/innen Professur „Angewandte Bioinformatik“:
  J. Schmiedel (Barcelona) 30.4. 13:30 V1001 structure through
  mutagenesis
  L. Gramzow (Jena) 6.5. 13:30 ML630 phylogenomics
  K. Luck (Boston) 6.5. 15:00 ML630 human interactome
  A. Gruber (Oxford) 7.5.13:30 L602. gene expression
  D. Ramazotti (woher?) 7.5. 15:00 L602 Titel ?
  D. Esser (woher?) 13.5. 13:30 ML630 Titel ?
  M. Steinegger (Baltimore) 13.5. 15:00 ML630 algorithms for
  sequence analysis

• jeden Do 12:15: FB-Seminar
  23.5.: K. Diederichs: Coping with large amounts of noisy data
                                                                  5
Was die Vorlesung nicht leistet
              …
 ●
   Programmierkenntnisse (R, Python, ...)
 ●
   praktische Übungen

     (Vertiefungskurs AG Diederichs/Mayans)

                                              6
Introduction to Computer programming for biologists

       Dr. Damien Farine (AG Couzin)

       „My lecture is on Thursday 17:00 to 18:30 in ML630. (note
       the L).
       I'm happy for students to join from week 3 onwards, that's
       when we start going into more detail. I can also run-over the
       previous content very quickly.“
The lectures will introduce students to the general concepts that underlie programming
and different elements of computer code (the language or syntax). The course will taught
using R, a very commonly used language in biological sciences, and will also introduce
students agent-based simulations through the examples. This course will provide very
useful skills for students that plan to undertake their own projects.
                                                                                    7
Klausur
●
  Aufgaben in der Klausur sind ähnlich denen
der wöchentlichen „Hausaufgaben“
●
  alte Klausuren habe ich nicht, aber evtl die
Fachschaft oder Kommiliton/inn/en
●
  Hilfsmittel: nur Taschenrechner und „How
many membrane proteins are there“ sowie
„Where did the BLOSUM62 alignment score
matrix come from?“ (ausgedruckt); weitere
ggfs nach Angabe vor der Klausur.
                                                 8
Überblick
• Bioinformatik als Nachfolger der
  theoretischen Biologie?
• Hilfsmittel (Algorithmen) aus Mathematik
  (Grundlagen) und Informatik (Umsetzung
  in Programme; Komplexitätstheorie)
• Anwendung auf biologische Fragen
• Machine learning; data mining
• Daten werden zu Informationen,
  Wissen                                 9
Wo steht die Bioinformatik?
 Verständnis der Natur           Beschreibung der Natur
 Mikroebene: Atome,              Makroebene: Organismen
 Moleküle

  Physik           Chemie, theoretische Biologie        Biologie

Strukturbiologie   Genetik      Molek.biol.       Zoologie, Botanik

molekulare Medizin       Bioinformatik            klassische Medizin

structural genomics   genomics       proteomics     metabolomics

                                                                10
Lernziele u.a.
•   Faktenwissen
•   Woher kommen die Daten?
•   Wie werden die Daten verarbeitet?
•   Zusammenhänge zwischen Daten
•   Blackbox versus Algorithmus
•   (Visualisierung)
•   (Programme; Programmierung)

                                        11
Themen der Vorlesung
•   Introduction: overview and motivation, role of bioinformatics
•   amino acids and proteins
•   structures and how they are elucidated, visualization
•   genome databases
•   sequence databases, sequence retrieval and analysis
•   protein structure database PDB
•   membrane protein prediction
•   dot matrix method for comparing sequences
•   exchange matrices
•   alignment of sequences by dynamic programming
•   local alignment and global alignment
•   multiple sequence alignment
•   phylogenetic analysis
•   classification of protein structures
•   prediction of protein secondary structure
•   prediction of protein tertiary structure
•   CASP tournaments
•   other interesting algorithms e.g. Hidden Markov Models, Neural Networks
•   Visualization in Bioinformatics
                                                                              12
DNA → RNA → Protein
• nur 1.5% des humanen Genoms kodiert (~30.000) Proteine
• viele Loci werden in RNA transkribiert, aber nur ein Teil der
RNA wird in Proteine translatiert.
• noncoding RNA (ncRNA) spielt häufig eine regulatorische Rolle,
glaubt man; aber es gibt nur wenige Beispiele, die man versteht.
• microRNA am besten untersucht
• long ncRNA = lncRNA am wenigsten verstanden (long: >200
Nukleotide)
• es gibt inzwischen ~ 100 Kategorien von ncRNA (Nat. Meth. 15,
103 [2018]),
• Tools und Annotation von (nc)RNA                           13
Interactom
    • Protein-Funktion auf „genomic scale“
    • Protein-Protein-Interaktionen (PPI): Methoden der
    Strukturuntersuchung sind Komplex-Struktur,
    Docking und Homologie-Modellierung
    • Krankheiten in Folge von Mutationen,
    insbesondere Störung der PPI
    • “coverage” aller Protein-Interaktionen: 6%
    experimentell
    • INSIDER: a structural interactome browser for
    genomic studies (Nat. Meth. 15 [2018], 107)
    • “machine learning“: Vorhersage von 186.000 PPIs
    (human+7); Validierung mit 2.164 Mutagenese-
    Experimenten
a) The plot shows the coverage (number of protein interactions)
of known high-quality binary interactomes with precomputed
cocomplexed protein structures.
b) The number of interactions from the eight largest            14
interactomes with experimentally solved structures.
Algorithmus: Geschichte
• 1957 existierte der Begriff „Algorithmus“
noch nicht in Webster‘s New World
Dictionary
• „algorism“ geht auf einen persischen
Mathematiker (al-Khwarizmi, 9. Jhdt.)
zurück
• D.E. Knuth begann 1962 mit „The Art of
Computer Programming“ (5-7 Bücher;
4 davon sind “schon” erschienen)              15
Algorithmus: Kennzeichen
    Anforderungen an Algorithmus (nach Knuth):
•   Finitheit – endliche Anzahl von Schritten
•   Definitheit – jeder Schritt ist präzise definiert und
    muss auch so ausgeführt werden. (Sprache vs
    Mathematik)
•   0 oder mehr Inputs (Eigenschaften von Objekten;
    nicht unbedingt Zahlen)
•   1 oder mehr Outputs (die vom Input abhängen)
•   Effektivität – grundlegend und einfach genug, dass
    alle Operationen im Prinzip genau durchgeführt
    werden können und das gewünschte Ergebnis in
    endlicher Zeit erhalten wird

                                                            16
Algorithmus: Beispiel
•    Euklid (ca. 360 v.Chr. bis 280 v.Chr.)
•    Gesucht: größter gemeinsamer Teiler
     zweier Zahlen. Gegeben seien positive
     ganze Zahlen m, n. Gesucht ist die
     größte Zahl, die sowohl m als auch n
     ohne Rest teilt.
1.   Teile m durch n and erhalte r als Rest
     (also 0 ≤ r < n)
2.   Ist r Null? Wenn ja, ist n die Lösung.
3.   Wenn nein: setze m := n ; n:= r und gehe zu 1.
                                                      17
Hausaufgabe
• Bestimmen Sie den größten gemeinsamen
  Teiler von (119 und 544), sowie von (2166 und
  6099)!
• Überprüfen Sie die Kriterien von Knuth an
  Euklid‘s Algorithmus!
• Warum funktioniert Euklid‘s Algorithmus?
  (Beweis)
• Was ist der günstigste/ungünstigste Fall?
• Geben sie einen alternativen Algorithmus an!
                                              18
Algorithmus (Wikipedia)
•    Das Verfahren muss in einem endlichen Text eindeutig
     beschreibbar sein (Finitheit).
•    Jeder Schritt des Verfahrens muss auch tatsächlich ausführbar
     sein (Ausführbarkeit).
•    Das Verfahren darf zu jedem Zeitpunkt nur endlich viel
     Speicherplatz benötigen (Dynamische Finitheit, siehe auch
     Platzkomplexität).
•    Das Verfahren darf nur endlich viele Schritte benötigen
     (Terminierung, siehe auch Zeitkomplexität).
•    Darüber hinaus wird der Begriff Algorithmus in praktischen
     Bereichen oft auf die folgenden Eigenschaften eingeschränkt:
1.   Der Algorithmus muss bei denselben Voraussetzungen das
     gleiche Ergebnis liefern (Determiniertheit).
2.   Die nächste anzuwendende Regel im Verfahren ist zu jedem
     Zeitpunkt eindeutig definiert (Determinismus).
                                                                 19
Weitere Beispiele für
               Algorithmen
• Prozess: Ausführender, Algorithmus, Typische Anweisung
• Kuchenbacken: Bäcker, Rezept, nimm 1 Pfund Mehl u. rolle Teig
  aus
• Spielen einer Melodie: Sänger/Instrumentalist, Tonfolge, spiele
  den nächsten Ton ...
• Bedienung eines Handys: Anrufer, Bedienungsanleitung, drücke
  die Taste #, drücke die Taste 3, ...
• Hausaufgabe: untersuchen Sie die genannten Verfahren
  daraufhin, ob sie die Kriterien für einen Algorithmus erfüllen!

                                                                20
Sie können auch lesen