Bioinformatik I (Einführung) - Algorithmen Sequenzen Strukturen - Kay Diederichs, Sommersemester 2018

 
WEITER LESEN
Bioinformatik I (Einführung) - Algorithmen Sequenzen Strukturen - Kay Diederichs, Sommersemester 2018
Kay Diederichs, Sommersemester 2018

Bioinformatik I (Einführung)

               Algorithmen
                Sequenzen
                Strukturen
• PDFs unter http://strucbio.biologie.uni-
  konstanz.de/~dikay/bioinformatik/

• Klausur: Mo 30.7. 14:30-15:30 R712

• Nachklausur: Mo 1.10. 8:00-9:00 R712

                                             2
Hinweis
• Öffentliche Bioinformatik-relevante
  Vorlesung(en) werden in der Vorlesung
  genannt
• jeden Do 12:15: FB-Seminar

                                          3
Literatur zur Vorlesung (z.B.)

                Dehnert, Manuel; Hütt, Marc-Thorsten
                Springer Verlag (2016), ISBN 978-3-662-46150-1

  online in eBook-Sammlung der UB Konstanz

                                                                 4
Weitere Literatur
•   A.M. Lesk: Introduction to bioinformatics
•   A.M. Lesk: Bioinformatik: eine Einführung
•   P.M. Selzer: Angewandte Bioinformatik: eine Einführung
•   D.W. Mount: Bioinformatics: sequence and genome analysis
•   D. Rigden: From Protein Structure to Function with Bioinformatics .
    Springer. Online verfügbar unter eBooks UB Konstanz
•   V. S. Mathura, P. Kangueane: Bioinformatics : a concept-based
    introduction. Springer. Online verfügbar unter eBooks UB Konstanz
•   Jährlich kommen Titel hinzu – bitte nachschauen!

                                                                          5
Was die Vorlesung nicht leistet
              …
 ●
   Programmierkenntnisse (R, Python, ...)
 ●
   praktische Übungen

     (Vertiefungskurs AG Diederichs/Mayans)

                                              6
Klausur
●
  Aufgaben in der Klausur sind ähnlich denen
der wöchentlichen „Hausaufgaben“
●
  alte Klausuren habe ich nicht, aber evtl die
Fachschaft oder Kommiliton/inn/en
●
  Hilfsmittel: nur Taschenrechner und „How
many membrane proteins are there“ sowie
„Where did the BLOSUM62 alignment score
matrix come from?“ (ausgedruckt); weitere
ggfs nach Angabe vor der Klausur.
                                                 7
Überblick
• Bioinformatik als Nachfolger der
  theoretischen Biologie?
• Hilfsmittel (Algorithmen) aus Mathematik
  (Grundlagen) und Informatik (Umsetzung
  in Programme; Komplexitätstheorie)
• Anwendung auf biologische Fragen
• Machine learning; data mining
• Daten werden zu Informationen,
  Wissen                                 8
Wo steht die Bioinformatik?
 Verständnis der Natur           Beschreibung der Natur
 Mikroebene: Atome,              Makroebene: Organismen
 Moleküle

  Physik           Chemie, theoretische Biologie        Biologie

Strukturbiologie   Genetik      Molek.biol.       Zoologie, Botanik

molekulare Medizin       Bioinformatik            klassische Medizin

structural genomics   genomics       proteomics     metabolomics

                                                                9
Lernziele u.a.
•   Faktenwissen
•   Woher kommen die Daten?
•   Wie werden die Daten verarbeitet?
•   Zusammenhänge zwischen Daten
•   Blackbox versus Algorithmus
•   Visualisierung
•   (Programme und ihre Bedienung)
•   (Programmierung)
                                        10
Themen der Vorlesung
•   Introduction: overview and motivation, role of bioinformatics
•   amino acids and proteins
•   structures and how they are elucidated, visualization
•   genome databases
•   sequence databases, sequence retrieval and analysis
•   protein structure database PDB
•   membrane protein prediction
•   dot matrix method for comparing sequences
•   exchange matrices
•   alignment of sequences by dynamic programming
•   local alignment and global alignment
•   multiple sequence alignment
•   phylogenetic analysis
•   classification of protein structures
•   prediction of protein secondary structure
•   prediction of protein tertiary structure
•   CASP tournaments
•   other interesting algorithms e.g. Hidden Markov Models, Neural Networks
•   Visualization in Bioinformatics
                                                                              11
DNA → RNA → Protein
• nur 1.5% des humanen Genoms kodiert (~30.000) Proteine
• viele Loci werden in RNA transkribiert, aber nur ein Teil der
RNA wird in Proteine translatiert.
• noncoding RNA (ncRNA) spielt häufig eine regulatorische Rolle,
glaubt man; aber es gibt nur wenige Beispiele, die man versteht.
• microRNA am besten untersucht
• long ncRNA = lncRNA am wenigsten verstanden (long: >200
Nukleotide)
• es gibt inzwischen ~ 100 Kategorien von ncRNA (Nat. Meth. 15,
103 [2018]),
• Tools und Annotation von (nc)RNA                           12
Interactom
     • Protein-Funktion auf „genomic scale“
     • Protein-Protein-Interaktionen (PPI): Methoden der
     Strukturuntersuchung sind Komplex-Struktur,
     Docking und Homologie-Modellierung
     • Krankheiten in Folge von Mutationen,
     insbesondere Störung der PPI
     • “coverage” aller Protein-Interaktionen: 6%
     experimentell
     • INSIDER: a structural interactome browser for
     genomic studies (Nat. Meth. 15 [2018], 107)
     • “machine learning“: Vorhersage von 186.000 PPIs
     (human+7); Validierung mit 2.164 Mutagenese-
     Experimenten
a) The plot shows the coverage (number of protein interactions)
of known high-quality binary interactomes with precomputed
cocomplexed protein structures.
b) The number of interactions from the eight largest interactomes 13
with experimentally solved structures.
Algorithmus: Geschichte
• 1957 existierte der Begriff „Algorithmus“
noch nicht in Webster‘s New World
Dictionary
• „algorism“ geht auf einen persischen
Mathematiker (al-Khwarizmi, 9. Jhdt.)
zurück
• D.E. Knuth begann 1962 mit „The Art of
Computer Programming“ (5-7 Bücher;
4 davon sind “schon” erschienen)              14
Algorithmus: Kennzeichen
    Anforderungen an Algorithmus (nach Knuth):
•   Finitheit – endliche Anzahl von Schritten
•   Definitheit – jeder Schritt ist präzise definiert und
    muss auch so ausgeführt werden. (Sprache vs
    Mathematik)
•   0 oder mehr Inputs (Eigenschaften von Objekten;
    nicht unbedingt Zahlen)
•   1 oder mehr Outputs (die vom Input abhängen)
•   Effektivität – grundlegend und einfach genug, dass
    alle Operationen im Prinzip genau durchgeführt
    werden können und das gewünschte Ergebnis in
    endlicher Zeit erhalten wird

                                                            15
Algorithmus: Beispiel
•    Euklid (ca. 360 v.Chr. bis 280 v.Chr.)
•    Gesucht: größter gemeinsamer Teiler
     zweier Zahlen. Gegeben seien positive
     ganze Zahlen m, n. Gesucht ist die
     größte Zahl, die sowohl m als auch n
     ohne Rest teilt.
1.   Teile m durch n and erhalte r als Rest
     (also 0 ≤ r < n)
2.   Ist r Null? Wenn ja, ist n die Lösung.
3.   Wenn nein: setze m := n ; n:= r und gehe zu 1.
                                                      16
Hausaufgabe
• Bestimmen Sie den größten gemeinsamen
  Teiler von (119 und 544), sowie von (2166 und
  6099)!
• Überprüfen Sie die Kriterien von Knuth an
  Euklid‘s Algorithmus!
• Warum funktioniert Euklid‘s Algorithmus?
  (Beweis)
• Was ist der günstigste/ungünstigste Fall?
• Geben sie einen alternativen Algorithmus an!
                                              17
Programmierkurs
Introduction to Computer programming
for biologists (BIO-14460)
Dr. Farine, Damien
Donnerstag 17:00-18:30 wöchentlich
 19.04.2018-19.07.2018      Ort: ML630

                                     18
Sie können auch lesen