Bioinformatik I (Einführung) - Algorithmen Sequenzen Strukturen - Kay Diederichs, Sommersemester 2018
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
• PDFs unter http://strucbio.biologie.uni- konstanz.de/~dikay/bioinformatik/ • Klausur: Mo 30.7. 14:30-15:30 R712 • Nachklausur: Mo 1.10. 8:00-9:00 R712 2
Hinweis • Öffentliche Bioinformatik-relevante Vorlesung(en) werden in der Vorlesung genannt • jeden Do 12:15: FB-Seminar 3
Literatur zur Vorlesung (z.B.) Dehnert, Manuel; Hütt, Marc-Thorsten Springer Verlag (2016), ISBN 978-3-662-46150-1 online in eBook-Sammlung der UB Konstanz 4
Weitere Literatur • A.M. Lesk: Introduction to bioinformatics • A.M. Lesk: Bioinformatik: eine Einführung • P.M. Selzer: Angewandte Bioinformatik: eine Einführung • D.W. Mount: Bioinformatics: sequence and genome analysis • D. Rigden: From Protein Structure to Function with Bioinformatics . Springer. Online verfügbar unter eBooks UB Konstanz • V. S. Mathura, P. Kangueane: Bioinformatics : a concept-based introduction. Springer. Online verfügbar unter eBooks UB Konstanz • Jährlich kommen Titel hinzu – bitte nachschauen! 5
Was die Vorlesung nicht leistet … ● Programmierkenntnisse (R, Python, ...) ● praktische Übungen (Vertiefungskurs AG Diederichs/Mayans) 6
Klausur ● Aufgaben in der Klausur sind ähnlich denen der wöchentlichen „Hausaufgaben“ ● alte Klausuren habe ich nicht, aber evtl die Fachschaft oder Kommiliton/inn/en ● Hilfsmittel: nur Taschenrechner und „How many membrane proteins are there“ sowie „Where did the BLOSUM62 alignment score matrix come from?“ (ausgedruckt); weitere ggfs nach Angabe vor der Klausur. 7
Überblick • Bioinformatik als Nachfolger der theoretischen Biologie? • Hilfsmittel (Algorithmen) aus Mathematik (Grundlagen) und Informatik (Umsetzung in Programme; Komplexitätstheorie) • Anwendung auf biologische Fragen • Machine learning; data mining • Daten werden zu Informationen, Wissen 8
Wo steht die Bioinformatik? Verständnis der Natur Beschreibung der Natur Mikroebene: Atome, Makroebene: Organismen Moleküle Physik Chemie, theoretische Biologie Biologie Strukturbiologie Genetik Molek.biol. Zoologie, Botanik molekulare Medizin Bioinformatik klassische Medizin structural genomics genomics proteomics metabolomics 9
Lernziele u.a. • Faktenwissen • Woher kommen die Daten? • Wie werden die Daten verarbeitet? • Zusammenhänge zwischen Daten • Blackbox versus Algorithmus • Visualisierung • (Programme und ihre Bedienung) • (Programmierung) 10
Themen der Vorlesung • Introduction: overview and motivation, role of bioinformatics • amino acids and proteins • structures and how they are elucidated, visualization • genome databases • sequence databases, sequence retrieval and analysis • protein structure database PDB • membrane protein prediction • dot matrix method for comparing sequences • exchange matrices • alignment of sequences by dynamic programming • local alignment and global alignment • multiple sequence alignment • phylogenetic analysis • classification of protein structures • prediction of protein secondary structure • prediction of protein tertiary structure • CASP tournaments • other interesting algorithms e.g. Hidden Markov Models, Neural Networks • Visualization in Bioinformatics 11
DNA → RNA → Protein • nur 1.5% des humanen Genoms kodiert (~30.000) Proteine • viele Loci werden in RNA transkribiert, aber nur ein Teil der RNA wird in Proteine translatiert. • noncoding RNA (ncRNA) spielt häufig eine regulatorische Rolle, glaubt man; aber es gibt nur wenige Beispiele, die man versteht. • microRNA am besten untersucht • long ncRNA = lncRNA am wenigsten verstanden (long: >200 Nukleotide) • es gibt inzwischen ~ 100 Kategorien von ncRNA (Nat. Meth. 15, 103 [2018]), • Tools und Annotation von (nc)RNA 12
Interactom • Protein-Funktion auf „genomic scale“ • Protein-Protein-Interaktionen (PPI): Methoden der Strukturuntersuchung sind Komplex-Struktur, Docking und Homologie-Modellierung • Krankheiten in Folge von Mutationen, insbesondere Störung der PPI • “coverage” aller Protein-Interaktionen: 6% experimentell • INSIDER: a structural interactome browser for genomic studies (Nat. Meth. 15 [2018], 107) • “machine learning“: Vorhersage von 186.000 PPIs (human+7); Validierung mit 2.164 Mutagenese- Experimenten a) The plot shows the coverage (number of protein interactions) of known high-quality binary interactomes with precomputed cocomplexed protein structures. b) The number of interactions from the eight largest interactomes 13 with experimentally solved structures.
Algorithmus: Geschichte • 1957 existierte der Begriff „Algorithmus“ noch nicht in Webster‘s New World Dictionary • „algorism“ geht auf einen persischen Mathematiker (al-Khwarizmi, 9. Jhdt.) zurück • D.E. Knuth begann 1962 mit „The Art of Computer Programming“ (5-7 Bücher; 4 davon sind “schon” erschienen) 14
Algorithmus: Kennzeichen Anforderungen an Algorithmus (nach Knuth): • Finitheit – endliche Anzahl von Schritten • Definitheit – jeder Schritt ist präzise definiert und muss auch so ausgeführt werden. (Sprache vs Mathematik) • 0 oder mehr Inputs (Eigenschaften von Objekten; nicht unbedingt Zahlen) • 1 oder mehr Outputs (die vom Input abhängen) • Effektivität – grundlegend und einfach genug, dass alle Operationen im Prinzip genau durchgeführt werden können und das gewünschte Ergebnis in endlicher Zeit erhalten wird 15
Algorithmus: Beispiel • Euklid (ca. 360 v.Chr. bis 280 v.Chr.) • Gesucht: größter gemeinsamer Teiler zweier Zahlen. Gegeben seien positive ganze Zahlen m, n. Gesucht ist die größte Zahl, die sowohl m als auch n ohne Rest teilt. 1. Teile m durch n and erhalte r als Rest (also 0 ≤ r < n) 2. Ist r Null? Wenn ja, ist n die Lösung. 3. Wenn nein: setze m := n ; n:= r und gehe zu 1. 16
Hausaufgabe • Bestimmen Sie den größten gemeinsamen Teiler von (119 und 544), sowie von (2166 und 6099)! • Überprüfen Sie die Kriterien von Knuth an Euklid‘s Algorithmus! • Warum funktioniert Euklid‘s Algorithmus? (Beweis) • Was ist der günstigste/ungünstigste Fall? • Geben sie einen alternativen Algorithmus an! 17
Programmierkurs Introduction to Computer programming for biologists (BIO-14460) Dr. Farine, Damien Donnerstag 17:00-18:30 wöchentlich 19.04.2018-19.07.2018 Ort: ML630 18
Sie können auch lesen