Bioinformatik I (Einführung) - Algorithmen Sequenzen Strukturen - Kay Diederichs, Sommersemester 2019
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
• PDFs unter http://strucbio.biologie.uni- konstanz.de/~dikay/bioinformatik/ • Klausur: Mo 29.7. 14:00-15:00 R712 • Nachklausur: Mo 30.9. 8:00-9:00 R712 2
Literatur zur Vorlesung (z.B.) Dehnert, Manuel; Hütt, Marc-Thorsten Springer Verlag (2016), ISBN 978-3-662-46150-1 online in eBook-Sammlung der UB Konstanz 3
Weitere Literatur • A.M. Lesk: Introduction to bioinformatics • A.M. Lesk: Bioinformatik: eine Einführung • P.M. Selzer: Angewandte Bioinformatik: eine Einführung • D.W. Mount: Bioinformatics: sequence and genome analysis • D. Rigden: From Protein Structure to Function with Bioinformatics . Springer. Online verfügbar unter eBooks UB Konstanz • V. S. Mathura, P. Kangueane: Bioinformatics : a concept-based introduction. Springer. Online verfügbar unter eBooks UB Konstanz • Jährlich kommen Titel hinzu – bitte nachschauen! 4
Vorträge • Bewerber/innen Professur „Angewandte Bioinformatik“: J. Schmiedel (Barcelona) 30.4. 13:30 V1001 structure through mutagenesis L. Gramzow (Jena) 6.5. 13:30 ML630 phylogenomics K. Luck (Boston) 6.5. 15:00 ML630 human interactome A. Gruber (Oxford) 7.5.13:30 L602. gene expression D. Ramazotti (woher?) 7.5. 15:00 L602 Titel ? D. Esser (woher?) 13.5. 13:30 ML630 Titel ? M. Steinegger (Baltimore) 13.5. 15:00 ML630 algorithms for sequence analysis • jeden Do 12:15: FB-Seminar 23.5.: K. Diederichs: Coping with large amounts of noisy data 5
Was die Vorlesung nicht leistet … ● Programmierkenntnisse (R, Python, ...) ● praktische Übungen (Vertiefungskurs AG Diederichs/Mayans) 6
Introduction to Computer programming for biologists Dr. Damien Farine (AG Couzin) „My lecture is on Thursday 17:00 to 18:30 in ML630. (note the L). I'm happy for students to join from week 3 onwards, that's when we start going into more detail. I can also run-over the previous content very quickly.“ The lectures will introduce students to the general concepts that underlie programming and different elements of computer code (the language or syntax). The course will taught using R, a very commonly used language in biological sciences, and will also introduce students agent-based simulations through the examples. This course will provide very useful skills for students that plan to undertake their own projects. 7
Klausur ● Aufgaben in der Klausur sind ähnlich denen der wöchentlichen „Hausaufgaben“ ● alte Klausuren habe ich nicht, aber evtl die Fachschaft oder Kommiliton/inn/en ● Hilfsmittel: nur Taschenrechner und „How many membrane proteins are there“ sowie „Where did the BLOSUM62 alignment score matrix come from?“ (ausgedruckt); weitere ggfs nach Angabe vor der Klausur. 8
Überblick • Bioinformatik als Nachfolger der theoretischen Biologie? • Hilfsmittel (Algorithmen) aus Mathematik (Grundlagen) und Informatik (Umsetzung in Programme; Komplexitätstheorie) • Anwendung auf biologische Fragen • Machine learning; data mining • Daten werden zu Informationen, Wissen 9
Wo steht die Bioinformatik? Verständnis der Natur Beschreibung der Natur Mikroebene: Atome, Makroebene: Organismen Moleküle Physik Chemie, theoretische Biologie Biologie Strukturbiologie Genetik Molek.biol. Zoologie, Botanik molekulare Medizin Bioinformatik klassische Medizin structural genomics genomics proteomics metabolomics 10
Lernziele u.a. • Faktenwissen • Woher kommen die Daten? • Wie werden die Daten verarbeitet? • Zusammenhänge zwischen Daten • Blackbox versus Algorithmus • (Visualisierung) • (Programme; Programmierung) 11
Themen der Vorlesung • Introduction: overview and motivation, role of bioinformatics • amino acids and proteins • structures and how they are elucidated, visualization • genome databases • sequence databases, sequence retrieval and analysis • protein structure database PDB • membrane protein prediction • dot matrix method for comparing sequences • exchange matrices • alignment of sequences by dynamic programming • local alignment and global alignment • multiple sequence alignment • phylogenetic analysis • classification of protein structures • prediction of protein secondary structure • prediction of protein tertiary structure • CASP tournaments • other interesting algorithms e.g. Hidden Markov Models, Neural Networks • Visualization in Bioinformatics 12
DNA → RNA → Protein • nur 1.5% des humanen Genoms kodiert (~30.000) Proteine • viele Loci werden in RNA transkribiert, aber nur ein Teil der RNA wird in Proteine translatiert. • noncoding RNA (ncRNA) spielt häufig eine regulatorische Rolle, glaubt man; aber es gibt nur wenige Beispiele, die man versteht. • microRNA am besten untersucht • long ncRNA = lncRNA am wenigsten verstanden (long: >200 Nukleotide) • es gibt inzwischen ~ 100 Kategorien von ncRNA (Nat. Meth. 15, 103 [2018]), • Tools und Annotation von (nc)RNA 13
Interactom • Protein-Funktion auf „genomic scale“ • Protein-Protein-Interaktionen (PPI): Methoden der Strukturuntersuchung sind Komplex-Struktur, Docking und Homologie-Modellierung • Krankheiten in Folge von Mutationen, insbesondere Störung der PPI • “coverage” aller Protein-Interaktionen: 6% experimentell • INSIDER: a structural interactome browser for genomic studies (Nat. Meth. 15 [2018], 107) • “machine learning“: Vorhersage von 186.000 PPIs (human+7); Validierung mit 2.164 Mutagenese- Experimenten a) The plot shows the coverage (number of protein interactions) of known high-quality binary interactomes with precomputed cocomplexed protein structures. b) The number of interactions from the eight largest 14 interactomes with experimentally solved structures.
Algorithmus: Geschichte • 1957 existierte der Begriff „Algorithmus“ noch nicht in Webster‘s New World Dictionary • „algorism“ geht auf einen persischen Mathematiker (al-Khwarizmi, 9. Jhdt.) zurück • D.E. Knuth begann 1962 mit „The Art of Computer Programming“ (5-7 Bücher; 4 davon sind “schon” erschienen) 15
Algorithmus: Kennzeichen Anforderungen an Algorithmus (nach Knuth): • Finitheit – endliche Anzahl von Schritten • Definitheit – jeder Schritt ist präzise definiert und muss auch so ausgeführt werden. (Sprache vs Mathematik) • 0 oder mehr Inputs (Eigenschaften von Objekten; nicht unbedingt Zahlen) • 1 oder mehr Outputs (die vom Input abhängen) • Effektivität – grundlegend und einfach genug, dass alle Operationen im Prinzip genau durchgeführt werden können und das gewünschte Ergebnis in endlicher Zeit erhalten wird 16
Algorithmus: Beispiel • Euklid (ca. 360 v.Chr. bis 280 v.Chr.) • Gesucht: größter gemeinsamer Teiler zweier Zahlen. Gegeben seien positive ganze Zahlen m, n. Gesucht ist die größte Zahl, die sowohl m als auch n ohne Rest teilt. 1. Teile m durch n and erhalte r als Rest (also 0 ≤ r < n) 2. Ist r Null? Wenn ja, ist n die Lösung. 3. Wenn nein: setze m := n ; n:= r und gehe zu 1. 17
Hausaufgabe • Bestimmen Sie den größten gemeinsamen Teiler von (119 und 544), sowie von (2166 und 6099)! • Überprüfen Sie die Kriterien von Knuth an Euklid‘s Algorithmus! • Warum funktioniert Euklid‘s Algorithmus? (Beweis) • Was ist der günstigste/ungünstigste Fall? • Geben sie einen alternativen Algorithmus an! 18
Algorithmus (Wikipedia) • Das Verfahren muss in einem endlichen Text eindeutig beschreibbar sein (Finitheit). • Jeder Schritt des Verfahrens muss auch tatsächlich ausführbar sein (Ausführbarkeit). • Das Verfahren darf zu jedem Zeitpunkt nur endlich viel Speicherplatz benötigen (Dynamische Finitheit, siehe auch Platzkomplexität). • Das Verfahren darf nur endlich viele Schritte benötigen (Terminierung, siehe auch Zeitkomplexität). • Darüber hinaus wird der Begriff Algorithmus in praktischen Bereichen oft auf die folgenden Eigenschaften eingeschränkt: 1. Der Algorithmus muss bei denselben Voraussetzungen das gleiche Ergebnis liefern (Determiniertheit). 2. Die nächste anzuwendende Regel im Verfahren ist zu jedem Zeitpunkt eindeutig definiert (Determinismus). 19
Weitere Beispiele für Algorithmen • Prozess: Ausführender, Algorithmus, Typische Anweisung • Kuchenbacken: Bäcker, Rezept, nimm 1 Pfund Mehl u. rolle Teig aus • Spielen einer Melodie: Sänger/Instrumentalist, Tonfolge, spiele den nächsten Ton ... • Bedienung eines Handys: Anrufer, Bedienungsanleitung, drücke die Taste #, drücke die Taste 3, ... • Hausaufgabe: untersuchen Sie die genannten Verfahren daraufhin, ob sie die Kriterien für einen Algorithmus erfüllen! 20
Sie können auch lesen