PICS: Statistische Analyse von CHIP-seq Daten
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
PICS: Statistische Analyse von CHIP-seq Daten Ausarbeitung zum Seminar “Biomedical Informatics” im WS 2012/2013 Sandra Uhlenbrock 10. Dezember 2012 1 Einleitung Diese Ausarbeitung basiert auf “PICS: Probabilistic Inference for ChIP-seq” von Zhang et al. (Biometrics 2011) und befasst sich mit einer statistischen Methode zur Analyse von großen ChIP-seq Datenmengen. Alle verwendeten Abbildungen sind der oben genannten Veröffentlichung entnommen. Ziel des Verfahrens ist es, aus den gegebenen ChIP-seq Daten die Bindungsstellen der Proteine zu schätzen. Bevor ich näher auf die statistischen Methoden eingehe, werde ich zunächst kurz beschreiben, wie die gegebenen ChIP-seq Daten entstehen beziehungs- weise woraus sie sich zusammensetzen. Dieses Verfahren ist ebenfalls in Abbildung 1 dargestellt. In einem ersten Schritt werden die Proteine mit der DNA vernetzt und man erhält Chro- matin. Mit Hilfe von Ultraschall wird dann in einem zweiten Schritt die DNA mit den gebundenen Proteinen aus den Zellen gelöst und in Fragmente geteilt. Diese Fragmente haben eine durchschnittliche Länge von etwa 1000 Basenpaaren (bp). Als nächstes wer- den die interessanten Proteine, welche je nach Experiment verschieden sein können, durch die Hinzugabe von passenden Antikörpern markiert und mittels Immunpräzipitation iso- liert. Im nächsten Schritt wird die DNA wieder vom Protein getrennt. Danach werden die Fragmente ausgewählt, die eine passende Größe haben. In diesem Fall sind das et- wa 100 bis 300 bp. Die so gewonnenen DNA Fragmente werden nun sequenziert. Dabei entstehen Millionen von kurzen reads (z.B. je 36 bp), die entweder den Anfang oder das Ende eines Fragments darstellen (vorwärts bzw. rückwärts reads). Mit Hilfe dieser reads werden die Fragmente nun den Stellen im Genom zugeordnet. Auf Grund von sich wie- derholenden Abfolgen von Basenpaaren, kann es sein, dass ein read sich nicht eindeutig einer Stelle im Genom zuordnen lässt. In diesem Fall wird der read verworfen. Dies führt dazu, dass es im Genom Bereiche gibt, in denen keine reads zugeordnet werden können. 1
Abbildung 1: Ein ChIP-seq Experiment. 2
In der später folgenden Analyse wird versucht, die reads in diesen Bereichen mit Hilfe der Werte aus benachbarten Bereichen zu approximieren. Datensätze, die wie oben beschrieben entstanden sind, können nun dazu benutzt werden die Bindungsstellen der interessanten Proteine zu schätzen. Jedes DNA Fragment des Datensatzes, bis auf Ausnahmen die durch Fehler in der Immunpräzipitation oder der Zuordnung entstanden sind, enthält eine Bindungsstelle. Wenn man nun die vorwärts und rückwärts reads geeignet modelliert, kann man die Bindungsstelle als Mittelwert zwi- schen der mittleren Position der vorwärts reads und der mittleren Position der rückwärts reads schätzen. Wie man dies umsetzt werde ich in den folgenden Abschnitten genauer erläutern. 2 Das Modell Da ChIP-seq Datensätze häufig Regionen enthalten, in denen keine oder kaum reads beobachtet werden, teilt man die Daten zunächst in sogenannte Kandidatenregionen auf. Jede solche Kandidatenregion soll dabei eine minimale Anzahl von vorwärts und von rückwärts reads enthalten, damit eine Analyse der Region durch PICS sinnvoll ist. Außerdem sollen die Regionen disjunkt voneinander sein, das heißt sich nicht überlappen, damit man später jede solche Region einzeln analysieren kann. Um diese Kandidatenregionen zu bekommen, schiebt man ein Fenster mit einer geeig- neten Breite in einer geeigneten Schrittgröße über den Datensatz und zählt die Anzahl der vorwärts reads in der linken Fensterhälfte und die Anzahl der rückwärts reads in der rechten Fensterhälfte. Nun behält man nur die Fenster, die mindestens einen vorwärts und einen rückwärts read beinhalten, und fügt sie bei Überlappungen zusammen. Wenn man nun noch die Zusammengefügten Fenster löscht, die weniger als zwei vorwärts be- ziehungsweise rückwärts reads beinhalten, erhält man die gewünschten Kandidatenre- gionen. 2.1 Das Modell für eine einzelne Bindungsstelle Nehmen wir nun einmal an, dass eine gegebene Kandidatenregion, die nun analysiert werden soll, nur eine einzelne Bindungsstelle aufweist. In der gegebenen Region bezeichne fi beziehungsweise rj die Position des i-ten vorwärts beziehungsweise des j-ten rückwärts reads. Die Anzahl der vorwärts reads in der gegebenen Kandidatenregion bezeichnen wir mit nf und die Anzahl der rückwärts reads mit nr . Nun modellieren wir die Positionen der reads mit Hilfe einer studentschen t-Verteilung mit vier Freiheitsgraden wie folgt: δ δ fi ∼ t4 (µ − , σf2 ) und rj ∼ t4 (µ + , σr2 ). 2 2 Hierbei bezeichnet µ die Bindungsstelle und δ den Abstand zwischen den Maxima der Dichten der vorwärts beziehungsweise rückwärts reads. Dieser Abstand ist offensichtlich zugleich die mittlere Länge der gegebenen DNA Fragmente, deren reads für diese Bin- dungsstelle betrachtet wurden. σf2 und σr2 , die Varianzen der studentschen t-Verteilungen, 3
parameters σf k and σ Figure 2a shows a candidate region with one binding event, along with the corresponding PICS parameter estimates. 3.3 Prior Distribution Typically, the library 3.2 Modeling Multiple Binding Events mation available for t We use mixture models to address the possibility that the use a Bayesian appro sets simulieren die of forwardin and Varianzen reverse beziehungsweise den Anfangs- reads within aEndpositionen candidate region by allowing the δk ’s f der gegebenen were generated DNA Fragmente. by der Die Dichte multiple closelyt-Verteilung studentschen spaced binding ähnelt events. Weder mon der Dichte Nor- prior fragment le modelallerdings malverteilung, the forward sind and reverse(“Tails”) die Flanken read positions etwas mehrusing t-mixture betont. put Damit ist diea common prior d in diesemdistributions: Fall gut geeignet, da sie Ausreißer besser modelliert. In Abbildung 2.1 istusdie to incorporate prio Schätzung von PICS für eine Region mit einer Bindungsstelle mit den vorkommenden Parametern dargestellt. (a) One binding event (b) PICS Kernel density 0.010 Reads Density Mappability profile Mappability profile 0.005 1 f 1 r 0.000 > > >> >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> >> >>>> >> >>>>>>>>> > < < <
Typically, the library construction process makes prior infor- mation available for the length of the DNA fragments. We can possibility that the use a Bayesian approach to take advantage of this information n a candidate region by allowing the δk ’s for all binding sites to derive from a com- d binding events. We mon prior fragment length distribution. Similarly, we can also tions using t-mixture put a common prior distribution on σf2 k and σr2 k , which allows us to incorporate Wahrscheinlichkeiten prioreininformation dafür, dass about gegebenes DNA the variability Fragment of the vorwärts beziehungsweise rückwärts gelesen wird gleich sind. In Abbildung 2.2 ist die Schätzung von PICS für eine Region mit zwei Bindungsstellen mit den vorkommenden Parametern dargestellt. vent (b) Two binding events Mappability profile 1 r >
2.4 Modellierung von verworfenen reads Wie oben schon erwähnt, werden reads, die keiner eindeutigen Stelle im Genom zugeord- net werden können, vor der Analyse verworfen. Die führt dazu, dass in einigen Bereichen des Genoms keine reads in den Datensätzen auftreten, obwohl eigentlich welche vorhan- den sein müssten. Um dieses Problem zu lösen, teilt man jede Kandidatenregion zunächst in verschiedene Bereiche ein, je nachdem wie gut reads in dem jeweiligen Bereich zuge- ordnet werden können. Wenn man eine konkrete read-Länge vorgibt, wird dazu jedem Basenpaar in der Region eine sogenannte Zuordnungsrate zugeordnet, die schätzt wie viel Prozent der reads, die diese Stelle enthalten, auch eindeutig dieser Stelle zugeordnet werden können. Der Einfachheit halber zerlegt man die Kandidatenregion in disjunkte Intervalle, wobei alle Basenpaare in einem solchen Intervall entweder einen score SL = 0 oder > 0 haben. Wenn I die Kandidatenregion bezeichnet, schreibt man I = l=0 Il , wobei I0 die Verei- nigung aller Intervalle mit hoher Zuordnungsrate ist und Il das l-te Intervall bezeichnet, in dem keine Zuordnung stattfinden kann. Bezeichnet man nun mit fli beziehungsweise rlj die Positionen der vorwärts beziehungs- weise rückwärts reads im Intervall Il , dann sind dies für l > 0 unbeobachtete Zufalls- variablen. Diese werden durch eingeschränkte t-Mischverteilungen modelliert. Das heißt fli und rli sind so verteilt wie in Abschnitt 2.2, jedoch eingeschränkt auf das Intervall Il . 3 Analyse des Modells Nachdem nun das Modell für die Daten aufgestellt wurde, muss dieses geeignet analysiert werden, um die konkreten Bindungsstellen schätzen zu können. Zunächst werden dazu 2 mit Mitteln der Statistik die unbekannten Parameter des Modells, wk , µk , δk , σf2k und σrk für alle k = 1, . . . , K, geschätzt. Da dieses Verfahren im Detail mathematisch aufwändig ist und nicht Schwerpunkt dieser Ausarbeitung sein soll, werde ich darauf an dieser Stelle nicht weiter eingehen. Als nächstes stellt sich die Frage, wie man aus dem Modell nun die konkreten Bindungs- stellen extrahiert. Insbesondere muss man dazu bewerten, welche “peaks” im Modell nun tatsächlich ausschlaggebend genug für eine Bindungsstelle sind, beziehungsweise mit welcher Sicherheit man dort eine Bindungsstelle im Genom vorfinden wird. 3.1 Wahl der Anzahl der Bindungsstellen in einer Kandidatenregion Bisher haben wir die Modelle unter der Annahme betrachtet, dass bekannt ist wie viele Bindungsstellen sich in einer gegebenen Kanditatenregion befinden. Diese Anzahl wurde mit K bezeichnet. Nun ist diese Annahme in der Praxis im Allgemeinen unbekannt und muss ebenfalls geschätzt werden. Dies geschieht mittels des sogenannten Bayesschen Informationskriteriums (BIC). Dazu stellt man das Modell für jede Kandidatenregion mit verschiedenen Werten von K auf, in diesem Fall für K = 1, . . . , 15. Dann wählt man das Modell aus, welches den höchsten 6
BIC-Wert hat. Dabei berechnet sich die BIC-Wert hier wie folgt: BIC = 2Q(Θ = Θ̂|Θ̂) − (5K − 1) ln(nf 0 + nr0 ). Hierbei bezeichnet Θ̂ die geschätzen Werte für die unbekannten Parameter Θ und Q die log-Likelihoodfunktion für diese Parameter. Insbesondere sieht man aber, dass Modelle mit vielen Bindungsstellen (das heißt großem K) in Abhängigkeit von der Anzahl der gesamten reads im Bereich mit hoher Zuordnungsrate “bestraft” werden. Dies ist notwen- dig, da ansonsten zu häufig Modelle mit vielen nah aneinanderliegenden Bindungsstellen gewählt werden, da diese sonst einen hohen BIC-Wert erhalten, obwohl dies in der Praxis nicht so häufig vorkommt. 3.2 Zusammenlegen und Filtern der peaks Da die Parameterschätzungen in einem statistischen Modell durchgeführt wurden, kann man für die interessanten Parameter µ und δ Standardfehler µ̂ und δ̂ berechnen. Mit Hilfe dieser Standardfehler kann man dann zum Beispiel Konfidenzintervalle bestimmen oder auch die Güte der Schätzung bewerten. Durch die Bewertung der Modelle mit Hilfe des BIC-Wertes, kann es passieren, dass zum Beispiel ein Modell mit zwei sehr nah aneinander liegenden geschätzten Bindungs- stellen gegenüber einem Modell mit nur einer geschätzten Bindungsstelle beim gleichen zu Grunde liegenden Datensatz bevorzugt wird. Um diesem entgegen zu wirken, werden peaks, die nah beieinander liegen, zu einem einzelnen peak zusammengefügt. In einem zweiten Schritt werden mit Hilfe der Standardfehler die Bindungsstellen aus- sortiert, für die ungewöhnliche Parameter geschätzt wurden oder deren Schätzung nur sehr ungenau möglich war. 3.3 Bewertung der geschätzten Bindungsstellen Um herauszufinden welche peaks tatsächlich ausschlaggebend genug für eine Bindungs- stelle sind, wird jeder möglichen Bindungsstelle ein score zugeordnet. Dazu definieren wir FChIP beziehungsweise RChIP als die Zahl der aufgetretenen vorwärts beziehungsweise rückwärts reads im ChIP Datensatz, deren Position innerhalb eines 90% Konfidenz- intervalles der Dichtefunktion der vorwärts beziehungsweise rückwärts reads liegt. Die Summe dieser beiden Größen OChIP = FChIP + RChIP bezeichnen wir als den score einer Bindungsstelle. Dieser score ist also die geschätzte Zahl der DNA Fragmente, die zu dieser Bindungsstelle gehören, wenn man Ausreißer nicht berücksichtigt. Wenn zusätzlich ein Kontrolldatensatz vorhanden ist, kann man den score relativ zum Kontrolldatensatz ausdrücken. Dazu definiert man zunächst Fcont , Rcont und Ocont für den Kontrolldatensatz analog zu den obigen Größen. Das heißt Fcont ist dann zum Bei- spiel die Anzahl der vorwärts reads des Kontrolldatensatzes, deren Position innerhalb des 90% Konfidenzintervalles der aus den ChIP Daten geschätzten Dichtefunktion der vorwärts reads liegt. Mit diesen Größen kann man dann den score S(b) einer geschätzten 7
Bindungsstelle an Position b relativ zu den Kontrolldaten wie folgt definieren. Ncont OChIP S(b) = · NChIP Ocont + 1 Hierbei bezeichnet NChIP beziehungsweise Ncont die Gesamtanzahl der beobachteten reads in den ChIP Daten (beziehungsweise im Kontrolldatensatz). Die Normierung mit dem Quotienten der beiden Gesamtanzahlen dient dazu, um mögliche Unterschiede in der Gesamtzahl der reads auszugleichen. 4 Anwendungen PICS wurde in der vorliegenden Veröffentlichung auf zwei realen Datensätzen getestet und dabei mit drei bestehenden Systemen verglichen. Ich werde in diesem Abschnitt nicht im Detail auf die Ergebnisse dieses Vergleiches eingehen, sondern vielmehr die verschiedenen Vergleichsmethoden erläutern. 4.1 Die False Discovery Rate Wenn ein Kontrolldatensatz gegeben ist, kann man den Anteil der falsch positiven Bin- dungsstellen in der sogenannten False Discovery Rate (FDR) ausdrücken. Dazu führt man die Analyse noch einmal mit vertauschten Rollen von ChIP Daten und Kontroll- daten durch. Das heißt man berechnet sogenannte “null-scores” S0 (b) als scores der Kontrolldaten mit den ChIP Daten zur Kontrolle. Damit bestimmt man die FDR, als Quotient der Anzahl der falsch positiven und der insgesamt gefundenen Bindungsstel- len. Genauer ist die FDR eine Funktion, abhängig von einem Randwert q und wie folgt definiert. #{b : S0 (b) > q} F DR(q) = #{b : S(b) > q} Wenn man die Analyse von PICS mit dem Ergebnis anderer Systeme mit Hilfe der FDR vergleicht, erhält man für beide Testdatensätze unterschiedliche Ergebnisse. Daher scheint ein Vergleich mittels der FDR in diesem Fall keine hohe Aussagekraft zu haben. 4.2 Vergleiche mittels Motiven Eine weitere Möglichkeit des Vergleichs verschiedener Analysesysteme bieten sogenannte Motive. Dazu versucht man biologisch bekannte Motive in den geschätzten Bindungsstel- len zu finden und bewertet die Ergebnisse nach zwei Kriterien. Das erste ist der Anteil der geschätzten Bindungsstellen, welche tatsächlich in einem biologisch zu erwartenden Motiv enthalten sind. Das zweite Kriterium ist der Abstand zwischen der geschätzten Bindungsstelle und dem Ort des am nächsten gelegenen Motives. Beim Vergleich mit den Systemen MACS, USeq, QuEST und cisGenome war PICS im Bezug auf den Anteil der Bindungsstellen in Motiven am besten. Der Abstand zwischen den Bindungsstellen und den Motiven war bei PICS und bei MACS am geringsten. 8
4.3 Vergleiche mittels simulierter Daten Anstelle eines Vergleiches auf experimentellen Daten, kann man die verschiedenen Syste- me auch mit Hilfe von simulierten Daten vergleichen. Dies hat unter anderem den Vorteil, dass man Parameter des Modells auf verschiedene Weisen bewusst falsch spezifizieren kann, um zu sehen, wie die Analysesysteme dies bewältigen. Auch bei einem Vergleich mittels simulierter Daten hat das PICS System in verschiede- nen betrachteten Szenarien sehr gute Ergebnisse geliefert. 5 Fazit PICS ist ein System zur Analyse von ChIP-seq Daten, welches auf einem probabilis- tischen Ansatz basiert und Bindungsstellen von Proteinen schätzt. Ein Nachteil dieses Ansatzes ist, dass das System, zum Beispiel durch die aufwendigen Mischverteilungen, rechenintensiv ist. Vorteile dieses Systems sind, dass a-priori-Verteilungen für die Länge der DNA Fragmente δ benutzt werden können und dass reads, die auf Grund von wie- derholenden Folgen von Basenpaaren verworfen wurden, approximiert werden. Eine objektive Bewertung der Ergebnisse stellt sich als schwierig heraus, da eine solche Bewertung immer von der gewählten Bewertungsmethode und den Testdaten abhängt. Es lässt sich aber festhalten, dass der hier gewählte probabilitische Ansatz für die un- tersuchten Testdatensätze sehr gute Ergebnisse liefert und daher auf jeden Fall konkur- renzfähig zu bereits bestehenden anderen Ansätzen ist. Eine mögliche Weiterentwicklung des Systems wäre die zusätzliche Betrachtung von sogenannten paired-end reads. Da man aus diesen Daten die Länge der DNA Fragmente direkt erhält, würde dies das Modell für die Analyse vereinfachen. Der Grund wieso PICS dies bisher nicht unterstützt ist, dass die Gewinnung von paired-end reads biologisch deutlich aufwendiger ist, als die Gewinnung der hier betrachteten single-end reads, und daher in der Praxis kaum verwendet wird. Eine weitere mögliche Erweiterung des PICS Systems besteht darin mehr a-priori-Informationen zu benutzen, um die Ergebnisse zu verbessern. So könnte man zum Beispiel eine a-priori- Verteilung für die Position der Bindungsstellen µ benutzen, die man aus den zuvor be- rechneten Motiven bestimmt. Außerdem ist es möglich das PICS System auf andere Fragestellungen anzupassen. So könnte man zum Beispiel anstatt nach der konkreten Position einer Bindungsstelle in einem gegebenen Datensatz auch danach fragen, in welchen Bereichen sich die Bindungs- stellen in zwei gegebenen Datensätzen unterscheiden. Um diese Frage effizient beantwor- ten zu können, müsste man die Modelle, die in PICS benutzt werden, erweitern. Eine Region, in der sich die Bindungsstellen in den Datensätzen unterscheiden, wird dann dadurch gekennzeichnet, dass in einem Datensatz prozentual deutlich mehr reads auf diese Region entfallen als in einem anderen Datensatz. Der probabilitische Ansatz von PICS scheint auch für solche Fragestellungen gut geeignet zu sein, daher halte ich es für eine sinnvolle Idee, PICS auf solche Fragestellungen zu erweitern. Man könnte dann 9
sogar noch weiter gehen und Fragen untersuchen, die sich auf ganze Gruppen von Da- tensätzen beziehen. Zum Beispiel kann man fragen in welchen Regionen ein bestimmtes Protein in einer Gruppe von Datensätzen bindet, aber nicht in einer anderen Gruppe von Datensätzen. Alles in allem scheint der probabilitische Ansatz zur Analyse von ChIP-seq Daten sehr vielversprechend zu sein und das PICS System ist eine erste Implementierung dieses Ansatzes, die schon viele Schwierigkeiten, wie zum Beispiel verworfene reads, beachtet. Durch Weiterentwicklungen kann man versuchen das System noch leistungsfähiger zu machen und auch auf andere Anwendungsgebiete auszuweiten. 10
Sie können auch lesen