Kein Hexenwerk PRAXIS & METHODIK - Computingeducation
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
PRAXIS & METHODIK Kein Hexenwerk Ideen des maschinellen Lernens in SNAP! von Tilman Michaeli, Stefan Seegerer und Sven Jatzlau Es gibt mittlerweile eine Vielzahl an spannenden di- Zentrale Prinzipien von SnAIp sind: daktischen Programmierumgebungen, sogenannten Frameworks, um Lernende und Programmieranfänger 䉯 Blick hinter die Kulissen: Anstatt vortrainierte Mo- an maschinelles Lernen (ML) heranzuführen. Diese delle zu verwenden, Bibliotheken anzuwenden oder Frameworks bieten Lernenden einen einfachen und in- API-Aufrufe zu nutzen, sollen die Schülerinnen und tuitiven Zugang zu maschinellem Lernen und reduzie- Schüler hinter die Kulissen und das ,,Hexenwerk“ ren dazu programmierpraktische Hindernisse. Beschäf- schauen können und in der Lage sein, die jeweiligen tigt man sich mit den existierenden Ansätzen genauer, ML-Algorithmen zu verbessern oder für ihre ist festzustellen, dass die meisten sich auf überwachtes Zwecke anzupassen … alles in SNAP!. Lernen konzentrieren. Als Kontext dient häufig die Er- 䉯 Eigene Projekte statt Lernprojekte: Bei der Einfüh- kennung von Bildern. Oftmals werden dabei die Prinzi- rung komplexer Themen wie ML werden oftmals pien und Ideen von maschinellem Lernen – also die ei- ,,künstliche“, konstruierte Beispiele eingesetzt, da gentlichen Lerninhalte und -ziele – von Vorgehenswei- diese die Komplexität realweltlicher Kontexte redu- sen zur Mustererkennung überlagert, oder das über- zieren und die Visualisierung bestimmter Konzepte wachte Lernen wird mit beschrifteten Daten und einer unterstützen. Mit SnAIp wollen wir erreichen, dass Trainingsphase mit dem Begriff des maschinellen Ler- Schülerinnen und Schüler ML für ihre persönlichen nens gleichgesetzt. Projekte, die für sie bedeutsam sind, einsetzen kön- Darüber hinaus ist festzustellen, dass genau die Fra- nen, wie beispielsweise eigene Spiele. ge, wie eine Maschine ,,lernt“, zumeist ,,Hexenwerk“ bleibt: Die meisten der existierenden Ansätze konzen- trieren sich auf die Anwendung von maschinellem Ler- nen. Das eigentliche Lernen geschieht nun mit vortrai- nierten Modellen bzw. durch Programmierschnittstel- len-Aufrufe (API-Aufrufe) auf externen Servern. Für SnAIp Part A: die Lernenden steht der eigentliche Lernprozess weder im Fokus noch besteht die Möglichkeit, diesen über- Verstärkendes Lernen in SNAP! haupt nachzuvollziehen. Dies steht im starken Wider- spruch zu einem konstruktionistischen und handlungs- Verstärkendes Lernen und Q-Learning-Algorithmus orientierten Unterricht, in dem die Schülerinnen und Schüler selbst kreativ und aktiv eigene ML-Artefakte Eine Anwendung, auf die im Kontext von maschinel- gestalten. Nur das hierdurch entstehende, grundlegende lem Lernen zur Entwicklung oder Forschung häufig zu- Verständnis der zentralen Ideen und Prinzipien maschi- rückgegriffen wird, sind klassische Arcade-Videospiele. neller Lernprozesse (im Gegensatz zur reinen Verwen- Diese eignen sich insbesondere, da sie eine ,,Form von dung eben dieser) ermöglicht den Lernenden, Auswir- Intelligenz“ zum erfolgreichen Spielen benötigen, aber kungen, Möglichkeiten und Grenzen von künstlicher sich auch durch klar definierte Aktionen auszeichnen. Intelligenz und im Speziellen von maschinellem Lernen Im Beitrag So lernen Maschinen (Seite 27 ff. in diesem auf unsere Gesellschaft adäquat und kompetent analy- Heft) sind die Prinzipien und Ideen von verstärkendem sieren, diskutieren und mitgestalten zu können. Lernen bereits beschrieben: Ein Agent – ein Computer- Im Folgenden stellen wir SnAIp vor, ein didaktisches programm, das zu autonomem Verhalten fähig ist – Framework mit einem klaren Fokus auf die zentralen lernt in Interaktion mit seiner Umwelt durch wieder- Prinzipien und Ideen maschinellen Lernens für Schüle- holte Belohnungen oder Bestrafungen die Erfolgsaus- rinnen und Schüler ab der 8. Jahrgangsstufe in der sichten seiner Aktionen besser einzuschätzen und ist blockbasierten Programmiersprache SNAP!. Durch die somit in der Lage, seine Strategie zu optimieren. Betrachtung des tatsächlichen Lernprozesses können In SnAIp Part A verwenden wir einen konkreten Al- die Schülerinnen und Schüler aktiv erfahren, dass ma- gorithmus für verstärkendes Lernen namens Q-Learn- schinelles Lernen eben kein Hexenwerk ist. ing. Dieser Algorithmus generiert eine Q-Tabelle, die LOG IN Heft Nr. 193/194 (2020) 66
PRAXIS & METHODIK Bild 1: Prinzip des verstärkenden Lernens. Bild 2: Bananenjagd – das Äffchen lernt, über das der Agent verwendet, um die beste Aktion in einem be- Fass zu springen. stimmten Zustand zu identifizieren. Der Q-Wert in der Q-Tabelle gibt die zu erwartende Belohnung für die Durchführung einer bestimmten Aktion im aktuellen Zustand an. Wird der Agent daraufhin belohnt oder be- Die Schülerinnen und Schüler analysieren im An- straft, so passt er den jeweiligen Wert in der Tabelle an. schluss das Spiel und identifizieren ihre Rollen, rele- Damit steigt oder sinkt die Wahrscheinlichkeit, dieses vante Schritte und Bestandteile. Die Analyse mündet Verhalten erneut zu zeigen. Im Folgenden beschreiben in der Visualisierung der ,,Lernschleife“ für verstärken- wir eine entsprechende Unterrichtssequenz. des Lernen (siehe Bild 1), die die Schülerinnen und Schüler auch mit ihrem eigenen Lernprozess verglei- chen. SnAIp Part A im Unterricht Erste Schritte mit verstärkendem Lernen in SNAP! Was ist verstärkendes Lernen? Im nächsten Schritt geht es darum, einem Affen- Für die Einführung der zentralen Ideen und Prinzipi- Agenten beim Lernen zu helfen und ihn bei seiner en von verstärkendem Lernen wird zunächst das Un- Bananenjagd zu unterstützen. Diese Aufgabe wird mit plugged-Krokodilschach verwendet (siehe auch Seite einer Puzzle-Aktivität eingeleitet: Die Schülerinnen 30 in diesem Heft). In dieser Aktivität spielen jeweils und Schüler erhalten eine Vorlage für das Spiel Bana- zwei Schülerinnen und Schüler eine Partie Minischach nenjagd (siehe Bild 2). Sie enthält alle relevanten gegeneinander. Blöcke für den selbstlernenden Agenten – allerdings nicht in der richtigen Reihenfolge. Die Schülerinnen und Schüler werden aufge- fordert, diese mit Hilfe der Roboter-Vi- sualisierung in die richtige Reihenfolge zu bringen (Lösung, siehe Bild 3). Da- nach erkunden sie das Programm und beschreiben, wie der Agent lernt. Wir ha- ben die Erfahrung gemacht, dass es über den gesamten Verlauf der Sequenz wich- tig ist, immer wieder die verschiedenen Kontexte zu vergleichen: Was sind die Aktionen (Krokodilschach: verschiedene Spielzüge; Roboter: anpflanzen oder gießen; Affe: springen oder nichts tun), was sind die Zustände (Krokodilschach: abgebildete Spielsituationen; Roboter: Bild 3: Die Lernschleife in SNAP!. LOG IN Heft Nr. 193/194 (2020) 67
PRAXIS & METHODIK fessionellen Welt, dass viel ausprobiert werden muss. Im Prinzip kann verstärkendes Lernen so auf jedes Spiel angewendet werden; es gibt jedoch einige Regeln und Einschränkungen für die Auswahl eines Beispiels zur Verwendung in einer regulären Unterrichtsstunde (hauptsächlich aus Zeitgründen): Die Geschwindigkeit, mit der der jeweilige Agent das erwünschte Verhalten erlernt, ist abhängig von der Größe des Zustandsraums. Beispiele, die sich besonders für den Einsatz im Unter- richt eignen, sind Spiele wie Breakout, Pong oder Flappy Bird. Gerade bei wenig Vorerfahrung mit SNAP! haben sich unsere online zur Verfügung stehenden Coding Cards, die die eigene Umsetzung schrittweise begleiten, als hilfreiche, optionale Unterstützung erwie- sen (siehe Abschnitt ,,Fazit“, S. 70). Hinter den Kulissen Bisher haben die Schülerinnen und Schüler ,,plug- ged“ wie ,,unplugged“ die Prinzipien von verstärken- dem Lernen erfahren und aktiv eingesetzt, um ihre Spiele zu ,,pimpen“, d. h. effektvoller zu gestalten. Im letzten Schritt wird jetzt der eingesetzte Algorithmus Q-Learning und damit die technologische Ebene ge- nauer betrachtet. Dazu beobachten die Schülerinnen und Schüler, wie sich die Werte der Q-Tabelle (siehe Bild 4) im Laufe der Zeit verändern. Sie experimentieren mit der Ex- plorationsrate (d. h. mit der Wahrscheinlichkeit, mit der ein Agent ,,neugierig“ handelt und zufällige Aktion ex- ploriert, statt dem laut Modell vielversprechendsten Verhalten zu folgen), dem Discountfaktor (der angibt, welche Bedeutung zukünftigen Belohnungen bzw. Be- strafungen beigemessen wird) und der Lernrate (die angibt, wie schnell der Agent Verhalten lernt). Außer- Bild 4: dem können sie Anpassungen oder Optimierungen am Exemplarische Q-Tabelle des Bananenjagdprojekts. Algorithmus vornehmen. Spalte A enthält eine Beschreibung des Zustands (hier x-Koordinate des Fasses/10 abgerundet); die Spalten B und C enthalten die Q-Werte für die Aktionen ,,springen“ bzw. ,,nichts tun“. SnAIp Part B: Wachstumsstand der Pflanzen; Affe: x-Position des Fas- ses), wie wird belohnt und wie wird diese Belohnung Unüberwachtes Lernen in SNAP! verwaltet (Krokodilschach: Schokolinsen in ,,Tabelle“; Roboter: Geld im Regal; Affe: numerischer Wert in der Unüberwachtes Lernen Tabelle)? und lineare Vektorquantisierung Pimp my Game Unüberwachtes Lernen ist ein Paradigma des maschi- nellen Lernens, das stark von der Statistik beeinflusst Der nächste Schritt für die Schülerinnen und Schüler wird. Häufig besteht die Aufgabe darin, nicht beschrif- ist das Implementieren des verstärkenden Lernens mit- tete Daten zu gruppieren oder zu kategorisieren, z. B. hilfe der SnAIp-Blöcke in ihren eigenen Spielen in Kunden in Gruppen mit ähnlichen Kaufgewohnheiten SNAP!. Hierzu müssen sich die Schülerinnen und Schü- zu segmentieren, um etwa Werbeanzeigen zielgruppen- ler überlegen, welche Aktionen in ihrem Spiel zur Ver- gerecht auszuliefern. fügung stehen, wie die verschiedenen Zustände defi- Part B verwendet lineare Vektorquantisierung (LVQ niert werden können und wie der Agent belohnt oder = learning vector quantization), einen Algorithmus, der bestraft werden soll. Im Fall von Pong sind die verfüg- solche Gruppen oder Cluster in Datensätzen findet. baren Aktionen möglicherweise ,,Schläger nach oben“, Das Lernen erfolgt mithilfe einer festen Anzahl von ,,Schläger nach unten“, ,,Nichts tun“, und der Zustand Clustermittelpunkten, sogenannte Prototypen. Für je- über die y-Koordinate des Balls ist gegeben. Gerade den Datenpunkt wird dazu zunächst der nächstgelege- bei der ,,richtigen“ Belohnung gilt wie auch in der pro- ne Prototyp (entsprechend einer gewählten Abstands- LOG IN Heft Nr. 193/194 (2020) 68
PRAXIS & METHODIK Schülerinnen und Schüler ziehen kontinuierlich Daten- punkt-Karten, überlegen, wie sie die darin enthaltenen Informationen verarbeiten können, und legen die Kärt- chen anschließend verdeckt auf den Ablagestapel. Da- bei sehen sie wie ein Computer immer nur einen Da- tenpunkt und nie ,,alle Daten auf einmal“. Da sie keine Möglichkeit haben, alle Datenpunkte gleichzeitig zu markieren, müssen die Schülerinnen und Schüler eine Strategie finden, wie sie nur mithilfe der Münzen zu lu- krativen Schürfstellen gelangen. Erfahrungsgemäß entwerfen fast alle Schülerinnen und Schüler einen Algorithmus, der konzeptionell der folgenden LVQ-Variante ähnelt: 1. Prototypen in Form von Münzen (zufällig) auf der Karte platzieren. 2. Für jeden Datenpunkt: a) Identifizieren des am nächsten gelegenen Prototy- pen. Bild 5: Unplugged-Aktivität für den Einstieg in die Se- b) Aktualisieren der Position dieses Prototyps, in- quenz zu unüberwachtem Lernen. dem er um die halbe Strecke in Richtung der Ko- ordinaten des Datenpunkts bewegt wird. Nach der Verarbeitung aller Karten erhalten die messung) ausgewählt und dessen Koordinaten aktuali- Schülerinnen und Schüler eine Overheadfolie mit allen siert, sodass sich der Prototyp in Richtung des gerade Datenpunkten, die sie über ihre Karte legen können, betrachteten Datenpunkts bewegt. um ihre Endergebnisse zu bewerten. Mithilfe dieser Folie können sie anschließend ihren Algorithmus ver- bessern. Basierend auf den Erfahrungen, die die Schü- SnAIp Part B im Unterricht lerinnen und Schüler in dieser Aktivität gemacht ha- ben, können Prinzipien und Charakteristika des un- Was ist unüberwachtes Lernen? Da unüberwachtes Lernen meist für das Bilden von Clustern verwendet wird, geht es auch in der einleitenden Un- plugged-Aktivität darum, Cluster in ei- nem Satz zweidimensionaler Daten zu finden. Die Aufgabe der Schülerinnen und Schüler besteht darin, für die Suche nach Gold im Wilden Westen die best- möglichen Schürfstellen für drei Gra- bungsteams zu bestimmen (siehe Bild 5). Eine gute Schürfstelle ist dadurch ge- kennzeichnet, dass sie möglichst nahe an vielen Goldquellen liegt. Die Schülerin- nen und Schüler erhalten dazu eine Kar- te des Wilden Westens, 25 Datenpunkte in Form von Spielkarten, die aus x- und y-Koordinaten eines berichteten Gold- funds bestehen sowie drei Münzen, die als Prototypen dienen und gleichzeitig die Grabungsteams visualisieren. Die Bild 6 (Mitte): Prinzip des unüberwachten Lernens. Bild 7 (rechts): Bilden von Goldclustern mittels unüber- wachtem Lernen in SNAP!. LOG IN Heft Nr. 193/194 (2020) 69
PRAXIS & METHODIK 䉯 Verwendung mehrerer Iterationen zur Verfeinerung der endgültigen Standorte der Prototypen. 䉯 Schrittweise Verringerung des Bewegungsumfangs für jeden Prototyp. 䉯 Erhöhung der Priorität von nicht verschobenen Pro- totypen. 䉯 Optimierung der Ausgangslage der Prototypen. Ähnliche Optimierungen werden auch bei anderen Clusteringverfahren angewendet. Mithilfe des CSV-Im- ports können alle Schülerinnen und Schüler die opti- mierten Algorithmen schließlich auf denselben Einga- bedaten testen. Fazit Bild 8: Die SNAP!-Bühne. Mit SnAIp können die zugrunde liegenden Ideen und Prinzipien hinter verstärkendem und unüberwachtem Lernen mithilfe blockbasierter Sprachen unterrichtet überwachten Lernens diskutiert (siehe Bild 6, vorige werden. Dabei liegt ein besonderer Fokus darauf, dass Seite) und mit anderen Paradigmen des maschinellen auch ein Blick in die ,,Black Box“ geworfen wird, denn Lernens verglichen werden. maschinelles Lernen ist eben kein Hexenwerk. Die ver- wendeten Algorithmen (tabellenbasiertes Q-Learning Unüberwachtes Lernen in SNAP! und LVQ) sind dabei besonders für den Einsatz in der Schule und auch für die Umsetzung in anderen Program- Im nächsten Schritt wird der zuvor entwickelte LVQ- mierumgebungen geeignet. Im Gegensatz zu Technologi- Algorithmus in SNAP! implementiert (siehe Bild 7, vo- en wie neuronalen Netzen, die unabhängig vom Lernpa- rige Seite). Die Lernenden erhalten eine Vorlage, die radigma (überwacht, unüberwacht oder verstärkend) Prototypen und eine dynamische Anzahl von zufällig Anwendung finden, ermöglichen die gewählten Algorith- erzeugten Datenpunkten liefert, die bereits auf der men einen klaren Fokus auf das zugrunde liegende Prin- Bühne visualisiert werden (siehe Bild 8). Die Aufgabe zip des jeweiligen Paradigmas statt auf mathematische besteht darin, den eigentlichen LVQ-Algorithmus zu und technologische Details. Die ausführlichere Beschrei- vervollständigen. Dabei können die Schülerinnen und bung der Sequenz, Materialien etc. sind online unter Schüler mit den verschiedenen Parametern, wie der https://computingeducation.de/tags/ki/ Anzahl der Prototypen, Datenpunkte etc. experimen- tieren. zu finden. Dort wird auch in Kürze Part C veröffent- Dabei ist man nicht auf die Nutzung von Zufallsda- licht, der sich mit überwachtem Lernen beschäftigt. ten beschränkt, sondern kann auch auf reale Daten (die beispielsweise vorher von oder mit den Schülerin- nen und Schülern erhoben werden könnten) angewen- Tilman Michaeli det werden. So können möglicherweise ideale Standor- Stefan Seegerer te für die Schulbushaltestellen bestimmt werden, in- Sven Jatzlau dem die Längen- und Breitengrade der Wohnorte der Friedrich-Alexander-Universität Erlangen-Nürnberg Schülerinnen und Schüler im CSV-Format importiert Department Informatik (INF) werden. Im Allgemeinen kann dieser Algorithmus auf Professur für Didaktik der Informatik jeden Datensatz angewendet werden. Martensstraße 3 91058 Erlangen Wettbewerb E-Mail: tilman.michaeli@fau.de Anschließend erhalten die Schülerinnen und Schüler E-Mail: stefan.seegerer@fau.de in einem Wettbewerb die Aufgabe, den Algorithmus zu E-Mail: sven.jatzlau@fau.de optimieren. Hierfür gibt es mehrere mögliche Ansätze, Danksagung: Wir danken Urs Lautebach und der Königsteiner Arbeitsgruppe für die Idee und zum Beispiel: weitere Anregungen, aus denen Part B hervorgegangen ist. LOG IN Heft Nr. 193/194 (2020) 70
Sie können auch lesen