Shannon Information
Modellansatz - A podcast by Gudrun Thäter, Sebastian Ritterbusch
Categories:
Paul Darscheid gehört der KIT-Hochschulgruppe Engineers without borders an und arbeitet dort konkret in einer Projektgruppe mit, die im ländlichen Raum von Äthopien einen Brunnen bohrt. Um dafür die Nachhaltigkeit des Grundwasserzuflusses zu klären, suchte er den Kontakt zu Uwe Ehret vom Institut für Wasser und Gewässerentwicklung, Bereich Hydrologie. Die spannenden Themen dort fesselten ihn so sehr, dass schließlich auch seine Masterarbeit in Zusammenarbeit mit der Hydrologie entstand. Zum Spektrum der Fragen der Hydrologen gehören sehr viele unterschiedliche Themen. Man kann summarisch sagen: alles zum Thema Wasserkreislauf, was nicht die Meteorologen beantworten. Konkret geht es z.B. um Niederschlagsabfluss oder Hochwasservorhersage. Eine Frage, die dabei immer wieder auftaucht ist: Wo steckt die meiste Information in den Datensätzen oder den erstellten Modellen? Ein typischer Anwendungsfall schließt beispielsweise aus den Flußpegelstände von unterschiedlichen Flüssen im gleichen System, den Niederschlagmessungen, der Lufttemperatur, Schneehöhen, Bodenfeuchte und Bodenbeschaffenheit auf die Zielgröße - einen konkreten Flusspegelstand. Ein Zusammenhang aller Daten mit der Zielgröße ist klar, aber wie er konkret aussieht ist schwerer zu fassen. Informationsflüsse quantifizieren in diesem Kontext, welche Messreihen die meisten Informationen über die Zielgröße liefern. Daneben stellt sich auch die Frage: Kann ich einmal gewonnene Konzepte auf andere System übertragen? Kann ich mir dort sparen noch einmal sehr viel zu messen, also mit weniger Daten auskommen? Am Anfang steht dann die Frage: Was ist Information? Das Konzept für das sich Paul Darscheid entschieden hat ist die Shannon Entropie - ein Maß für Unsicherheit aufgrund der vorliegenden Streuung in den Daten. Tatsächlich besteht ein Zusammenhang zum physikalischen Begriff der Entropie. Die unterstellte Verteilung eines Datensatzes wird zur Grundlage auf der Größen wie Informationssicherheit und andere abgeleitet werden. Die Natur als Meßdaten führt auf eine diskrete Verteilung, die evtl. noch vergröbert wird durch Wählen von Stufen (bins) innerhalb derer der Unterschied als nicht relevant angesehen wird. Für eine Beobachtung stellt sich die Frage: Wieviel Information steckt in dieser zusätzlichen Messung? Für sehr wahrscheinliche Ereignisse ist es kaum zusätzliches Wissen, weil es mit vorherigen Vermutungen übereinstimmt. Für ein unwahrscheinliches Ereignis ist die zusätzlich gewonnene Information sehr groß. Ein Problem ist auch, dass die diskrete Verteilung aus beobachteten Daten gewonnen wird - d.h. man muss eine Schätzung der Verteilung vornehmen. Darauf aufbauend ist es wichtig zu wissen, wie mit Teilmengen des Datensatzes die geschätzte Verteilung approximiert werden kann. Die Unsicherheit hierbei kommt durch Streuung der Daten und durch den vorhandenen Ausschnitt der Realität, der in den Daten eingefangen wird. (...)