F440, k-means tesselation

F440, k-means tesselation



Wie man eventuell aus dem vorherigen Beitrag entnehmen kann,
gliedert sich meine Dissertation derzeit in voraussichtlich drei Hauptteile, die ich im Folgenden kurz vorstelle.

  1. Entwicklung eines statistisch gültigen Ertragsvorhersagemodells:
    In bisheriger Literatur zur Ertragsvorhersage im Precision Farming (teilflächenspezifische Bewirtschaftung) bin ich auf die Frage gestoßen, ob herkömmliche, nicht die räumlichen Beziehungen in den Daten berücksichtigende Kreuzvalidierungsverfahren und Regressionsmodelle ein statistisch gültiges Modell liefern. Dies ist wegen der vorliegenden räumlichen Autokorrelation sehr unwahrscheinlich: die implizite Annahme der Regressionsmodelle, daß die Datenpunkte paarweise unabhängig voneinander sind, wird dabei verletzt. Dadurch entsteht in einem nicht-räumlichen Regressionsverfahren auf räumlichen Daten der Effekt, daß der Vorhersagefehler (stark) unterschätzt wird, da das Modell ähnliche oder gleiche Datenpunkte in Trainings- und Testdatensatz der Kreuzvalidierung vorfindet. Dieser Effekt kann auf den vorliegenden Daten sehr eindrucksvoll und eindeutig nachgewiesen werden. Hierzu wurde ein räumliches Kreuzvalidierungsverfahren entwickelt, das auf Clustering beruht. Im Wesentlichen zerlegt es das Feld per k-means in etwa gleichgroße Teilflächen, auf denen man dann eine räumliche Kreuzvalidierung durchführen kann. Zu diesem Thema ist momentan ein Paper bei der IPMU 2010 anhängig.
  2. Nutzung des Ertragsvorhersagemodells, um die Interessantheit von Variablen zu bestimmen: Die bisher vorliegenden Daten von Sensoren und Luftbildern sind nicht die einzigen, die verwendet werden sollen. Im Hinblick auf eine Ertragsvorhersage wäre es recht nützlich zu wissen, welche der Datenattribute überhaupt einen praktischen Nutzwert haben, also überhaupt Informationsgehalt haben. Hierbei kann man das oben entwickelte Ertragsvorhersagemodell nutzen, um entweder klassische Ansätze zur Merkmalsauswahl (feature selection) durchzuführen oder die Wichtigkeit von Variablen über Permutation (variable importance by permutation) zu bestimmen. Kurz gesagt: es wird im Rahmen einer Kreuzvalidierung ein Modell auf Trainingsdaten gelernt (wie vorher) und der Fehler auf den Testdaten bestimmt. Danach werden zusätzlich die Werte einer Variable im Testdatensatz zufällig permutiert und der Fehler wird erneut bestimmt. Wenn der Fehler steigt, war die Variable für das Modell wichtig (in diesem Fall für die Ertragsvorhersage). Wenn der Fehler sich nicht ändert oder sinkt, war die Variable entweder für das Modell unwichtig oder es ist bereits Überlernen (overfitting) eingetreten. Bei Regressionsbäumen würde ein sich nicht ändernder Fehler etwa bedeuten, daß die Variable in den Baum-Splits gar nicht vorkommt. Hierbei bietet sich auch an, unterschiedliche Modelle (lineare Regression, baumbasierte Modelle, neuronale Netze, Support Vector Machines) zu vergleichen und gleichzeitig Rückschlüsse auf die Eignung der Modelle zu ziehen. Zu diesem Thema ist momentan ein Paper bei der IDA 2010 anhängig.
  3. Entwicklung eines räumlichen Clustering-Ansatzes zur Erstellung von Management-Zonen: Momentan beschäftige ich mich mit der Entwicklung eines neuen clusterbasierten Ansatzes, um Management-Zonen für die Grunddüngung zu erstellen. Hierbei stellt sich, ackerbaulich gesehen, die Frage, wie stark verschiedene Feldteile beispielsweise gekalkt werden müssen, um einen für die Pflanzen angenehmen Nährstoffgehalt im Boden herzustellen (Kalium, Phospor, ph-Wert etc.). Die Literaturrecherche in einschlägigen precision agriculture-Journals (Elsevier: Computers and Electronics in Agriculture, Springer: Precision Agriculture, Wageningen Academic: Precision Agriculture) ergab, daß da entweder ganz einfache Ansätze wie eine Überlagerung von Ertragskarten verschiedener Jahre oder fuzzy-clustering ohne räumlichen Bezug der Datenpunkte genutzt wurde. Auf der anderen Seite bin ich an der Recherche im Bereich der Informatik, ob passende Clustering-Verfahren existieren, die ich auf die vorhandenen Daten anwenden könnte. Für gleichverteilte räumliche Daten scheint bisher nichts zu existieren, auch wenn einige Ideen ganz vielversprechend aussehen und Anwendung finden könnten.

Eventuell wird sich noch ein Paper mit einer Kombination von 1./2. bei der GfKl 2010, Karlsruhe ergeben, mal abgesehen davon, was bei 3. herauskommt.