Data Mining et al - Georg RuÃŸ' PhD Blog — R, clustering, regression, all on spatial data, hence it's:

F440, k-means tesselation

Wie man eventuell aus dem vorherigen Beitrag entnehmen kann,
gliedert sich meine Dissertation derzeit in voraussichtlich drei Hauptteile, die ich im Folgenden kurz vorstelle.

Entwicklung eines statistisch gÃ¼ltigen Ertragsvorhersagemodells:
In bisheriger Literatur zur Ertragsvorhersage im Precision Farming (teilflÃ¤chenspezifische Bewirtschaftung) bin ich auf die Frage gestoÃŸen, ob herkÃ¶mmliche, nicht die rÃ¤umlichen Beziehungen in den Daten berÃ¼cksichtigende Kreuzvalidierungsverfahren und Regressionsmodelle ein statistisch gÃ¼ltiges Modell liefern. Dies ist wegen der vorliegenden rÃ¤umlichen Autokorrelation sehr unwahrscheinlich: die implizite Annahme der Regressionsmodelle, daÃŸ die Datenpunkte paarweise unabhÃ¤ngig voneinander sind, wird dabei verletzt. Dadurch entsteht in einem nicht-rÃ¤umlichen Regressionsverfahren auf rÃ¤umlichen Daten der Effekt, daÃŸ der Vorhersagefehler (stark) unterschÃ¤tzt wird, da das Modell Ã¤hnliche oder gleiche Datenpunkte in Trainings- und Testdatensatz der Kreuzvalidierung vorfindet. Dieser Effekt kann auf den vorliegenden Daten sehr eindrucksvoll und eindeutig nachgewiesen werden. Hierzu wurde ein rÃ¤umliches Kreuzvalidierungsverfahren entwickelt, das auf Clustering beruht. Im Wesentlichen zerlegt es das Feld per k-means in etwa gleichgroÃŸe TeilflÃ¤chen, auf denen man dann eine rÃ¤umliche Kreuzvalidierung durchfÃ¼hren kann. Zu diesem Thema ist momentan ein Paper bei der IPMU 2010 anhÃ¤ngig.
Nutzung des Ertragsvorhersagemodells, um die Interessantheit von Variablen zu bestimmen: Die bisher vorliegenden Daten von Sensoren und Luftbildern sind nicht die einzigen, die verwendet werden sollen. Im Hinblick auf eine Ertragsvorhersage wÃ¤re es recht nÃ¼tzlich zu wissen, welche der Datenattribute Ã¼berhaupt einen praktischen Nutzwert haben, also Ã¼berhaupt Informationsgehalt haben. Hierbei kann man das oben entwickelte Ertragsvorhersagemodell nutzen, um entweder klassische AnsÃ¤tze zur Merkmalsauswahl (feature selection) durchzufÃ¼hren oder die Wichtigkeit von Variablen Ã¼ber Permutation (variable importance by permutation) zu bestimmen. Kurz gesagt: es wird im Rahmen einer Kreuzvalidierung ein Modell auf Trainingsdaten gelernt (wie vorher) und der Fehler auf den Testdaten bestimmt. Danach werden zusÃ¤tzlich die Werte einer Variable im Testdatensatz zufÃ¤llig permutiert und der Fehler wird erneut bestimmt. Wenn der Fehler steigt, war die Variable fÃ¼r das Modell wichtig (in diesem Fall fÃ¼r die Ertragsvorhersage). Wenn der Fehler sich nicht Ã¤ndert oder sinkt, war die Variable entweder fÃ¼r das Modell unwichtig oder es ist bereits Ãœberlernen (overfitting) eingetreten. Bei RegressionsbÃ¤umen wÃ¼rde ein sich nicht Ã¤ndernder Fehler etwa bedeuten, daÃŸ die Variable in den Baum-Splits gar nicht vorkommt. Hierbei bietet sich auch an, unterschiedliche Modelle (lineare Regression, baumbasierte Modelle, neuronale Netze, Support Vector Machines) zu vergleichen und gleichzeitig RÃ¼ckschlÃ¼sse auf die Eignung der Modelle zu ziehen. Zu diesem Thema ist momentan ein Paper bei der IDA 2010 anhÃ¤ngig.
Entwicklung eines rÃ¤umlichen Clustering-Ansatzes zur Erstellung von Management-Zonen: Momentan beschÃ¤ftige ich mich mit der Entwicklung eines neuen clusterbasierten Ansatzes, um Management-Zonen fÃ¼r die GrunddÃ¼ngung zu erstellen. Hierbei stellt sich, ackerbaulich gesehen, die Frage, wie stark verschiedene Feldteile beispielsweise gekalkt werden mÃ¼ssen, um einen fÃ¼r die Pflanzen angenehmen NÃ¤hrstoffgehalt im Boden herzustellen (Kalium, Phospor, ph-Wert etc.). Die Literaturrecherche in einschlÃ¤gigen precision agriculture-Journals (Elsevier: Computers and Electronics in Agriculture, Springer: Precision Agriculture, Wageningen Academic: Precision Agriculture) ergab, daÃŸ da entweder ganz einfache AnsÃ¤tze wie eine Ãœberlagerung von Ertragskarten verschiedener Jahre oder fuzzy-clustering ohne rÃ¤umlichen Bezug der Datenpunkte genutzt wurde. Auf der anderen Seite bin ich an der Recherche im Bereich der Informatik, ob passende Clustering-Verfahren existieren, die ich auf die vorhandenen Daten anwenden kÃ¶nnte. FÃ¼r gleichverteilte rÃ¤umliche Daten scheint bisher nichts zu existieren, auch wenn einige Ideen ganz vielversprechend aussehen und Anwendung finden kÃ¶nnten.

Eventuell wird sich noch ein Paper mit einer Kombination von 1./2. bei der GfKl 2010, Karlsruhe ergeben, mal abgesehen davon, was bei 3. herauskommt.

Georg RuÃŸ' PhD Blog — R, clustering, regression, all on spatial data, hence it's:

Seiten

Kategorien

Our recent book

Data Mining et al — RSS feed

Meta

Dissertationsstruktur