Analysis für Informatik 2
- Approximation von Funktionen durch Polynome
- Innerhalb vom Konvergenzradius sind Funktionen immer durch unendliche Polynome perfekt approximierbar
Jede Ableitung ist die nächste Unbekannte:
einsetzen:
Somit:
Für ein Polynom vom Grad und einem Entwicklungspunkt gilt:
Für eine Funktion und einen EWP heisst
Taylor-Polynom von Grad für um EWP
Die Taylor-Reihe von um den Entwicklungspunkt ist
Es gibt eine Zahl , so dass , für
( = Konvergenzradius)
Wie weit liegt der vom Taylor-Polynom mit Grad vorhergesagte Funktionswert vom richtigen Wert entfernt?
Es gibt eine Zahl , so dass
(Falls nicht berechenbar)
Gegeben: , Intervall , max. Rechenfehler
Gesucht: Grad des Taylor-Polynoms , Entwicklungspunkt
Antwort:
Bestimme :
Die Zahl heisst Grenzwert von für gegen , wenn für alle eine “Grenze” existiert, so dass für alle “noch grössere Zahlen” gilt: .
Bei kann man alle Terme, die sich nach bewegen, ignorieren.
Wert der stetigen Fortsetzung von an der Stelle . ist stetig in
existiert nicht. Das ändert sich aber, wenn man den Definitionsbereich auf oder einschränkt.
|
Rechtsseitiger Grenzwert
Linksseitiger Grenzwert
|
Seien und zwei Funktionen und eine beliebige reelle Zahl oder Unendlich.
All diese Formeln gelten auch für einseitige Grenzwerte.
Gilt (an dieser Stelle ist ein einseitiger Grenzwert nicht ausreichend), so gilt ausserdem:
falls der Grenzwert auf der rechten Seite existiert.
Für jedes gibt es ein , so dass
Voraussetzung: Typ “” (Zähler und Nenner streben gegen ) oder Typ “”
Typ “”:
Typ “”:
Ableitung ohne quotientenregel (heisst, Zähler und Nenner separat ableiten) gibt dasselbe Resultat für den limes.
Beweis für , Typ :
Linearisierung von und um :
Einen Grenzwert vom Typ kann man mit der Umformung
in den typ überführen, oder durch die Umformung
auf die Form bringen.
* Mit umformen
Differenzenquotient
Differentialquotient
| Term | Definition |
|---|---|
| Interpolation |
|
| Extrapolation |
|
Gegeben: Trainingsdaten = Wertetabelle
Ziel: Vorhersage der Werte durch in Form einer Funktion
| gemessene Werte | ||||
| vorhergesagte Werte | ||||
| Residuen | “Güte” der Vorhersage | |||
| Quadrat Fehler | Schafft Vorzeichen weg |
Kostenfunktion:
Definition des Suchraums: Linearkombinationen einer vorgegebenen Liste von “Basisfunktionen”
| Term | Definition |
|---|---|
| Residuum | |
| Quadratischer Fehler | |
| Unabhängige Variable |
= Prädiktorvariable Variable in der Funktion |
| Abhängige Variable |
= Responsevariable Variable in der Funktion |
| Gesamtfehler |
= Residual Sum of Squares
|
| Term | Definition |
|---|---|
| Basisfunktionen |
Raum der “besonders einfachen Funktionen”
|
| Modellfunktionen |
Linearkombinationen aus Basisfunktionen
|
| Regressionskoeffizient | Konstanten der Modellfunktionen |
| Mittelwert |
|
| Unkorrigierte Stichprobenvarianz der Variable |
|
| Unkorrigierte Stichprobenkovarianz der Variablen und |
|
Ziel ist es, eine besonders einfache Funktion (Modellfunktion) zu finden, die eine Wertetabelle am besten interpoliert. “Am besten” exakt!
Zentral ist, dass die Ergebnisfunktionen eine einfache Struktur aufweist.
Genauer: Die Ergebnisfunktion muss eine Linearkombinationen (=gewichtete Summe) von wählbaren Basisfunktionen d.h. von der Form sein.
Die Gewichte heissen Regressionskoeffizienten
Alternativ (Vereinfacht): Gesucht sind die Zahlen , für die die Einträge der Wertetabelle am genauesten wiedergibt (= den RSS minimiert)
Gegeben
| Wertetabelle | Geeignete Funktionen | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
Aufgabe
Bestimme die besten Regressionsparameter der Modellfunktion
Methode
Bestimme das globale Minimum des von abhängigen quadratischen Fehlers
Das Ziel der linearen Regression ist es, die Regressionskoeffizienten so zu bestimmen, dass die Wertetabelle möglichst genau wiedergegeben wird, d.h. dass
Eine lineare Regression kann durchgeführt werden, sobald Datensätze vorliegen.
Eine geschlossene Formel für die Regressionskoeffizienten zu finden verlangt Matrizenrechnung. Die Daten und Basisfunktionen können wie folgt in Matrizenform dargestellt werden:
| Wertetabelle | Designmatrix | Ergebnis- vektor |
||||||||||||||||||||||||||||||||||||
|
|
|
|
||||||||||||||||||||||||||||||||||||
Zusätzlich definiert man den Koeffizientenvektor
wodurch die Gleichung 3 in eine Matrixgleichung umgeschrieben werden kann:
Auch der RSS ( Gleichung 2 ) lässt sich nun in Matrixform darstellen:
Ferner: Die Modellfunktion der Gleichung 1 minimiert den quadratischen Fehler genau dann, wenn der Koeffizientenvektor eine Lösung der Gleichung
ist.
Wenn ein Modell nur über wenige Konfigurationsparameter verfügt, ist seine “Lernfähigkeit” eingeschränkt. Eine lineare Regression, die nur die Basisfunktonen und enthält, führt zwangsweise auf lineare Modellfunktion und kann kompliziertere Abhängigkeiten nicht wiedergeben. Man spricht in diesem Fall von einer “Unteranpassung” oder einem Underfitting.
Allerdings kann es auch vorkommen, dass ein Modell zu viele Konfigurationsparameter besitzt, um gute Vorhersagen zu leisten. Da die Notwendigkeit, zu generalisieren, verschwindet, wenn es weniger Messwerte als Regressionsparameter gibt, kann die Modellfunktion im Fall die Messdaten (inkl. eventuell vorhandener Fehler) einfach “auswendig lernen”. Dieser Effekt heisst “Überanpassung” (Overfitting).
Neben den bis jetzt besprochenen linearen Basisfunktionen gibt es Polynomiale Basisfunktionen vom Typ
Gauss’sche Basisfunktionen vom Typ
Sigmoid-Basisfunktionen vom Typ
und trigonometrischen Basisfunktionen vom Typ
Dabei fällt auf, dass sich die Regressionskurven in dem Bereich, in dem Messdaten zur Verfügung stehen kaum voneinander unterscheiden, während ausserhalb dieses Bereichs grosse Unterschiede zwischen den verschiedenen Regressionskurven sichtbar werden.
| Funktion | Eignung | Beispiel |
|---|---|---|
| Fourierbasis (trigonometrische Basisfunktion) |
Periodische Zyklen | Wetterdaten |
| Sigmoid-Basis | Daten, die für sehr grosse und sehr kleine Argumente gegen zwei unterschiedliche endliche Grenzwerte streben | Welcher Bevölkerungsanteil ein gewisses Jahreseinkommen unterschreitet |
| Gauss’sche Basis | Eine abhängige Variable, die für grosse und kleine Argumente annähernd Null ist | Wahrscheinlichkeit, dass ein Mensch eine bestimmte Körpergrösse besitzt |
| Polynomiale Basis | Wenn die Daten nur innerhalb des Messbereichs interpoliert werden sollen oder wenn man von vornherein weiss, dass der Zusammenhang zwischen zwei Messgrössen linear oder quadratisch ist | Machinelles Lernen |
|
Eine Funktion heisst Stammfunktion (SF) von , wenn . Wenn eine SF von ist, dann ist auch eine SF von . Beweis:
|
|
|
Sei ein Intervall und eine Funktion. Wenn und SFen von sind, dann gibt es eine Zahl , so dass .
ist eine Funktion, deren Steigung permanent ist. |
|
|
ist konstant
muss nicht stetig sein! (Falls kein Intervall ist). |
ist die Menge aller SF von bezüglich der Variable .
In der Praxis schreibt man aber
Die Konstante repräsentiert eine nicht näher bestimmte, (vorerst) unbekannte Zahl, welche man auch als Integrationskonstante bezeichnet.