Wird die Dynamik von vornherein als statistischer Prozeß mit deterministischem Anteil aufgefaßt, besteht die Modellierung aus der Angabe einer Übergangswahrscheinlichkeit von einem Zustand zu einem Zustand :
Dabei wurde die Abkürzung für den Differenzvektor zwischen der Vorhersage des i+1-ten Werts aus dem i-ten, und dem wirklichen i+1-ten Meßwert eingeführt. Für das Beispiel normalverteilten Rauschens hat mit die Form:
muß wie üblich so gewählt werden, daß das Integral über alle möglichen Werte eins ergibt. ist offensichtlich eine auf mehrere Dimensionen verallgemeinerte Gauß'sche Glockenkurve.
Aus dem Modellansatz für die Übergangswahrscheinlichkeit und den Meßdaten bildet man die Likelihoodfunktion L:
Das Maximum von L bestimmt die optimalen Parameter und . Dieser Ansatz hat gegenüber anderen Methoden (z.B. Momentenmethode) einige entscheidende Vorteile: Maximum-Likelihood-Methoden haben unter allen asymptotisch normalverteilten Schätzungen die größte Wirksamkeit [BS89, Kap. 5.2.2.2,]. Das bedeutet, daß die in den Meßdaten enthaltenen Informationen von der Maximum-Likelihood-Methode optimal verwertet werden.
Dieses Verfahren ist sehr allgemein, wobei man sich jedoch in der Praxis normalerweise auf Funktionen R der Form
beschränkt, in denen ein positives Polynom niedrigen Grades ist. Statt dem Maximum von L kann man nämlich auch das von suchen und erhält dann folgende Bedingung:
Offensichtlich reduziert sich hier das Optimierungsproblem auf die Suche des Minimums von Polynomen. Im Falle einer Gaußverteilung ist P vom Grad 2; damit ist (4.8) äquivalent zu (4.2), dem Least-Square-Fit.