Comment trouver des solutions de moindres carrés à l'aide de l'algèbre linéaire?

Les observations de la vie réelle donnent presque toujours des solutions incohérentes à l'équation — Cependant, les observations de la vie réelle donnent presque toujours des solutions incohérentes à l'équation matricielle où s'appelle le vecteur d'observation, s'appelle la matrice de conception, et nous recherchons les valeurs du vecteur de paramètre.

Dans l'analyse des données, l'objectif est souvent de trouver des corrélations pour les données observées, appelées courbes de tendance. Cependant, les observations réelles donnent presque toujours des solutions incohérentes à l'équation matricielle $X{\boldsymbol {\beta }}={\mathbf {y}},$ où ${\mathbf {y}}$ est appelé vecteur d'observation, $X$ est appelé la matrice de conception $M\ fois n$ , et nous recherchons les valeurs de ${\boldsymbol {\beta }},$ le vecteur de paramètre. Intuitivement, c'est facile à voir - aucune ligne de tendance, sauf dans des cas très particuliers, ne peut croiser chaque point des données.

Reliez la solution des moindres carrés à la matrice de conception et au vecteur d'observation.

Pour de nombreuses applications, la solution consiste à trouver un ${\hat {{\boldsymbol {\beta }}}}$ qui se rapproche le mieux de l'équation susmentionnée. Cela peut être écrit en termes d'inégalité $||{\mathbf {y}}-x{\hat {{\boldsymbol {\beta }}}}||^{{2}}\leq ||{\mathbf {y}}-x{\boldsymbol { \beta }}||^{{2}},$ où nous minimisons la distance entre ${\mathbf {y}}$ et $X{\boldsymbol {\beta }}.$ Parce que la quantité $||{\mathbf {y}}-x{\boldsymbol {\beta }}||^{{2}}$ est une somme de carrés, le problème de trouver ${\hat {{\boldsymbol {\beta }}}}$ est appelé problème des moindres carrés.

Puisque nous ajustons une ligne de tendance linéaire, nous pouvons utiliser les points de données pour écrire un système d'équations.

Il est recommandé d'avoir des connaissances en algèbre linéaire pour comprendre la dérivation.

Partie 1 sur 2: dérivation de la solution générale des moindres carrés

1
Rappelons la définition d'une projection. Considérons un espace vectoriel couvert par l'espace colonne de X{\displaystyle X} $X$ (Col⁡X∈Rm){\displaystyle (\operatorname {Col} X\in \mathbb {R} ^{m})} $(\operatorname {col}x\in {\mathbb {r}}^{{m}})$ et un y ${\mathbf {y}}.$ observable .{\displaystyle \mathbf {y}.} Parce que y{\displaystyle \mathbf {y} } ${\mathbf {y}}$ en général n'est pas dans Col⁡X,{\displaystyle \operatorname {Col} X,} $\nom_opérateur {col}x,$ nous souhaitons trouver la meilleure approximation y ^{\displaystyle {\hat {\mathbf {y} }}} ${\hat {{\mathbf {y}}}}$ à y,{\displaystyle \mathbf {y},} ${\mathbf {y}},$ qui est dans Col⁡X,{\displaystyle \operatorname {Col} X,} $\nom_opérateur {col}x,$ appelé la projection de y.{\displaystyle \mathbf {y}.} ${\mathbf {y}}.$ En d'autres termes, nous souhaitons trouver y^{\displaystyle {\hat {\mathbf {y} }}} ${\hat {{\mathbf {y}}}}$ qui minimise la distance entre l'espace vectoriel Span⁡{Col⁡X}{\displaystyle \operatorname {Span} \{\operatorname {Col} X\}} $\operatorname {span}\{\operatorname {col}x\}$ et y.{\displaystyle \mathbf {y}.} ${\mathbf {y}}.$
- ${\hat {{\mathbf {y}}}}=\operatorname {proj}_{{\operatorname {col}x}}{\mathbf {y}}$
- Si on laisse X=(x1x2.. 0,10),{\displaystyle X={\begin{pmatrix}\mathbf {x} _{1}&\mathbf {x} _{2}&...&\ mathbf {x} _{p}\end{pmatrix}},} $X={\begin{pmatrix}{\mathbf {x}}_{{1}}et{\mathbf {x}}_{{2}}et...et{\mathbf {x}}_{{ p}}\end{pmatrix}},$ alors nous pouvons écrire la projection comme suit, où les crochets angulaires signifient le produit scalaire.
  - $\operatorname {proj}_{{\operatorname {col}x}}{\mathbf {y}}={\frac {\langle {\mathbf {y}},{\mathbf {x}}_{{1} }\rangle }{\langle {\mathbf {x}}_{{1}},{\mathbf {x}}_{{1}}\rangle }}{\mathbf {x}}_{{1} }+\,...\,+{\frac {\langle {\mathbf {y}},{\mathbf {x}}_{{p}}\rangle }{\langle {\mathbf {x}} _{{p}},{\mathbf {x}}_{{p}}\rangle }}{\mathbf {x}}_{{p}}$
- Évidemment, ce n'est pas quelque chose que nous voulons évaluer.
2
Réécrivez l'équation matricielle avec des projections. Maintenant que nous avons un vecteur qui est dans Col⁡X,{\displaystyle \operatorname {Col} X,} $\nom_opérateur {col}x,$ nous pouvons commencer à trouver un β^{\displaystyle {\hat {\boldsymbol {\beta }}}} ${\hat {{\boldsymbol {\beta }}}}$ qui donne une solution cohérente pour l'équation matricielle ci-dessous, où β^∈Rn.{\displaystyle {\hat {\boldsymbol {\beta }}}\in \mathbb {R} ^{n}.} ${\hat {{\boldsymbol {\beta }}}}\in {\mathbb {r}}^{{n}}.$
- $X{\hat {{\boldsymbol {\beta }}}}={\hat {{\mathbf {y}}}}$
3
Reliez l'espace nul de $X$ avec ${\hat {{\mathbf {y}}}}$ . On peut relier y{\displaystyle \mathbf {y} } ${\mathbf {y}}$ et sa projection via z=y−y^,{\displaystyle \mathbf {z} =\mathbf {y} -{\hat {\mathbf {y} }},} ${\mathbf {z}}={\mathbf {y}}-{\hat {{\mathbf {y}}}},$ où z{\displaystyle \mathbf {z} } ${\mathbf {z}}$ est le composant de y{\displaystyle \mathbf {y} } ${\mathbf {y}}$ orthogonal à Col⁡X.{\displaystyle \operatorname {Col} X.} $\nom_opérateur {col}x.$
- ${\mathbf {y}}-{\hat {{\mathbf {y}}}}=\operatorname {col}(X)^{{\perp }}$
- Un théorème en algèbre linéaire est que si β{\displaystyle {\boldsymbol {\beta }}} ${\boldsymbol {\beta }}$ est dans l'espace nul de X,{\displaystyle X,} $X,$ alors β{\displaystyle {\boldsymbol {\beta }}} ${\boldsymbol {\beta }}$ est orthogonal à l'espace des lignes de X.{\displaystyle X.} $X.$ Cela a du sens, car faire la multiplication matricielle pour n'importe quelle ligne devrait envoyer le résultat à 0, comme l'exige un vecteur dans l'espace nul de X.{\displaystyle X. } $X.$
  - $\operatorname {ligne}(X)^{{\perp }}=\operatorname {nul}x$
- Puisque nous pouvons facilement transposer X,{\displaystyle X,} $X,$ nous pouvons dire que Col⁡(X)⊥=Nul⁡XT.{\displaystyle \operatorname {Col} (X)^{\perp }=\operatorname {Nul} X^{T}.} $\operatorname {col}(X)^{{\perp }}=\operatorname {nul}x^{{t}}.$ Par conséquent, y−y^=Nul⁡XT,{\displaystyle \mathbf {y} -{\hat {\mathbf {y} }}=\operatorname {Nul} X^{T}, } ${\mathbf {y}}-{\hat {{\mathbf {y}}}}=\operatorname {nul}x^{{t}},$ nous menant à la conclusion ci-dessous.
  - $X^{{t}}({\mathbf {y}}-{\hat {{\mathbf {y}}}})=0$
4
Remplacez xβ^{\displaystyle x{\hat {\boldsymbol {\beta }}}} $x{\hat {{\boldsymbol {\beta }}}}$ par y^{\displaystyle {\hat {\mathbf {y} }}} ${\hat {{\mathbf {y}}}}$ et simplifiez. Puisque nous ne cherchons pas y^,{\displaystyle {\hat {\mathbf {y} }},} ${\hat {{\mathbf {y}}}},$ mais β^,{\displaystyle {\hat {\boldsymbol {\beta }}},} ${\hat {{\boldsymbol {\beta }}}},$ nous le substituons dans l'équation homogène.
- ${\begin{aligned}x^{{t}}({\mathbf {y}}-x{\hat {{\boldsymbol {\beta }}}})et=0\\x^{{t}} {\mathbf {y}}-x^{{t}}x{\hat {{\boldsymbol {\beta }}}}et=0\end{aligned}}$
5
Résolvez pour ${\hat {{\boldsymbol {\beta }}}}$ . Maintenant que nous avons exprimé β^{\displaystyle {\hat {\boldsymbol {\beta }}}} ${\hat {{\boldsymbol {\beta }}}}$ dans les quantités que nous voulons, nous pouvons évaluer cette équation.
- ${\hat {{\boldsymbol {\beta }}}}=(x^{{t}}x)^{{-1}}x^{{t}}{\mathbf {y}}$
- Attention, pour que cette équation soit valide, $X^{{t}}x$ doit être inversible. S'il y a des variables libres dans cette expression, alors il y aura un nombre infini de courbes de tendance valides.

Nous pouvons ajuster des lignes de tendance des moindres carrés qui peuvent être décrites — Étant donné un ensemble de données, nous pouvons ajuster des lignes de tendance des moindres carrés qui peuvent être décrites par des combinaisons linéaires de fonctions connues.

Partie 2 sur 2: exemple pour des données données

1
Considérez les points de données suivants. Nous voulons leur ajuster une ligne de tendance linéaire des moindres carrés y=β0x+β1{\displaystyle y=\beta _{0}x+\beta _{1}} $Y=\beta _{{0}}x+\beta _{{1}}$ .
- $(03),\,(14),\,(25),\,(37)$
- Puisque nous ajustons une ligne de tendance linéaire, nous pouvons utiliser les points de données pour écrire un système d'équations.
  - ${\begin{aligned}3and=\ \ \ \ \ \ \ \ \ \beta _{{1}}\\4and=\beta _{{0}}+\beta _{{1}}\\5and= 2\beta _{{0}}+\beta _{{1}}\\7and=3\beta _{{0}}+\beta _{{1}}\end{aligned}}$
2
Mettre en place le vecteur d'observation et la matrice de conception. Le vecteur d'observation est simplement un vecteur colonne constitué des observations ou des valeurs y. Les éléments de la matrice de conception reposent sur les coefficients de l'équation de la ligne de tendance en ce qui concerne chaque point. Dans notre cas, la première colonne est constituée des coefficients de β0,{\displaystyle \beta _{0},} $\beta _{{0}},$ tandis que la deuxième colonne est constituée des coefficients de β1.{\displaystyle \beta _{1}.} $\beta _{{1}}.$
- $X={\begin{pmatrix}0and1\\1and1\\2and1\\3and1\end{pmatrix}},\ {\mathbf {y}}={\begin{pmatrix}3\\4\\5\\7 \end{pmatrice}}$
3
Reliez la solution des moindres carrés à la matrice de conception et au vecteur d'observation.
- ${\hat {{\boldsymbol {\beta }}}}=(x^{{t}}x)^{{-1}}x^{{t}}{\mathbf {y}}$
4
Évaluez le côté droit par tous les moyens possibles.
- ${\begin{aligned}x^{{t}}xand={\begin{pmatrix}14and6\\6and4\end{pmatrix}}\\(x^{{t}}x)^{{-1}} and={\frac {1}{10}}{\begin{pmatrix}2and-3\\-3and7\end{pmatrix}}\\x^{{t}}{\mathbf {y}}and={ \begin{pmatrix}35\\19\end{pmatrix}}\\(x^{{t}}x)^{{-1}}x^{{t}}{\mathbf {y}}et= {\frac {1}{10}}{\begin{pmatrix}13\\28\end{pmatrix}}\end{aligned}}$
5
Écrivez la courbe de tendance sous forme standard. Il s'agit de la ligne de meilleur ajustement pour les points de données observés. Notre intuition vérifie qu'il s'agit de la bonne réponse, car nous nous attendions à ce que la pente soit légèrement supérieure à 1 et que l'ordonnée à l'origine soit légèrement inférieure à 3, en raison de la valeur aberrante (37).{\displaystyle (37).} $(37).$
- $Y={\frac {13}{10}}x+{\frac {28}{10}}$

Conseils

L'exemple que nous avons montré dans la partie 2 traitait de l'ajustement d'une ligne droite à un ensemble d'observations. Cependant, les moindres carrés sont plus puissants que cela. Étant donné un ensemble de données, nous pouvons ajuster des lignes de tendance des moindres carrés qui peuvent être décrites par des combinaisons linéaires de fonctions connues. Par exemple, vous pouvez ajuster des courbes quadratiques, cubiques et même exponentielles sur les données, le cas échéant.

Lisez aussi: Comment se familiariser avec le sujet de la chimie hétérocyclique?

Comment trouver des solutions de moindres carrés à l'aide de l'algèbre linéaire?

Pas

Partie 1 sur 2: dérivation de la solution générale des moindres carrés

Partie 2 sur 2: exemple pour des données données

Conseils

Lisez aussi: