
Capítol 4. Ortogonalitat
Podeu trobar el contingut de la part d’ortogonalitat a [1 Tema 5], i de la part de formes quadràtiques a ([1],[2]).
4.1 Ortogonalitat a Rn
Considerem l’espai vectorial Rn i recordem el producte escalar definit com: si →u=(u1u2⋮un) i →v=(v1v2⋮vn) són vectors d’Rn, llavors →u⋅→v=→uT→v=∑ni=1uivi.
Observació. Observem que a les igualtats anteriors hi ha cert abús de notació: estem definint el producte escalar (que denotem amb “⋅”), que resulta en un nombre real. El terme entre les dues igualtats representa una matriu 1×1, que obtenim del producte de la matriu fila formada amb les entrades del vector →u amb la matriu columna formada amb les entrades del vector →v. Per tant, estem identificant vectors amb matrius columna, i escalars amb matrius 1×1, i ho seguirem fent sense massa risc de confusió.
Definició 4.1
Diem que dos vectors →u i →v són ortogonals si →u⋅→v=0. Més generalment, diem que els vectors →u1,…,→uk de Rn són ortogonals si són ortogonals dos a dos, o sigui, si →ui⋅→uj=0 per a tot i≠j.
Definim la longitud d’un vector com la quantitat ‖
Diem que un vector \vec u\in\R^n és unitari si \|\vec u\|=1.
Diem que els vectors \vec u_1, \dots, \vec u_k de \R^n són ortonormals si són unitaris i ortogonals dos a dos, o sigui, si \vec u_i\cdot\vec u_j= \begin{cases} 1 & \text{si $i=j$} \\ 0 & \text{si $i\neq j.$} \end{cases}
Observació. Podem passar de vectors no nuls \vec u_1, \dots, \vec u_k de \R^n ortogonals a ortonormals dividint cadascun per la seva norma: si \vec u_1, \dots, \vec u_k de \R^n són no nuls, llavors \frac{\vec u_1}{\|\vec u_1\|}, \dots, \frac{\vec u_k}{\|\vec u_k\|} són unitaris, i si \vec u_i\cdot \vec u_j=0, llavors, \frac{\vec u_i}{\|\vec u_i\|}\cdot \frac{\vec u_j}{\|\vec u_j\|}=\frac{1}{\|\vec u_i\| \|\vec u_j\|}(\vec u_i\cdot \vec u_j)=0.
Exemple 4.1 La base estàndard d’\R^n formada pels vectors \vec e_i amb un 1 a la posició i i 0 a la resta de posicions és una base ortonormal.
Lema 4.1 Si els vectors no nuls \vec u_1, \dots, \vec u_k de \R^n són
ortogonals, llavors són linealment independents.
En particular, si tenim n vectors \vec u_1, \dots, \vec u_n de
\R^n ortonormals, formen una base.
Prova. Suposem que tenim una combinació lineal dels vectors \vec u_1, \dots, \vec u_k que dóna zero: 0 = \lambda_1 \vec u_1 + \cdots + \lambda_n\vec u_n \,. Si veiem que tots els \lambda_i són zero ja estarem. Triem una i i fent el producte escalar per \vec u_i tenim: \begin{align*} 0 & = (\lambda_1 \vec u_1 + \cdots + \lambda_n\vec u_n)\cdot \vec u_i= \\ & = \lambda_1 (\vec u_1 \cdot \vec u_i) + \cdots + \lambda_n(\vec u_n\cdot \vec u_i)=\\ & = \lambda_i \|\vec u_i\|^2\quad \text{(tots els altres productes escalars són zero)} \end{align*} Per tant, com que \vec u_i\neq\vec 0, \lambda_i=0. Com que això és cert per cada i=1,\ldots,n, els vectors són linealment independents.
En el cas de tenir n vectors ortonormals, són n vectors ortogonals no nuls, per tant linealment independents i com que la dimensió de \R^n és n, són base (Teorema 2.4).
Veurem més endavant com trobar una base ortonormal d’un subespai V de \R^n. Suposem però que tenim [\vec u_1,\ldots,\vec u_k] una base ortonormal de V, i considerem la projecció ortogonal \proj_V\colon \R^n\rightarrow \R^n, que envia un vector \vec v\in \R^n al vector \proj_V(\vec v) = \vec v^\parallel, on \vec v^\parallel = (\vec v\cdot \vec u_1)\vec u_1 + \cdots + (\vec v\cdot \vec u_k)\vec u_k \in V. Observem que \proj_V\colon \R^n\rightarrow \R^n és una aplicació lineal (per les propietats de linealitat del producte escalar). Com que la seva imatge està continguda a V i \proj_V(\vec u_i) = \vec u_i, en deduïm que \Ima(\proj_V)=V. A més, \begin{align*} \Ker(\proj_V) &= \{\vec w\in\R^n ~|~ \vec w^\parallel = 0\}\\ &= \{\vec w\in\R^n ~|~ \vec w\cdot \vec u_i = 0, \quad i=1,\ldots k\}\\ &= \{\vec w\in\R^n ~|~ \vec w\cdot \vec v = 0\quad\text{ per a tot }\vec w \in V\}. \end{align*} La següent definició dona nom al nucli de \proj_V.
Definició 4.2 Donat un subespai V\subseteq \R^n, el complement ortogonal de V, que escriurem V^\perp, és el conjunt V^\perp = \{\vec w\in \R^n ~|~ \vec w\cdot \vec v = 0\text{ per a tot } \vec v\in V\}.
El complement ortogonal satisfà les següents propietats bàsiques.
Proposició 4.1 Sigui V\subseteq \R^n un subespai d’\R^n. Aleshores:
V^\perp també és un subespai d’\R^n,
V \cap V^\perp = \{\vec 0\},
\dim(V)+\dim(V^\perp) = n,
(V^\perp)^\perp = V.
Prova. La primera afirmació es comprova de manera directa, fent servir les propietats del producte escalar.
Per veure la segona, sigui \vec w\in V\cap V^\perp. Per tant, \vec w\cdot\vec w =\| \vec w\|= 0. Però l’únic vector de longitud 0 és el vector nul.
Seguidament, observem que V=\Ima(\proj_V) i que V^\perp = \Ker(\proj_V). Per tant, per la fórmula del nucli–imatge (Teorema 2.5) tenim \dim(\Ker\proj_V) + \dim(\Ima\proj_V) = \dim(\R^n)=n, com volíem veure.
Finalment, per veure que (V^\perp)^\perp = V, denotem W=V^\perp. Aleshores, si \vec v\in V, i \vec w\in W, es té que \vec v\cdot \vec w = 0, i per tant \vec v\in W^\perp. Concloem doncs que V\subseteq (V^\perp)^\perp. Però ara observem que \dim((V^\perp)^\perp) = n - \dim(V^\perp) = n- (n-\dim(V)) = \dim(V). Veiem que (V^\perp)^\perp és un subespai que conté V i que té la mateixa dimensió que V i, per tant, ha de coincidir amb V.
Corol·lary 4.1 Si V\subseteq\R^n és un subespai d’\R^n, aleshores \R^n=V\oplus V^\perp.
Prova. Per l’apartat (b) de la proposició anterior, la intersecció és buida. Per l’apartat (c), la suma de de les dimensions és n. Per tant, si prenem una base \calb de V i una base \calc de V^\perp, el conjunt \calb\cup\calc serà linealment independent i tindrà n elements. Per tant, serà base de \R^n, que és el que volíem veure.
D’aquest corol·lari es dedueix que, donat V un subespai d’\R^n, tot vector \vec w\in\R^n es pot escriure de forma única com: \vec w = \vec w^\parallel + \vec w^\perp amb \vec w^\parallel \in V i \vec w^\perp \in V^\perp. A més, tenim que \vec w^\perp=\proj_{V^\perp}(\vec w).
4.2 El teorema de Pitàgores
El conegut teorema de Pitàgores es pot formular a \R^n. Fixem-nos que el teorema té dues implicacions.
Teorema 4.1 Si \vec v i \vec w són dos vectors d’\R^n, aleshores: \| \vec v + \vec w \|^2 = \|\vec v\|^2 + \|\vec w\|^2 \iff \vec v \perp \vec w.
Prova. Calculem: \| \vec v + \vec w\|^2 = (\vec v+\vec w)\cdot (\vec v+\vec w) = \vec v\cdot \vec v + \vec v\cdot \vec w + \vec w\cdot \vec v + \vec w\cdot \vec w=\|\vec v\|^2 + \|\vec w\|^2 +2(\vec v\cdot \vec w). Per tant, la igualtat es compleix si i només si \vec v\cdot \vec w = 0.
Corol·lary 4.2 Sigui V\subseteq \R^n un subespai. Aleshores \|\proj_V(\vec w)\| \leq \| \vec w\| \text{ per a tot $\vec w\in\R^n$,} i la desigualtat és una igualtat si i només si \vec w\in V.
Prova. Apliquem el teorema anterior a \vec w^\parallel i \vec w^\perp (notem \vec w = \vec w^\parallel + \vec w^\perp). \|\vec w\|^2 = \|\vec w^\parallel\|^2 + \|\vec w^\perp\|^2, i per tant \|\proj_V(\vec w)\|^2 \leq \|\vec w\|^2, amb igualtat si i només si \|\vec w^\perp\|^2 = 0, és a dir si i només si \vec w^\perp = 0, que és equivalent a \vec w\in V.
Una aplicació d’aquests resultats és una desigualtat molt famosa, coneguda com la desigualtat de Cauchy–Schwarz:
Teorema 4.2 Si \vec v i \vec w són vectors de \R^n, aleshores |\vec v\cdot \vec w|\leq \|\vec v\|\|\vec w\|, amb igualtat si i només si \vec v i \vec w són paral·lels.
Prova. Si \vec v=\vec 0, aleshores la desigualtat es compleix trivialment. En cas contrari, considerem el subespai V=\langle \vec v\rangle, i apliquem el resultat anterior. Ja havíem vist la fórmula \proj_V(\vec w) = \frac{\vec w\cdot \vec v}{\|\vec v\|^2} \vec v, i per tant \|\proj_V(\vec w)\| = \frac{|\vec w\cdot \vec v|}{\|\vec v\|^2} \|\vec v\|, i obtenim \frac{|\vec w\cdot \vec v|}{\|\vec v\|} \leq \|\vec w\|, que és la desigualtat que busquem un cop passem \|\vec v\| a l’altra banda (i utilitzem que \vec w\cdot \vec v=\vec v\cdot \vec w). La igualtat es dóna si i només si \vec w\in V, que és equivalent a \vec v essent paral·lel a \vec w.
Observem que si \vec v i \vec w no són zero, aleshores tenim les desigualtats -1 \leq \frac{\vec v\cdot \vec w}{\|\vec v\|\|\vec w\|}\leq 1.
Definició 4.3 Donats dos vectors no-nuls \vec v i \vec w d’\R^n, l’angle entre \vec v i \vec w és \theta = \arccos\left(\frac{\vec v\cdot \vec w}{\|\vec v\|\|\vec w\|}\right).
4.3 Mètode de Gram-Schmidt
Aquest mètode permet calcular una base ortonormal d’un subespai de \R^n a partir de projeccions ortogonals. Fixem les notacions següents:
V\subset \R^n un subespai de dimensió k fixat,
\calb =[\vec v_1, \dots , \vec v_k] una base de V,
V_i=\langle \vec v_1, \dots , \vec v_i\rangle \subset V el subespai (de dimensió i) generat pels i primers vectors de \calb. Tenim que V_1\subset V_2\subset \cdots \subset V_k=V.
Si \vec v_i\in\calb, denotarem per \vec v_i^\parallel la projecció ortogonal de \vec v_i a V_{i-1} i per \vec v_i^\perp el vector \vec v_i - \vec v_i^\parallel, que és ortogonal a V_{i-1}.
El mètode de Gram-Schmidt construeix de forma iterativa una base ortonormal a cada V_i:
Considerem primer V_1=\langle \vec v_1 \rangle, i una base és \calb_1=[\vec v_1]. En aquest cas, definim \vec u_1=\frac{1}{\|\vec v_1\|} \vec v_1 i tenim que \calc_1=[\vec u_1] és una base ortonormal de V_1.
Considerem ara V_2=\langle \vec v_1, \vec v_2 \rangle=\langle \vec u_1, \vec v_2 \rangle. Pel Corol·lari 4.1, \vec v_2 es pot escriure de forma única com: \vec v_2 = \vec v_2^\parallel + \vec v_2^\perp amb \vec v_2^\parallel\in V_1 i \vec v_2\perp \in V_1^\perp. A més, sabem com calcular-los: \vec v_2^\parallel = \proj_{V_1}(\vec v_2)=(\vec v_2 \cdot \vec u_1)\vec u_1 i per tant \vec v_2^\perp = \vec v_2 - \vec v_2^\parallel = \vec v_2 - (\vec v_2 \cdot \vec u_1)\vec u_1. Definim \vec u_2=\frac{1}{\|\vec v_2^\perp\|}\vec v_2^\perp, i tenim que V_2=\langle \vec u_1, \vec u_2\rangle, amb \calc_2=[\vec u_1,\vec u_2] una base ortonormal.
Suposem ara que ja tenim \calc_{i-1}=[\vec u_1, \dots, \vec u_{i-1}] una base ortonormal de V_{i-1}. Considerem V_i=\langle\vec v_1, \dots, \vec v_{i-1},\vec v_i\rangle=\langle\vec u_1, \dots, \vec u_{i-1},\vec v_i\rangle, i escrivim: \vec v_i = \vec v_i^\parallel + \vec v_i^\perp amb \vec v_i^\parallel\in V_{i-1} i \vec v_i^\perp \in V_{i-1}^\perp. Com que els vectors \vec u_i són ortonormals, el càlcul és: \vec v_i^\parallel = \proj_{V_{i-1}}(\vec v_i)=(\vec v_i \cdot \vec u_1)\vec u_1+ \cdots + (\vec v_i \cdot \vec u_{i-1})\vec u_{i-1} i per tant \vec v_i^\perp = \vec v_i - \vec v_i^\parallel = \vec v_i - (\vec v_i \cdot \vec u_1)\vec u_1- \cdots -(\vec v_i \cdot \vec u_{i-1})\vec u_{i-1}. Definim \vec u_i=\frac{1}{\|\vec v_i^\perp\|}\vec v_i^\perp, i tenim que V_i=\langle \vec u_1, \dots ,\vec u_i\rangle, amb \calc_i=[\vec u_1,\dots,\vec u_i] una base ortonormal.
Exemple 4.2 Considerem V=\langle \smat{1\\-1\\-1\\1}, \smat{0\\1\\1\\0}\rangle \subset \R^4 i volem calcular una base ortonormal.
Comencem amb la base \calb=[\smat{1\\-1\\-1\\1}, \smat{0\\1\\1\\0}] i, seguint el procediment, V_1=\langle \smat{1\\-1\\-1\\1}\rangle i tant sols hem de fer-lo unitari:\|\smat{1\\-1\\-1\\1}\|=2 i per tant V_1=\langle \smat{1\\-1\\-1\\1}\rangle=\langle \smat{1/2\\-1/2\\-1/2\\1/2}\rangle.
Calculem ara el segon vector: \vec v_2^\perp = \smat{0\\1\\1\\0} - (\smat{0\\1\\1\\0}\cdot\smat{1/2\\-1/2\\-1/2\\1/2})\smat{1/2\\-1/2\\-1/2\\1/2}= \smat{0\\1\\1\\0}+\smat{1/2\\-1/2\\-1/2\\1/2}=\smat{1/2\\1/2\\1/2\\1/2}. Llavors \vec u_2=\frac{1}{\|\vec v_2^\perp\|} \vec v_2^\perp=\smat{1/2\\1/2\\1/2\\1/2}.
Tenim, doncs, que \calc=[\smat{1/2\\-1/2\\-1/2\\1/2},\smat{1/2\\1/2\\1/2\\1/2}] és una base ortonormal de V.
A més, la matriu del canvi de base és: S_{\calb,\calc}=\begin{pmatrix} 2 & -1 \\ 0 & 1\end{pmatrix}
L’algorisme de Gram-Schmidt ens porta a la factorització QR d’una matriu A (amb les seves columnes linealment independents).
Teorema 4.3 Donada una matriu A\in M_{m\times n}(\R) amb les seves columnes linealment independents, existeixen una matriu Q\in M_{m\times n}(\R) i R\in M_{n\times n} tals que:
A=QR,
Q^T Q=\1_n (diem que Q és una matriu ortogonal),
R és una matriu triangular superior amb els coeficients de la diagonal positius.
A més, aquesta factorització és única.
Prova. La demostració és constructiva: anirem calculant els coeficients de les columnes Q i R aplicant el mètode de Gram-Schmidt. Fixem abans les notacions següents per a les columnes d’A, de Q i els coeficients de R: A=\begin{pmatrix} | & | & & | \\ \vec v_1 & \vec v_2 & \cdots & \vec v_n \\ | & | & & | \end{pmatrix} , Q=\begin{pmatrix} | & | & & | \\ \vec u_1 & \vec u_2 & \cdots & \vec u_n \\ | & | & & | \end{pmatrix} \text{ i } R=\begin{pmatrix} r_{11} & r_{12} & \cdots & r_{1n} \\ 0 & r_{22} & \cdots & r_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & r_{nn}\end{pmatrix}. I les matrius formades per les primeres j columnes d’A, Q i la submatriu quadrada j\times j d’R: A_j=\begin{pmatrix} | & | & & | \\ \vec v_1 & \vec v_2 & \cdots & \vec v_j\\ | & | & & | \end{pmatrix} , Q_j=\begin{pmatrix} | & | & & | \\ \vec u_1 & \vec u_2 & \cdots & \vec u_j \\ | & | & & | \end{pmatrix} \text{ i } R_j=\begin{pmatrix} r_{11} & r_{12} & \cdots & r_{1j} \\ 0 & r_{22} & \cdots & r_{2j} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & r_{jj}\end{pmatrix}. La construcció comença amb j=1, j=2 i veurem com es fa el cas j a partir del j-1:
Cas j=1: llavors A_1=\vec v_1: calculem el coeficient R_1=(r_{11})=(\|\vec v_1\|) i la primera columna de Q com Q_1=\vec u_1=\frac{1}{r_{11}}\vec v_1. Veiem que, de moment, es compleix A_1=Q_1R_1. A més, Q_1^TQ_1=\|\vec u_1\|=1 i R_1 és triangular superior i amb la diagonal positiva (és un mòdul).
Cas j=2: considerem r_{12}=\vec u_1\cdot \vec v_2, el vector \vec v_2^\perp=\vec v_2-r_{12}u_1, r_{22}=\|\vec v_2^\perp\| i \vec u_2=\frac{1}{r_{22}} v_2^\perp. La primera columna de Q_2R_2 és la mateixa que la de Q_1R_1=A_1. La segona és r_{12}u_1+r_{22}\vec u_2=(u_1\cdot v_2)\vec u_1+\|v_2-(\vec u_1\cdot \vec v_2)\vec u_1\|\frac{1}{\|\vec v_2-(\vec u_1\cdot \vec v_2)\vec u_1\|}(\vec v_2-(\vec u_1\cdot \vec v_2)\vec u_1)=\vec v_2 i per tant tenim la segona columna de A, llavors A_2=Q_2R_2. També veiem que Q_2^TQ_2=\1_2 (\vec u_2 és perpendicular a \vec u_1 i tots dos són unitaris) i R_2 és triangular superior i la diagonal positiva (són mòduls de vectors).
Suposem que tenim les j-1 primeres columnes de Q, i les de R tal que A_{j-1}=Q_{j-1}R_{j-1}, Q_{j-1}^TQ_{j-1}=\1_{j-1} i R_{j-1} triangular superior i amb la diagonal positiva. Considerem r_{ij}=\vec u_i\cdot \vec v_j per a 1\leq i <j, \vec v_j^\perp=\vec v_j-r_{1j}\vec u_1-\cdots-r_{(j-1)j}\vec u_{j-1}, r_{jj}=\|\vec v_j^\perp\| i \vec u_j=\frac{1}{r_{jj}} \vec v_j^\perp. Si fem Q_jR_j, les primeres j-1 columnes són les de Q_{j-1}R_{j-1}, per tant són A_{j-1}. Si calculem la columna j-èssima de Q_jR_j: \begin{align*} r_{1j}\vec u_1+\cdots+r_{jj}\vec u_j & =(\vec u_1\cdot \vec v_j)\vec u_1+\cdots+(\vec u_{j-1}\cdot \vec v_j)\vec u_{j-1}+\|\vec v_j^\perp\|\frac{1}{\|\vec v_j^\perp\|} \vec v_j^\perp = \\ & =(\vec u_1\cdot \vec v_j)\vec u_1+\cdots+(\vec u_{j-1}\cdot \vec v_j)\vec u_{j-1}+ \vec v_j^\perp=\vec v_j . \end{align*} I per tant A_j=Q_jR_j. A més, la primera caixa (j-1)\times(j-1) superior esquerra de Q_j^TQ_j és una \1_{j-1}. L’última columna i fila són és \vec u_i\cdot \vec u_j, i per tant, com que \vec u_j és perpendicular als altres \vec u_i i unitari, tenim que Q_j^TQ_j=\1_j. Finalment, R_j és triangular superior per construcció, i la diagonal formada per mòduls, per tant positius.
Falta veure la unicitat, també per inducció sobre j:
Cas j=1: com que R és triangular superior, v_1=r_{11}\vec u_1 amb \|\vec u_1\|=1, per tant \vec u_1=\frac{\pm1}{\|\vec v_1\|}v_1, però com que r_{11} és positiva positiva, \vec u_1=\frac{1}{\|\vec v_1\|}\vec v_1 i r_{11}=\|\vec v_1\|.
Suposem que les j-1 primeres columnes de Q i de R ja estan fixades, volem veure que tant sols hi ha una elecció per la j-èssima: el vector \vec u_j és un vector perpendicular a l’espai V_{j-1}=\langle \vec v_1, \dots, \vec v_{j-1}\rangle i contingut a V_j=\langle \vec v_1, \dots, \vec v_j\rangle. Considerem V_{j-1}^\perp el complement ortogonal de V_{j-1} a V_j, que és de dimensió 1 (\dim(V_{j-1})+\dim(V_{j-1}^\perp)=\dim(V_j)), i conté \vec v_j^\perp, per tant es té V_{j-1}^\perp=\langle v_j^\perp \rangle. Llavors, com que ha de ser unitari, ja j-èssima columna de Q ha de ser \vec u_j=\frac{\pm1}{\|\vec v_j^\perp\|}\vec v_j^\perp, però com que r_{jj} és positiva positiva, \vec u_j=\frac{1}{\|\vec v_j^\perp\|}\vec v_j^\perp i r_{jj}=\|\vec v_j^\perp\|, i tenim la unicitat de la \vec u_j i el coeficient r_{jj}. La resta de coeficients de la columna j d’R estan determinats per ser R triangular superior (per tant, per sota de r_{jj} són zero) i el fet de que els de sobre són les coordenades de \vec v_j-\vec v_j^\perp en la base [\vec u_1,\dots,\vec u_{j-1}] de V_{j-1} (i les coordenades en una base són úniques pel Teorema 2.2).
Exemple 4.3 Podem aprofitar els càlculs fets a l’Exemple 4.2 per trobar la factorització QR següent: \begin{pmatrix} 1 & 0 \\ -1 & 1 \\ -1 & 1 \\ 1 & 0 \end{pmatrix}= \begin{pmatrix} 1/2 & 1/2 \\ -1/2 & 1/2 \\ -1/2 & 1/2 \\ 1/2 & 1/2 \end{pmatrix} \begin{pmatrix} 2 & -1 \\ 0 & 1 \end{pmatrix}.
4.4 Aplicacions i matrius ortogonals
Definició 4.4 Diem que una aplicació lineal f \colon \R^n\to \R^m és ortogonal si conserva la longitud dels vectors, o sigui, si \|f(\vec v)\|=\|\vec v\| \text{ per a tot $\vec v\in\R^n$.} Si f=f_A amb A\in M_{m\times n}(\R), direm que A és una matriu ortogonal.
Exemple 4.4 Les rotacions definides a la Secció 2.2.4 són ortogonals: es pot interpretar geomètricament o bé fent els càlculs: un vector \smat{x\\y} té norma \|\begin{pmatrix}x \\ y \end{pmatrix}\|=\left(\begin{pmatrix} x & y \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}\right)^{1/2} = \sqrt{x^2+y^2}, i va a parar a: \begin{pmatrix} \cos\theta&-\sin\theta\\ \sin\theta&\cos\theta \end{pmatrix} \begin{pmatrix}x \\ y \end{pmatrix} , que té norma \begin{align*} \|f(\smat{x\\y})\|^2 & =\left( \begin{pmatrix} \cos\theta&-\sin\theta\\ \sin\theta&\cos\theta \end{pmatrix} \begin{pmatrix}x \\ y \end{pmatrix} \right)^T \begin{pmatrix} \cos\theta&-\sin\theta\\ \sin\theta&\cos\theta \end{pmatrix} \begin{pmatrix}x \\ y \end{pmatrix} = \\ & = \begin{pmatrix}x & y \end{pmatrix} \begin{pmatrix} \cos\theta&\sin\theta\\ -\sin\theta&\cos\theta \end{pmatrix} \begin{pmatrix} \cos\theta&-\sin\theta\\ \sin\theta&\cos\theta \end{pmatrix} \begin{pmatrix}x \\ y \end{pmatrix} = \\ & = \begin{pmatrix}x & y \end{pmatrix} \begin{pmatrix} 1&0\\ 0&1 \end{pmatrix} \begin{pmatrix}x \\ y \end{pmatrix} = x^2+y^2\\ \end{align*} i per tant la rotació és ortogonal.
Exercici 4.1 Demostreu que reflexions definides a la Secció 2.2.3 són ortogonals.
Exemple 4.5 Les projeccions a un subespai V\subset \R^n (V\neq \R^n) no són ortogonals: considerem \vec 0 \neq \vec u \in V^\perp, llavors \proj_V(\vec u)=\vec 0 i per tant no es conserva la longitud de \vec u.
El lema següent ens permet calcular el producte escalar en funció dels mòduls:
Lema 4.2 Si \vec u, \vec v són vectors d’\R^n, llavors: \vec u \cdot \vec v = \frac{1}{2}\left(\|\vec u + \vec v\|^2 - \|\vec u\|^2 - \|\vec v\|^2\right).
Prova. Considerem \vec u, \vec v \in \R^n. Tenim que: \begin{align*} \|\vec u + \vec v\|^2 & =(\vec u+\vec v)\cdot(\vec u+\vec v) = \vec u \cdot (\vec u+ \vec v) + \vec v \cdot (\vec u+ \vec v) = \\ & = \vec u \cdot \vec u + \vec u \cdot \vec v + \vec v \cdot \vec u+\vec v \cdot \vec v = \|\vec u\|^2+2 (\vec u \cdot \vec v) + \|\vec v\|^2 \end{align*} I per tant: \vec u \cdot \vec v = \frac{1}{2}\left(\|\vec u + \vec v\|^2 - \|\vec u\|^2 - \|\vec v\|^2\right).
I d’aquí deduïm:
Teorema 4.4 Una aplicació lineal f\colon \R^n \to \R^m és ortogonal si i només si f(\vec u)\cdot f(\vec v)=\vec u \cdot \vec v per a tot \vec u i \vec v de \R^n.
Prova. Si l’aplicació és ortogonal, es compleix que, per a tot \vec u,\vec v \in \R^n, \|f(\vec u)\|=\|\vec u\| i \|f(\vec v)\|=\|\vec v\|. Llavors: \begin{align*} f(\vec u)\cdot f\vec v) & = \frac{1}{2}\left(\|f(\vec u) +f(\vec v)\|^2 - \|f(\vec u)\|^2 - \|f(\vec v)\|^2\right) \\ & = \frac{1}{2}\left(\|f(\vec u+\vec v)\|^2 - \|f(\vec u)\|^2 - \|f(\vec v)\|^2\right) \\ & = \frac{1}{2}\left(\|\vec u + \vec v\|^2 - \|\vec u\|^2 - \|\vec v\|^2\right) = \vec u \cdot \vec v , \end{align*} on hem utilitzat el Lema 4.2 dues vegades i que f és lineal.
Si f(\vec u)\cdot f(\vec v)=\vec u \cdot \vec v per a tot \vec u i \vec v de \R^n, com que \|\vec u\|^2=\vec u \cdot \vec u, tenim que, agafant \vec u=\vec v, \|f(\vec u)\|^2=\|\vec u\|^2 i per tant f és ortogonal.
Corol·lary 4.3 Si f = f_A \colon \R^n \to \R^m és una aplicació lineal i \vec e_1, \dots, \vec e_n és la base estàndard d’\R^n, llavors:
f és ortogonal si i només si f(\vec e_1), \dots, f(\vec e_n) són vectors ortonormals. En particular, si f és ortogonal, f(\vec e_1), \dots, f(\vec e_n) són linealment independents i si n=m, són una base ortonormal.
f_A és una aplicació lineal ortogonal si i només si A és una matriu ortogonal.
Prova. Vegem primer (a). Si f és ortogonal, del fet que f(\vec e_i)\cdot f(\vec e_j)=\vec e_i\cdot \vec e_j, es dedueix que f(\vec e_i) són unitaris i ortogonals dos a dos, per tant, ortonormals.
Suposem ara que f(\vec e_i) són unitaris i ortogonals dos a dos i unitaris i \vec u \in \R^n. Tenim que existeixen nombres reals \lambda_i tals que \vec u= \lambda_1\vec e_1+ \cdots + \lambda_n\vec e_n. Llavors \|u\|^2=\lambda_1^2+ \cdots + \lambda_n^2, i \|f(\vec u)\|^2=\|\lambda_1 f(\vec e_1)+\cdots + \lambda_n f(\vec e_n)\|^2=\lambda_1^2+ \cdots + \lambda_n^2 (pel Teorema de Pitàgores, utilitzant que són ortogonals i unitaris).
Vegem ara que els f(\vec e_1) són linealment independents: més en general, tenim que si \vec u_1, \dots, \vec u_k són vectors ortonormals, llavors són linealment independents: del teorema de Pitàgores es dedueix que: \|\lambda_1\vec u_1 + \cdots + \lambda_k \vec u_k\|^2=\lambda_1^2 + \cdots + \lambda_k^2 I per tant si tenim una combinació \vec 0 = \lambda_1\vec u_1 + \cdots + \lambda_k \vec u_k, tots els \lambda han de ser zero. Llavors tenim que, en el nostre cas, f(\vec e_1), \dots, f(\vec e_n) són linealment independents.
Si n=m, f(\vec e_1), …, f(\vec e_m) són m vectors de \R^m linealment independents, i per tant, base.
Per a veure (b), si f_A és ortogonal i fem el producte A^TA, tenim que el coeficient (i,j) és f(\vec e_i)\cdot f(\vec e_j), per tant, com que són ortonormals, tenim A^TA=\1_n.
Les columnes d’A són els vectors f(\vec e_j), per tant, A^TA=\1_n si i només si f(\vec e_1), \dots, f(\vec e_n) són ortogonals i unitaris (per tant f és ortogonal).
Teorema 4.5 Si A,B \in M_n(\R) són matrius ortogonals, llavors:
AB també és ortogonal i
A^{-1} és ortogonal (i A^{-1}=A^T).
Prova. AB serà ortogonal si f_{AB} conserva la longitud dels vectors, però f_{AB}=f_A \circ f_B i, per hipòtesi, tant f_B com f_A conserven la longitud, per tant, f_{AB} també.
Per a veure (b): si \vec v = f_{A^{-1}}(\vec w)), llavors \vec w=f_A(\vec v) i, per hipòtesi \|\vec w\|=\|f_A(\vec v)\|=\|\vec v\|, per tant A^{-1} és ortogonal.
4.5 Matriu d’una projecció ortogonal en una base ortonormal
Proposició 4.2 Si V\subset \R^n un subespai vectorial, [\vec v_1, \dots, \vec v_k] és una base ortonormal de V i Q és la matriu que té per columnes els vectors \vec v_j, llavors, la matriu de la projecció ortogonal a V és: [\proj_V]=Q Q^T.
Prova. Com que [\vec v_1, \dots, \vec v_k] és una base ortonormal de V, la projecció ortogonal a V del vector \vec u és: \proj_V(\vec u)=(\vec u\cdot \vec v_1)\vec v_1 + \cdots + (\vec u\cdot \vec v_k)\vec v_k = Q \begin{pmatrix} \vec u\cdot \vec v_1 \\ \vdots \\ \vec u\cdot \vec v_k \end{pmatrix}= Q \begin{pmatrix} \vec v_1^T \vec u \\ \vdots \\ \vec v_k^T \vec u \end{pmatrix} = Q \begin{pmatrix} \vec v_1^T \\ \vdots \\ \vec v_k^T \end{pmatrix} \vec u =(QQ^T)\vec u I per tant la matriu associada a la projecció és QQ^T.
Exemple 4.6 Considerem el vector \smat{x\\y}\neq\smat{0\\0} de \R^2 i calculem la matriu de la projecció a V=\langle \smat{x\\y}\rangle. Una base ortonormal és \vec v_1=\frac{1}{\sqrt{x^2+y^2}}\smat{x\\y} i per tant la matriu és (compareu-ho amb la Proposició 2.3): [\proj_V]=\frac{1}{\sqrt{x^2+y^2}} \begin{pmatrix} x \\ y \end{pmatrix} \frac{1}{\sqrt{x^2+y^2}} \begin{pmatrix} x & y \end{pmatrix} = \frac{1}{x^2+y^2} \begin{pmatrix} x^2 & xy \\ xy & y^2 \end{pmatrix} .
Exemple 4.7 Volem calcular la matriu de la projecció ortogonal de \R^4 a V=\langle \smat{1\\-1\\-1\\1}, \smat{0\\1\\1\\0}\rangle \subset \R^4. A l’Exemple 4.2 ja hem calcular una base ortonormal, i era \calc=[\smat{1/2\\-1/2\\-1/2\\1/2},\smat{1/2\\1/2\\1/2\\1/2}], per tant la matriu corresponent a la projecció ortogonal és: \begin{pmatrix} 1/2 & 1/2 \\ -1/2 & 1/2 \\ -1/2 & 1/2 \\ 1/2 & 1/2 \end{pmatrix} \begin{pmatrix} 1/2 & -1/2 & -1/2 & 1/2 \\ 1/2 & 1/2 & 1/2 & 1/2 \end{pmatrix} \begin{pmatrix} 1/2 & 0 & 0 & 1/2 \\ 0 & 1/2 & 1/2 & 0 \\ 0 & 1/2 & 1/2 & 0 \\ 1/2 & 0 & 0 & 1/2 \end{pmatrix}.
4.6 Mínims quadrats
En aquesta secció suposarem que tenim un subespai V\subset\R^n fixat. A cada element d’\R^n, volem assignar-li un element de V que “millor l’aproxima”, en el sentit que la norma de l’error que produïm és mínima.
Proposició 4.3 Si V \subset \R^n és un subespai, llavors, per a tot \vec w \in \R^n i \vec v\in V es compleix: \|\vec w - \vec v\| \geq \|\vec w - \proj_V(\vec w)\|.
Prova. Tenim que \vec w - \vec v = (\vec w - \proj_V(w)) + (\proj_V(w) - \vec v) amb el primer vector de \vec V^\perp i el segon de V. Aplicant el Teorema de Pitàgores tenim: \|\vec w - \vec v\|^2= \|\vec w - \proj_V(\vec w)\|^2 + \|\proj_V(\vec w) - \vec v\|^2 \geq \|\vec w - \proj_V(\vec w)\|^2 , i tenim la desigualtat que volem.
Per tant la millor aproximació d’un vector \vec w és la projecció ortogonal de \vec w, si entenem per “millor” aquell vector de V que està a menor distància del vector \vec w.
4.6.1 Recta de regressió
Suposem que tenim un núvol de punts (x_1,y_1), \dots , (x_k,y_k) de \R^2 que, en principi, no estan alineats. Suposem, a més, que hi ha una dependència del tipus y=f(x) (per tant, al núvol de punts seria un problema que hi hagués dos punts amb la mateixa x i diferents y). Suposem que els punts estan aproximadament alineats i que el que volem trobar és la recta y=a_0+a_1x que aproxima millor aquests punts.
Una altra manera de pensar-ho és que volem resoldre el sistema d’equacions amb incògnites a_0 i a_1: \begin{align*} a_ 0 + x_1 a_1 & = y_1 \\ & \vdots \\ a_0 + x_k a_1 & = y_k \end{align*} O, en forma matricial: \begin{pmatrix} 1 & x_1 \\ \vdots & \vdots \\ 1 & x_k \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix} = \begin{pmatrix} y_1 \\ \vdots \\ y_k \end{pmatrix} Com que molt probablement els punts no estan alineats, com a sistema d’equacions, és un sistema incompatible. Dit d’una altra manera, el vector \vec y=\smat{y_1 \\ \vdots \\ y_k} no pertany al subespai V=\langle \smat{1 \\ \vdots \\ 1} , \smat{x_1 \\ \vdots \\ x_k} \rangle. Si apliquem la Proposició 4.3, el vector de V que serà més proper a \vec y serà \proj_V(\vec y): \proj_V(\begin{pmatrix} y_1 \\ \vdots \\ y_k \end{pmatrix})= a_0 \begin{pmatrix} 1 \\ \vdots \\ 1 \end{pmatrix} + a_1 \begin{pmatrix} x_1 \\ \vdots \\ x_k \end{pmatrix}= \begin{pmatrix} 1 & x_1 \\ \vdots & \vdots \\ 1 & x_k \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix} . Podríem calcular a_0 i a_1 fent primer Gram-Schmidt per a trobar una base ortonormal de V i fent els productes escalars corresponents, o bé fent les consideracions següents: el vector \begin{pmatrix} y_1 \\ \vdots \\ y_k \end{pmatrix} - \begin{pmatrix} 1 & x_1 \\ \vdots & \vdots \\ 1 & x_k \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix} és perpendicular a V, per tant ha de complir que: \begin{pmatrix} 1 & \cdots & 1 & \\ x_1 & \cdots & x_k \end{pmatrix} \left( \begin{pmatrix} y_1 \\ \vdots \\ y_k \end{pmatrix} - \begin{pmatrix} 1 & x_1 \\ \vdots & \vdots \\ 1 & x_k \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix}\right) = \begin{pmatrix} 0 \\ 0 \end{pmatrix} I per tant: \begin{pmatrix} 1 & \cdots & 1 & \\ x_1 & \cdots & x_k \end{pmatrix} \begin{pmatrix} 1 & x_1 \\ \vdots & \vdots \\ 1 & x_k \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix} = \begin{pmatrix} 1 & \dots & 1 & \\ x_1 & \dots & x_k \end{pmatrix} \begin{pmatrix} y_1 \\ \vdots \\ y_k \end{pmatrix} I queda el sistema compatible determinat: \begin{pmatrix} k & \sum x_i \\ \sum x_i & \sum x_i^2 \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix} = \begin{pmatrix} \sum y_i \\ \sum x_iy_i \end{pmatrix} Que es pot escriure: si \overline x = \frac{1}{k} \sum x_i, \overline y=\frac{1}{k} \sum y_i, \overline {x^2}= \frac{1}{k} \sum x_i^2 i \overline {xy}= \frac{1}{k} \sum x_iy_i: \begin{pmatrix} 1 & \overline x \\ \overline x & \overline{x^2} \end{pmatrix} \begin{pmatrix} a_0 \\ a_1 \end{pmatrix} = \begin{pmatrix} \overline y \\ \overline{xy} \end{pmatrix} I la solució es pot escriure com: \begin{align*} (\#eq:recta-reg) a_1=\frac{\overline{xy} - \overline x \, \overline y}{\overline{x^2} - (\overline x)^2} \text{ i } a_0= \overline y - a_1 \overline x . \end{align*}
Exemple 4.8 Considerem les notes següents d’un grup de 21 alumnes corresponent a una avaluació parcial i la nota final que van treure: \begin{array}{|c|c||c|c||c|c|} \hline\text{Parcial} & \text{Final} & \text{Parcial} & \text{Final} & \text{Parcial} & \text{Final} \\ \hline 8.15 & 8.995 & 6.25 & 7.845 & 2.2 & 4.58 \\ 0.3 & 1.98 & 5.85 & 7.075 & 4.6 &4.95 \\ 4.3&5.01 & 3.55 & 5.715 & 4.7 & 7.08\\ 1.8&2.88 & 1.7 & 2.82 & 2.3 & 3.86\\ 5.4&5.08 & 4.6 & 7.13 & 2.7 &5.33 \\ 0.2 &2.78 & 7.7 & 8.8 & 7.95 &8.595\\ 5.4 & 7.77 & 3.15 &1.245 & 3 &4.95\\ \hline \end{array} I volem aproximar la nota final a partir de la del parcial amb una recta: \text{final}= a_0 + a_1 \text{parcial} Per tant, podem aplicar la Fórmula (??) als valors (aproximem a 3 decimals): \overline{x}=\overline{\text{parcial}}= 4.085, \quad \overline{y}=\overline{\text{final}}= 5.451, \quad \overline{x^2}=21,839 \text{ i } \overline{xy}= 26,816. I queda (amb 3 decimals): \text{final}= 1.843 + 0.883 \text{parcial}. La Figura 1 té una representació gràfica d’aquestes dades i de la recta de regressió. A més, l’equació de la recta es pot utilitzar per aproximar una nota final a partir d’una parcial: per exemple, un alumne que hagi tret un 4 al parcial, la predicció diria que trauria un 5,376 a la nota final.
4.6.2 Cas general
En el cas general, suposem que tenim un sistema d’equacions lineals: A x = b amb A\in M_{m\times n}(\R) amb m\geq n (més equacions que incògnites) i tal que \Rang(A)=n. És molt probable que aquest sistema no tingui solució, i per aquests casos ens interessa tenir la millor aproximació:
Lema 4.3 Amb les hipòtesis anteriors, el sistema A^T A x = A^T b té solució única. Aquesta solució s’anomena solució per mínim quadrats del sistema Ax=b.
Prova. Observem que A^TA \in M_{n\times n}(\R), pel que tant sols cal veure que \Rang(A^T A)=n (i llavors serà un sistema compatible determinat), o el que és el mateix, que l’aplicació lineal f_{A^TA} és injectiva (llavors el sistema homogeni que té per matriu associada A^TA serà compatible determinat i per tant \Rang(A^T A)=n).
Ara bé, si \vec u \in \R^n compleix A^TA\vec u = \vec 0, tenim que el vector \vec v=A\vec u pertany a \ker A^T=(\Ima A)^\perp i també a \Ima A. Com que (\Ima A)\cap (\Ima A)^\perp=\{\vec 0\}, deduïm que \vec v = \vec 0. Aplicant ara que \Rang(A)=n, tenim que \vec u=\vec 0 i per tant \Rang(A^TA)=n.
Lema 4.4 Continuem amb les hipòtesis anteriors. De tots els vectors \vec v \in \R^n, la solució per mínims quadrats del sistema Ax=b és la que és més propera a b en el sentit següent: si x^* és la solució del sistema A^TAx^*=A^Tb i \vec v\in \R^n, llavors \|Ax^* - b\|^2 \leq \|A\vec v- b\|^2.
Prova. Es dedueix del fet que la solució per mínims quadrats sigui la projecció ortogonal de b a l’espai generat per les columnes d’A, que, com que el rang d’A és n, queda caracteritzada per complir: A^T(Ax-b)=\vec 0 .
D’aquí també es dedueix que la projecció del vector b a V, el subespai generat per les columnes d’A és, en la base de V formada per les columnes d’A és: x=(A^TA)^{-1}A^Tb Per tant, el vector d’\R^n és: Ax=A(A^TA)^{-1}A^Tb I per tant:
Proposició 4.4 Si V\subset \R^n és un subespai vectorial i [\vec v_1, \dots , \vec v_k] és una base de V, la projecció de \R^n a V ve donada per la matriu: [\proj_V]=A(A^TA)^{-1}A^T on A és la matriu que té per columnes els vectors \vec v_j.
Exemple 4.9 Suposem que tenim un grup de 24 estudiants als que s’ha fet una avaluació parcial i un lliurament a mig semestre amb les notes següents. La tercera columna diu quina ha sigut la nota final de l’assignatura (amb més avaluacions entremig): \begin{array}{|c|c|c||c|c|c|} \hline \text{Lliurament} & \text{Parcial} & \text{Final} & \text{Lliurament} & \text{Parcial} & \text{Final}\\ \hline 9.25 & 9.75 & 8.25 & 9.5 & 5.2 & 7.27 \\ 9.5 & 2.4 & 3.66 & 9 & 7.1 & 8.32 \\ 8 & 1.6 & 5.65 & 8 & 4 & 7.61 \\ 8 & 7.1 & 6.71 & 8.5 & 3.4 & 6.77 \\ 8.5 & 5.7 & 7.77 & 8 & 6 & 7.74 \\ 6 & 2.9 & 6.5 & 10 & 5.9 & 8.37 \\ 9 & 9 & 8.13 & 10 & 2.6 & 8.13 \\ 8 & 7.6 & 7.15 & 7.5 & 1.6 & 5.21 \\ 9 & 6.2 & 6.8 & 10 & 9 & 8.52 \\ 10 & 10 & 9.07 & 9 & 8 & 7.76 \\ 9 & 6.5 & 7.43 & 9.75 & 10 & 8.71 \\ 8.5 & 4 & 6.39 & 9.5 & 7.4 & 8.57 \\ \hline \end{array} Volem aproximar la nota final a partir de les dues que se saben a mig semestre mitjançant una formula: \text{final} = a \times \text{Lliurament} + b \times \text{Parcial} + c I per tant, fem mínim quadrats per trobar a,b i c. En aquest cas, el sistema que té moltes més equacions que incògnites seria: \begin{pmatrix} 9.25 & 9.75 & 1 \\ 9.5 & 2.4 & 1 \\ 8 & 1.6 & 1 \\ \vdots & \vdots & \vdots \\ 9.5 & 7.4 & 1 \end{pmatrix} \begin{pmatrix} a \\ b \\ c \end{pmatrix}= \begin{pmatrix} 8.25 \\ 3.66 \\ 5.65 \\ \vdots \\ 8.57 \end{pmatrix} I per tant hem de resoldre el sistema compatible determinat: \begin{pmatrix} 9.25 & 9.5 & 8 & \cdots & 9.5 \\ 9.75 & 2.4 & 1.6 & \cdots & 7.4 \\ 1 & 1 & 1 & \cdots & 1 \end{pmatrix} \begin{pmatrix} 9.25 & 9.75 & 1 \\ 9.5 & 2.4 & 1 \\ 8 & 1.6 & 1 \\ \vdots & \vdots & \vdots \\ 9.5 & 7.4 & 1 \end{pmatrix} \begin{pmatrix} a \\ b \\ c \end{pmatrix}= \begin{pmatrix} 9.25 & 9.5 & 8 & \cdots & 9.5 \\ 9.75 & 2.4 & 1.6 & \cdots & 7.4 \\ 1 & 1 & 1 & \cdots & 1 \end{pmatrix} \begin{pmatrix} 8.25 \\ 3.66 \\ 5.65 \\ \vdots \\ 8.57 \end{pmatrix} Quedant: \left(\begin{array}{ccc} 1885.375 & 1287.5375 & 211.5 \\ 1287.5375 & 1015.0425 & 142.95 \\ 211.5 & 142.95 & 24 \end{array}\right) \begin{pmatrix} a \\ b \\ c \end{pmatrix}= \begin{pmatrix} 1568.205 \\ 1108.1755 \\ 176.49 \end{pmatrix} Que té per solució (amb 3 decimals): \begin{pmatrix} a \\ b \\ c \end{pmatrix}= \begin{pmatrix} 0.191 \\ 0.316 \\ 3.790 \end{pmatrix} Per tant l’aproximació és: \text{final} = 0.191 \times \text{Lliurament} + 0.316 \times \text{Parcial} + 3.79\, . Per exemple, d’un alumne que tregui un 4 al lliurament i un altre 4 al parcial, aquest model prediu que al final trauria un 5.818
4.7 Formes bilineals i productes escalars
Definició 4.5 Donat un espai vectorial E sobre un cos \K, una forma bilineal és una aplicació \phi \colon E \times E \to \K tal que:
\phi(\vec u_1+\vec u_2,v)=\phi(\vec u_1,\vec v)+\phi(\vec u_2,\vec v) per a tots \vec u_1, \vec u_2 i \vec v d’E,
\phi(\lambda \vec u,\vec v)=\lambda \phi(\vec u,\vec v) per a tots \vec u i \vec v d’E i \lambda \in \K,
\phi(\vec u,\vec v_1,\vec v_2)=\phi(\vec u,\vec v_1)+\phi(\vec u,\vec v_2) per a tots \vec u, \vec v_1 i \vec v_2 d’E i
\phi(\vec u,\lambda \vec v)=\lambda \phi(\vec u,\vec v) per a tots \vec u i \vec v d’E i \lambda \in \K.
A més diem que una aplicació bilineal \phi és:
simètrica si \phi(\vec u,\vec v)=\phi(\vec v,\vec u) per a tots \vec u i \vec v d’E,
degenerada si existeix \vec u\neq \vec 0 tal que \phi(\vec u,\vec v)=0 per a tot \vec v d’E, i
definida positiva si \phi(\vec u,\vec u)>0 per a tot \vec u\neq \vec 0.
Definició 4.6 Si E és un \K-espai vectorial de dimensió finita i \calb=[\vec v_1, \ldots, \vec v_n] és una base d’E, i \phi és una aplicació bilineal, la matriu de l’aplicació bilineal en la base \calb és: [\phi]_\calb= \begin{pmatrix} \phi(\vec v_1,\vec v_1) & \phi(\vec v_1,\vec v_2) & \cdots & \phi(\vec v_1,\vec v_n)\\ \phi(\vec v_2,\vec v_1) & \phi(\vec v_2,\vec v_2) & \cdots & \phi(\vec v_2,\vec v_n)\\ \vdots & \vdots & \ddots & \vdots \\ \phi(\vec v_n,\vec v_1) & \phi(\vec v_n,\vec v_2) & \cdots & \phi(\vec v_n,\vec v_n) \end{pmatrix}.
Lema 4.5 Si \phi és una aplicació bilineal definit sobre un \K-espai vectorial E amb base \calb=[\vec v_1, \dots, \vec v_n] i [\phi]_\calb és la matriu de \phi en la base \calb, llavors: si \vec u i \vec w són vectors d’E amb coordenades en la base \calb: [\vec u]_\calb = \begin{pmatrix} \lambda_1 \\ \vdots \\ \lambda_n \end{pmatrix} \text{ i } [\vec w]_\calb = \begin{pmatrix} \mu_1 \\ \vdots \\ \mu_n \end{pmatrix}. llavors: \phi(\vec u,\vec w)=\sum_{i=1}^n \sum_{j=1}^n \lambda_i\mu_j\phi(\vec v_i,\vec v_j) =[\vec u]_\calb^T \, [\phi]_\calb \, [\vec w]_\calb .
Prova. La primera igualtat és per bilinealitat, i és igual a l’última expressió, que està escrita en forma matricial.
Lema 4.6 Si tenim \calb=[\vec v_1, \ldots, \vec v_n] i \calc=[\vec u_1,\ldots, \vec u_n] bases de \K^n, [\Id_n]_{\calc,\calb} la matriu del canvi de base (la que té per columnes les coordenades dels vectors \vec u_j en la base \calb), i \phi una aplicació bilineal, hi ha la relació següent entre les matrius de l’aplicació bilineal en cada base: [\phi]_\calc=[\Id_n]_{\calc,\calb}^T \, [\phi]_\calb \, [\Id_n]_{\calc,\calb}
Prova. Les matrius de [\phi]_\calb i [\phi]_\calc han de complir que, per a tot \vec u i \vec v de \K^n es compleixi: \begin{align*} \tag{4.1} [\vec u]_\calc^T \, [\phi]_\calc \, [\vec v]_\calc = \phi(\vec u, \vec v)= [\vec u]_\calb^T\, [\phi]_\calb\, [\vec v]_\calb . \end{align*} Però, per les propietats de la matriu [\Id]_{\calc,\calb} tenim: [\vec u]_\calb=[\Id]_{\calc,\calb} [\vec u]_\calc , i si ho substituïm a l’Equació (4.1), tenim, que per a tot \vec u i \vec v de \K^n: [\vec u]_\calc^T \, [\phi]_\calc \, [\vec v]_\calc = ([\Id]_{\calc,\calb} [\vec u]_\calc)^T \, [\phi]_\calb \, ([\Id]_{\calc,\calb} [\vec v]_\calc) = [\vec u]_\calc^T \, ([\Id]_{\calc,\calb}^T [\phi]_\calb [\Id]_{\calc,\calb}) \, [\vec v]_\calc , pel que tenim la igualtat de matrius que volem.
Exemple 4.10 Considerem la forma bilineal simètrica \phi\colon \R^2 \times \R^2 \to \R donada per la matriu (en la base estàndard \calb=[\vec e_1,\vec e_2]) [\phi]=\begin{pmatrix} 0 & 1/2 \\ 1/2 & 0 \end{pmatrix}, i volem calcular la matriu de \phi en la base \calc=[\smat{1\\1},\smat{1\\-1}]. Llavors hem de calcular: [\Id]_{\calc,\calb}=\begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix} I per tant la matriu [\phi]_\calc = \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix}^T \begin{pmatrix} 0 & 1/2 \\ 1/2 & 0 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix}= \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}. Per tant, les matrius \smat{0 & 1/2 \\ 1/2 & 0} i \smat{1 & 0 \\ 0 & -1} representen la mateixa forma bilineal en bases diferents.
Mirem ara un cas particular de forma bilineal:
Definició 4.7 Un producte escalar sobre un \R-espai vectorial E és una forma bilineal simètrica definida positiva. En general, escriurem el resultat amb un punt: \vec u \cdot \vec v.
Si \calb és una base finita d’un espai vectorial E i \cdot és un producte escalar, la matriu [\cdot]_\calb serà simètrica.
Exemple 4.11 Si considerem \R^n i \calb=[\vec e_1, \ldots, \vec e_n] la base estàndard, el producte escalar definit com \vec u \cdot \vec v=\vec u^T \vec v és un producte escalar amb matriu la matriu identitat \1_n.
Exemple 4.12 Si E=C^\infty(\R) definim el producte escalar: f\cdot g = \int_{-1}^1 f(x)g(x)\mathrm{d}x . Com que a C^\infty(\R) no hi ha una base finita, no té sentit parlar de la matriu del producte escalar.
Exemple 4.13 Considerem els nombres complexos \C amb les operacions de l’Apèndix 2.1.
Considerem ara \C^n com a \C-espai vectorial de dimensió n (suma coordenada a coordenada i multiplicació per un escalar a totes les coordenades). Definim la forma bilineal següent: \text{si } \vec v=\begin{pmatrix} v_1 \\ \vdots \\ v_n \end{pmatrix} \text{ i } \vec w=\begin{pmatrix} w_1 \\ \vdots \\ w_n \end{pmatrix} \text{ llavors } \vec v\cdot \vec w= \sum_{i=1}^n v_i\overline{w}_i=\vec v^T \overline{\vec w} \text{ on } \overline{\vec w}=\begin{pmatrix} \overline w_1 \\ \vdots \\ \overline w_n \end{pmatrix}. Que compleix, a més de les propietats de ser forma bilineal:
\vec v\cdot \vec w=\overline{\vec w\cdot \vec v} per a tot \vec v,\vec w\in \C^n (diem que és hermítica) i
\vec v\cdot \vec v=\|\vec v\|^2\in \R per a tot \vec v\in\C^n.
4.8 Tota matriu simètrica sobre \mathbb{R} diagonalitza
El resultat que volem demostrar a aquest apartat és:
Teorema 4.6 Una matriu A\in M_n(\R) diagonalitza en una base ortonormal si, i només si, A és simètrica.
Per demostrar el teorema espectral necessitem utilitzar el Teorema fonamental de l’àlgebra, que no demostrem aquí perquè la seva demostració surt dels objectius del curs:
Teorema 4.7 Si p(x)\in\C[x] (p(x) és un polinomi amb coeficients a \C) de grau \geq 1, existeix z\in \C tal que p(z)=0.
Prova. Demostració del teorema espectral. Una implicació és directa: si A diagonalitza en una base ortonormal vol dir que podem escriure: A=Q D Q^T amb D una matriu diagonal i Q una matriu ortogonal (Q^{-1}=Q^T). Per tant: A^T=(QDQ^T)^T=(Q^T)^T D^T Q^T=Q D^T Q^T=A i A és simètrica.
Per demostrar l’altra implicació, ho farem per inducció sobre n:
Per a n=1, tota matriu és simètrica i diagonal.
Suposem cert per a n-1, i volem demostrar-ho per n: considerem A\in M_n(\R) i p_A(x) el polinomi característic. Pensem p_A(x)\in\C[x] i, pel teorema fonamental de l’àlgebra, existeix \lambda \in \C tal que p_A(\lambda)=0. També tindrem un vector propi \vec v\in \C^n tal que A \vec v=\lambda \vec v.
Considerem ara la forma bilineal hermítica definida a l’Exemple 4.13: A\vec v \cdot \vec v = \lambda \vec v \cdot \vec v= \lambda \|\vec v\|^2 \text{ amb $0\neq \|v\|^2\in R$}. Però també: A\vec v \cdot\vec v = (A \vec v)^T \overline{\vec v} = \vec v^T A^T \overline{\vec v} = \vec v^T \overline{(\overline{A^T} \vec v)} = \vec v^T A \overline{\vec v} = \vec v^T (\overline{\lambda \vec v})=\overline{\lambda} \|\vec v\|^2 , on hem utilitzat que A=A^T (A és simètrica) i \overline A=A (A té coeficients reals).
Per tant, tenim que \lambda=\overline{\lambda} i obtenim \lambda \in \R.
Com que p_A(\lambda)=0, tenim que existeix un vector propi real \vec v\neq \vec 0 tal que A\vec v=\lambda \vec v. Podem considerar que \|\vec v\|=1 (si cal, substituïm \vec v per \frac{1}{\|\vec v\|}\vec v).
Ampliem \vec v amb \vec v_2, …, \vec v_n de tal manera que [\vec v,\vec v_2, \ldots ,\vec v_n] sigui una base ortonormal (primer ampliem fins a base, i després apliquem Gram-Schmidt). Si considerem Q la matriu que té per columnes els vectors \vec v, \vec v_2, …, \vec v_n, tenim: QAQ^T=\begin{pmatrix} \lambda & b_{12} & \cdots & b_{1n} \\ 0 & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & b_{n2} & \cdots & b_{nn} \end{pmatrix} on hem utilitzat que Q^{-1}=Q^T. Però com que A=A^T, tenim (QAQ^T)^T=QAQ^T, i per tant b_{12}=b_{13}=\cdots=b_{1n}=0 i la matriu B=\begin{pmatrix} b_{22} & \cdots & b_{2n} \\ \vdots & \ddots & \vdots \\ b_{n2} & \cdots & b_{nn} \end{pmatrix} és simètrica.
Ara restringim l’aplicació f_A a l’espai \langle v_2, \dots , v_n\rangle, que en la base [v_2, \dots , v_n] té per matriu B=\begin{pmatrix} b_{22} & \cdots & b_{2n} \\ \vdots & \ddots & \vdots \\ b_{n2} & \cdots & b_{nn} \end{pmatrix} . Per hipòtesis d’inducció, B diagonaliza en una base ortonormal, pel que existeix P\in M_{n-1}(\R) matriu ortogonal i D\in M_{n-1}(\R) matriu diagonal tals que B=P^TDP. Amb això tenim: QAQ^T=\left(\begin{array}{c|c} \lambda & 0 \\ \hline 0 & P^T D P \end{array}\right)= \left(\begin{array}{c|c} 1 & 0 \\ \hline 0 & P^T \end{array}\right) \left(\begin{array}{c|c} \lambda & 0 \\ \hline 0 & D \end{array}\right) \left(\begin{array}{c|c} 1 & 0 \\ \hline 0 & P \end{array}\right) Per tant, considerem Q'=\left(\begin{array}{c|c} 1 & 0 \\ \hline 0 & P \end{array}\right) Q \text{ i } D'=\left(\begin{array}{c|c} \lambda & 0 \\ \hline 0 & D \end{array}\right) i tenim que Q' és una matriu ortogonal i A=Q'^{-1} D' Q', amb D' una matriu diagonal, pel que A diagonalitza a una base ortonormal.
4.9 Descomposició en valors singulars
A aquest apartat resoldrem la pregunta següent amb les eines que hem vist: si f=f_A\colon \R^n \to \R^m és una aplicació lineal, existeix una base ortonormal \calb=[\vec v_1, \dots, \vec v_n] d’\R^n tal que f(\vec v_1), \dots, f(\vec v_n) siguin ortogonals?
Veurem que sí:
Teorema 4.8 Si f=f_A\colon \R^n \to \R^m és una aplicació lineal, llavors existeix una base ortonormal \calb=[\vec v_1, \dots, \vec v_n] d’\R^n tal que f(\vec v_1), \dots, f(\vec v_n) són ortogonals.
Prova. Considerem f=f_A, i per tant A\in M_{m\times n}(\R) la matriu tal que f(\vec v)=A\vec v. Llavors, la matriu A^TA\in M_n(\R) és simètrica, i per tant diagonalitza en una base ortonormal, per tant, existeix una base ortonormal \calb=[\vec v_1, \dots, \vec v_n] de \R^n i escalars \lambda_1, \dots, \lambda_n\in \R tals que A^T A \vec v_i=\lambda_i \vec v_i \text{ per a tot $i=1, \dots, n$.} Volem veure que f(\vec v_1), \dots, f(\vec v_n) són ortogonals, o sigui, f(\vec v_i)\cdot f(\vec v_j)=0 si i\neq j: \begin{align*} f(\vec v_i)\cdot f(\vec v_j) & =(A\vec v_i)\cdot(A\vec v_j)=(A\vec v_i)^T(A\vec v_j)=(\vec v_i^T A^T)(A \vec v_j)= \\ & = \vec v_i^T (A^T A \vec v_j)=\vec v_i^T (\lambda_j \vec v_j)=\lambda_j (\vec v_i \cdot \vec v_j)=0 . \end{align*}
Observació. El Teorema 4.8 no diu que \calb sigui única, i de fet, en general, no ho és: considereu l’aplicació identitat de \R^n \to \R^n, que envia qualsevol base ortonormal a vectors ortogonals.
La interpretació geomètrica a \R^2 és la següent: la imatge d’una circumferència de radi 1 centrada a l’origen és una el·lipsi, els vectors propis d’A^TA corresponen a les direccions principals de l’el·lipsi, i les longituds dels semieixos principals són les arrels quadrades dels valors propis d’A^TA. Posem nom a aquests valors:
Definició 4.8 Donada una matriu A\in M_{m\times n}(\R), definim els valors singulars d’A com les arrels quadrades dels valors propis de la matriu A^TA: \sigma_1, \dots, \sigma_m positius tals que \sigma_i^2 és valor propi d’A^TA.
Si ordenem els vectors de la base \calb del Teorema 4.8 de tal manera que \|f(\vec v_i)\|\geq \|f(\vec v_{i+1})\|, aleshores \sigma_i=\|f(\vec v_i)\| a l’enunciat del Teorema 4.8.
A partir de cert r tindrem f(\vec v_i)=\vec 0 si i>r (pot ser que r=n). Els vectors \vec w_i=\frac{1}{\|f(\vec v_i)\|} f(\vec v_i) per a 1\leq i \leq r són linealment independents (perquè són ortogonals), i els podem ampliar a una base ortonormal \calc=[\vec w_1, \dots, \vec w_m] d’\R^m, per Gram-Schmidt.
Proposició 4.5 Si f=f_A\colon \R^n \to \R^m és una aplicació lineal i \Rang(A)=r, llavors hi ha r valors singulars diferents de zero i els n-r restants valen zero.
Prova. Tenim que en la base \calb del Teorema 4.8 i \calc la base del paràgraf anterior f_A té per matriu [f_A]_{\calb.\calc}, una matriu amb \sigma_i a la diagonal i zeros a la resta. Llavors, com que el rang és la dimensió de la imatge, el rang de f_A és igual al de [f_A]_{\calb,\calc}, que és el nombre de \sigma_i no nuls, i la resta han de ser zero.
Observació. Amb tot el que hem fet, si considerem A\in M_{m\times n}(\R) una matriu, f_A\colon \R^n\to\R^m l’aplicació lineal induïda, \calb=[\vec v_1, \dots, \vec v_r, \vec v_{r+1}, \dots, \vec v_n] la base de \R^n del Teorema 4.8, i \calc=[\vec w_1, \dots, \vec w_m] la base de \R^m com a la discussió de després del teorema, llavors:
[\vec v_{r+1}, \dots,\vec v_n] és una base ortonormal de \Ker(f_A).
[\vec v_{1}, \dots, \vec v_r] és una base ortonormal de \Ker(f_A)^\bot.
[\vec w_1,\dots,\vec w_r] és una base ortonormal de \Ima(f_A).
[\vec w_{r+1},\dots,\vec w_m] és una base ortonormal de \Ima(f_A)^\bot.
Podem aprofitar aquests raonaments per demostrar:
Teorema 4.9 Si A\in M_{m\times n}(\R), llavors existeixen U \in M_{m}(\R) i V\in M_n(\R) ortogonals, D\in M_{m\times n}(\R) amb els únics elements no nuls a la diagonal i positius ordenats de manera decreixent, tals que A=U D V^T. Aquesta descomposició s’anomena una descomposició en valors singulars d’A.
Prova. Considerem l’aplicació lineal f_A i veiem que necessitem bases ortonormals \calb d’\R^n i \calc d’\R^m tals que D=[f_A]_{\calb,\calc} sigui diagonal.
El Teorema 4.8 ens dóna una base \calb d’\R^n que és ortonormal. Ordenem aquesta base de tal manera que \|f(\vec v_i)\|\geq \|f(\vec v_{i+1})\|. Sigui V^T=V^{-1} la matriu que té per columnes aquesta base, i sigui r tal que f_(\vec v_i)=\vec 0 si i>r (és el rang d’A).
Considerem \calc=[\vec w_1, \dots, \vec w_m] la base de \R^m de que hem considerat després del Teorema 4.8. Sigui U la matriu que té per columnes aquests vectors.
Com que f(\vec v_i)=\|f(\vec v_i)\| \vec w_i si i\leq r i f(\vec v_i)=\vec 0 si i>r, tenim que [f]_{\calb,\calc} és diagonal amb els valors singulars d’A a la diagonal ordenats de més gran a més petit.
Exemple 4.14 Considerem l’aplicació lineal f_A\colon \R^2 \to \R^2 amb: A=\begin{pmatrix} 3 & -9/5 \\ -1 & 13/5 \end{pmatrix} i volem fer-ne una descomposició en valors singulars.
Calculem primer A^TA: A^T A = \begin{pmatrix} 10 & -8 \\ -8 & 10 \end{pmatrix} I la diagonalitzem. El polinomi característic és: p_{A^TA}(x)=x^2 - 20 x + 36 = (x-18)(x-2) Per tant, els valors propis d’A^TA són \lambda_1=18 i \lambda_2=2 i els corresponents vectors propis: \Ker(A^TA-18\1_2)=\langle \begin{pmatrix} 1 \\ -1 \end{pmatrix} \rangle \text{ i } \Ker(A^TA-2\1_2)=\langle \begin{pmatrix} 1 \\ 1 \end{pmatrix} \rangle I com que els hem de considerar unitaris, obtenim: V^T=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix} \text{ i per tant } V=\begin{pmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}.
La matriu diagonal són els valors singulars, que són les arrels quadrades dels valors propis d’A^TA, per tant són \sigma_1=\sqrt{18}=3\sqrt{2} i \sigma_2=\sqrt{2} i tenim: D=\begin{pmatrix} 3\sqrt{2} & 0 \\ 0 & \sqrt{2} \end{pmatrix}.
I la matriu U té per columnes les imatges de \smat{1\\-1} i \smat{1\\1} per f_A dividides per les seves normes, per tant: \begin{pmatrix} 3 & -9/5 \\ -1 & 13/5 \end{pmatrix} \begin{pmatrix} 1 \\ -1 \end{pmatrix}= \begin{pmatrix} 24/5 \\ -18/5 \end{pmatrix}= 6 \begin{pmatrix} 4/5 \\ -3/5 \end{pmatrix} i \begin{pmatrix} 3 & -9/5 \\ -1 & 13/5 \end{pmatrix} \begin{pmatrix} 1 \\ 1 \end{pmatrix}= \begin{pmatrix} 6/5 \\ 8/5 \end{pmatrix}= 2 \begin{pmatrix} 3/5 \\ 4/5 \end{pmatrix} Per tant: U=\begin{pmatrix} 4/5 & 3/5 \\ -3/5 & 4/5 \end{pmatrix} I una descomposició d’A en valors singulars és: \begin{pmatrix} 3 & -9/5 \\ -1 & 13/5 \end{pmatrix} =\begin{pmatrix} 4/5 & 3/5 \\ -3/5 & 4/5 \end{pmatrix} \begin{pmatrix} 3\sqrt{2} & 0 \\ 0 & \sqrt{2} \end{pmatrix} \begin{pmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}. A la Figura 2 podem veure com es modifica la circumferència unitat quan apliquem la matriu A. Veiem que a la direcció \smat{4\\-3} hi ha el primer eix principal amb semilongitud 3\sqrt{2} i a la direcció \smat{3\\4} l’altre eix, amb semilongitud \sqrt{2}.
4.10 Classificació de formes bilineals simètriques sobre \mathbb{R}^n
A aquesta secció l’objectiu és classificar les formes bilineals. Definim abans què vol dir que siguin equivalents:
Definició 4.9 Diem que dues formes bilineals \phi_1,\phi_2\colon \K^n\times\K^n\to \K amb matrius corresponents [\phi_1] i [\phi_2] són equivalents si existeix una base \calc de \K^n tal que [\phi_1]=[\phi_2]_\calc . Dit d’una altra manera, si existeix una matriu invertible \cals\in M_n(\K) (la matriu del canvi de base, que té per columnes els vectors de \calc) tal que [\phi_1]=\cals^T [\phi_2] \cals. Escriurem \phi_1\sim \phi_2.
Lema 4.7 Ser equivalents com a formes bilineals de \K^n\times \K^n a \K és una relació d’equivalència. O sigui:
\phi \sim \phi per a tot \phi forma bilineal (reflexiva),
\phi_1\sim \phi_2 \Leftrightarrow \phi_2 \sim \phi_1 per a totes \phi_1, \phi_2 formes bilineals (simètrica) i
\phi_1\sim \phi_2 i \phi_2\sim \phi_3 implica \phi_1\sim \phi_3 per a totes \phi_1,\phi_2,\phi_3 formes quadràtiques (transitiva).
Prova. Cal veure en cada cas quina és la matriu \cals del canvi de base:
Per veure que \phi\sim \phi, considerem \cals=\1_n,
Si \phi_1\sim \phi_2 tenim que existeix \cals una matriu de canvi de base (i per tant invertible) tal que: [\phi_1]=\cals^T [\phi_2] \cals. Però aquesta igualtat també es pot escriure com: [\phi_2]=(\cals^{-1})^T [\phi_1] \cals^{-1} i per tant \phi_2\sim \phi_1.
Per hipòtesis tenim que existeixen \cals_1 i \cals_2 tals que: [\phi_1]=\cals_1^T [\phi_2] \cals_1 \text{ i } [\phi_2]=\cals_2^T [\phi_3] \cals_2. Llavors: [\phi_1]=\cals_1^T \cals_2^T [\phi_3] \cals_2 \cals_1= (\cals_2 \cals_1)^T [\phi_3] (\cals_2 \cals_1) i tenim \phi_1\sim \phi_3.
A partir d’ara considerem que \K=\R i l’objectiu és classificar les formes bilineals \phi\colon \R^n\times \R^n \to \R:
Teorema 4.10 Tota forma bilineal simètrica \phi\colon \R^n\times \R^n\to \R és equivalent a una forma bilineal que té per matriu una matriu diagonal amb coeficients (a la diagonal): 1 a les r primeres files, -1 a les s següents i 0 a les t últimes (n=r+s+t). O sigui una matriu de la forma: \begin{pmatrix} 1 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ & \ddots & & & \cdots & & & \cdots & \\ 0 & \cdots & 1 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ 0 & \cdots & 0 & -1 & \cdots & 0 & 0 & \cdots & 0 \\ & & & & \ddots & & & \cdots & \\ 0 & \cdots & 0 & 0 & \cdots & -1 & 0 & \cdots & 0 \\ 0 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ & & & & \cdots & & & \ddots & \\ 0 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \end{pmatrix} A més, si definim la parella (r,s) com la signatura de \phi (\sign(\phi)), dues formes bilineals bilineals \phi_1,\phi_2\colon \R^n\times \R^n\to \R són equivalents si i només si \sign(\phi_1)=\sign(\phi_2).
Prova. Considerem [\phi] la matriu simètrica n\times n sobre \R de la forma bilineal \phi. Pel Teorema espectral, existeix una matriu ortogonal Q i una matriu diagonal D amb valors \lambda_1, \dots, \lambda_n tal que: D=Q^T [\phi] Q \,. Ara fem els canvis següents:
Podem reordenar els elements de la diagonal de D reordenant les columnes de Q: si Q' és la matriu que resulta d’intercanviar les columnes j i k de Q, llavors, Q' continua sent ortogonal i el producte: (Q')^T[\phi]Q' també és diagonal, però intercanviant les posicions i i j, o sigui, els valors \lambda_i i \lambda_j.
Aprofitem aquesta propietat per reordenar la diagonal de D i posar primer els \lambda_i>0, llavors els \lambda_i<0 i finalment els \lambda_i=0. Per tant, podem suposar que tenim Q una matriu ortogonal tal que D=Q^T [\phi] Q \,. amb D una matriu diagonal tal que a la diagonal té els r primers coeficients positius, els s següents negatius i els t últims zero.Considerem A la matriu diagonal següent, definida a partir dels coeficients de D: el coeficient a_{ii} es defineix com: a_{ii}=\begin{cases} 1/\sqrt{\lambda_i} & \text{si $1\leq i \leq r$,} \\ 1/\sqrt{-\lambda_i} & \text{si $r < i \leq r+s$,} \\ 1 & \text{si $r+s < i \leq n$.} \end{cases} Tenim que A^TDA és una matriu diagonal amb r uns a les primeres files, s menys uns a les següents i zero a les últimes.
Per tant: [\phi] \sim A^TQ^T [\phi] QA = (QA)^T [\phi] QA i (QA)^T [\phi] QA és diagonal i com diu l’enunciat del teorema.
De moment hem vist que, com que “ser equivalent a té la propietat
transitiva, si \phi_1 i \phi_2 tenen la mateixa signatura, les dues
són equivalents a una mateixa forma bilineal i per tant
\phi_1\sim \phi_2.
Cal veure el recíproc, o el que és equivalent, que dues matrius
diagonals equivalents D i D' amb (r,s,t) i (r',s',t')
coeficients 1, -1 i 0 respectivament, llavors
(r,s,t)=(r',s',t').
Observem que n’hi ha prou amb veure que r\leq r'. Efectivament,
intercanviant els rols de D i D', conclourem que r=r'. Com que
t=\dim\ker(D)=\dim\ker(D')=t' i r+s+t=n=r+s+t', en deduïm les
igualtats s=s' i t=t'.
Per veure que r\leq r', considerem bases ortonormals \mathcal{B}=(u_1,\ldots, u_n) i \mathcal{B'}=(u'_1,\ldots,u'_n) d’\R^n, respecte les quals la forma \phi és, respectivament, D i D'. Considerem els subespais V i V' donats per V = \langle u_1,\ldots, u_r\rangle,\quad V'=\rangle u'_1,\ldots, u'_{r'}\rangle, i construirem una aplicació lineal injectiva V\to V'. Sigui g \colon \R^n\to V' la projecció ortogonal al subespai V', i sigui f \colon V \to V' la restricció de g a V. Vegem doncs que f és injectiva. Sigui v\in\ker f. D’una banda, com que v\in V i \phi|_V té matriu identitat, tenim \phi(v,v) \geq 0 amb igualtat si i només si v=0. Però com que v\in \ker f \subseteq \langle u'_{r'+1},\ldots u'_n\rangle, tenim \phi(v,v)\leq 0, ja que la restricció de \phi a aquest subespai té matriu semidefinida negativa. Concloem que \varphi(v,v)=0 i per tant v=0, com volíem veure.
Exemple 4.15 Considerem la forma bilineal \phi\colon \R^4\times\R^4\to\R donada per la matriu: [\phi]=\left(\begin{array}{rrrr} 1 & 5 & -1 & 3 \\ 5 & 1 & 3 & -1 \\ -1 & 3 & 1 & 5 \\ 3 & -1 & 5 & 1 \end{array}\right). Una manera de classificar-la és de calcular el polinomi característic i estudiar el signe dels valors on s’anul·la: p_{[\phi]}(x)=\det(A-x\1_4)=x^{4} - 4 x^{3} - 64 x^{2} + 256 x . I p_{[\phi]}(x) s’anul·la als valors \{-8,0,4,8\}, per tant té signatura (2,1) i és equivalent a la forma bilineal que té per matriu: \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & -1 & 0 \\ 0 & 0 & 0 & 0 \end{pmatrix} .
Acabem aquesta secció aprofitant aquesta classificació per fer la corresponent de les formes quadràtiques.
Definició 4.10 Una forma quadràtica sobre un cos \K és una aplicació q\colon \K^n\to \K que es pot expressar com: q(x_1, \dots , x_n)=\sum_{1\leq i , j \leq n} \lambda_{ij}x_i x_j amb \lambda_{ij}\in \K.
També es pot escriure com: q(x_1, \dots , x_n)= \vec x^T A \vec x , on \vec x=\smat{x_1 \\ \vdots \\ x_n} i A és la matriu (simètrica) que té per coeficients a_{ij}=\begin{cases} \lambda_{ii} & \text{si $i=j$,} \\ \frac{\lambda_{ij}+\lambda_{ji}}{2} & \text{si $i\neq j$.}\end{cases}
Observació. Amb el que hem vist, tenim una bijecció entre les matrius simètriques (que es poden pensar com formes bilineals en una base donada) i les formes quadràtiques. Escriurem [q] per denotar la matriu simètrica corresponent a la forma quadràtica q.
Exemple 4.16 La forma quadràtica q\colon \R^2 \to \R definida per q(x_1,x_2)=ax_1^2+bx_1x_2+cx_2^2 correspon a la matriu simètrica \begin{pmatrix} a & b/2 \\ b/2 & c \end{pmatrix} . Podem recuperar la forma quadràtica fent: q(x_1,x_2)=\begin{pmatrix} x_1 & x_2 \end{pmatrix}\begin{pmatrix} a & b/2 \\ b/2 & c \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}=ax_1^2 + bx_1x_2+cx_2^2 .
Exemple 4.17 Considerem les formes quadràtiques q_1 i q_2 de \R^2 a \R definides com q_1(x_1,x_2)=x_1x_2 i q_2(y_1,y_2)=y_1^2-y_2^2. Observem que si fem el canvi de base: \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} = \begin{pmatrix} 1/2 & 1/2 \\ 1/2 & -1/2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} es poden escriure: y_1=\frac12x_1+\frac12x_2 \text{ i } y_2=\frac12x_1-\frac12x_2 i tenim q_2(y_1,y_2)=(\frac12x_1+\frac12x_2)^2 - (\frac12x_1-\frac12x_2)^2=x_1x_2 . Per tant, tenen la mateixa forma. Aquesta igualtat també es pot veure en forma matricial observant que si \cals és la matriu del canvi de base, tenim [q_1]=\cals^T [q_2] \cals, on [q_1] i [q_2] són les matrius simètriques corresponents a les formes bilineals q_1 i q_2 respectivament: \begin{pmatrix} 0 & 1/2 \\ 1/2 & 0 \end{pmatrix}= \begin{pmatrix} 1/2 & 1/2 \\ 1/2 & -1/2 \end{pmatrix}^T \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} \begin{pmatrix} 1/2 & 1/2 \\ 1/2 & -1/2 \end{pmatrix}
Definició 4.11 Diem que dues formes quadràtiques q_1,q_2\colon \K^n\to \K són equivalents, amb matrius si existeix un canvi de base \cals a \K^n tal que [q_1]=\cals^T [q_2] \cals. Escriurem q_1\sim q_2.
Com que els canvis de base afecten de la mateixa manera que afectaven a les formes bilineals (veure Lema 4.6), obtenim que “ser equivalent a” també es una relació d’equivalència a les formes quadràtiques i l’anàleg al Teorema 4.10:
Teorema 4.11 Tota forma quadràtica q\colon \R^n\to \R és equivalent a una forma bilineal del tipus: q_1(x_1,\dots, x_n)=x_1^2+ \cdots + x_r^2 - x_{r+1}^2-\cdots -x_{r+s}^2 . A més, si definim la parella (r,s) com la signatura de q (\sign(q)), dues formes quadràtiques q_1,q_2\colon \R^n\to \R són equivalents si i només si \sign(q_1)=\sign(q_2).
Exemple 4.18 Classifiquem la forma quadràtica q\colon \R^4 \to \R: q(x_1,x_2,x_3,x_4)=x_1^2+10 x_1x_2 -2 x_1x_3+6x_1x_4 + x_2^2 -6x_2x_3-2x_2x_4+x_3^3+10x_3x_4-x_4^2. Que té per matriu: \left(\begin{array}{rrrr} 1 & 5 & -1 & 3 \\ 5 & 1 & 3 & -1 \\ -1 & 3 & 1 & 5 \\ 3 & -1 & 5 & 1 \end{array}\right) Per tant, podem aprofitar els càlculs de l’Exemple 4.15, i tenim que és equivalent a: q(y_1,y_2,y_3,y_4)=y_1^2+y_2^2-y_3^2.
4.11 Exercicis recomanats
Els exercicis que segueixen són útils per practicar el material presentat. La numeració és la de [1].
- Secció 5.1:
-
12, 16, 18.
- Secció 5.2:
-
14, 34, 38.
- Secció 5.3:
-
5-11, 13-20, 32.
- Secció 5.4:
-
2, 8, 10.
- Secció 5.5:
-
4, 10, 16, 22.
- Secció 8.1:
-
6, 12, 16, 22.
- Secció 8.2:
-
4, 10, 18, 22.
- Secció 8.3:
-
6, 16, 18, 20.