1 Il polinomio minimo di una matrice

Indichiamo con $M_{n}(K)$ l’anello delle matrici quadrate di ordine $n$ a elementi nel campo $K$ . Data una matrice $A\in M_{n}(K)$ consideriamo l’omomorfismo di anelli

v_{A}\colon K[x]\to M_{n}(K)

definito dalla valutazione di un polinomio $q(x)$ in $A$ : $v_{A}(q)=q(A)$ . Il nucleo di questo omomorfismo

{\rm Ker}(v_{A})=\{q(x)\in K[x]\,:\,q(A)=0\}

è un ideale di $K[x]$ . Ricordiamo che il teorema di Hamilton–Cayley afferma che il polinomio caratteristico $p_{A}(x)$ della matrice $A$ si annulla quando viene valutato in $A$ , cioè $p_{A}(x)\in{\rm Ker}(v_{A})$ .

Dato che $K$ è un campo, l’anello $K[x]$ è un dominio di integrità a ideali principali, pertanto l’ideale ${\rm Ker}(v_{A})$ è generato da un polinomio $m_{A}(x)$ , che possiamo supporre monico.

Definizione. Il polinomio $m_{A}(x)$ appena definito è detto il polinomio minimo di $A$ . Esso è il polinomio monico di grado minimo che si annulla quando viene valutato in $A$ .

Osservazione. Dato che il polinomio caratteristico $p_{A}(x)$ appartiene all’ideale ${\rm Ker}(v_{A})$ , dalla definizione di $m_{A}(x)$ segue che il polinomio minimo $m_{A}(x)$ divide il polinomio caratteristico $p_{A}(x)$ .

Come ora vedremo, il polinomio caratteristico e il polinomio minimo di una matrice $A$ hanno gli stessi zeri, che sono gli autovalori di $A$ .

Teorema. Sia $A\in M_{n}(K)$ . Si ha $p_{A}(\lambda)=0$ se e solo se $m_{A}(\lambda)=0$ .

Dimostrazione. Dato che il polinomio minimo $m_{A}(x)$ divide il polinomio caratteristico $p_{A}(x)$ , cioè $p_{A}(x)=m_{A}(x)q(x)$ , se $\lambda\in K$ è tale che $m_{A}(\lambda)=0$ si ha anche $p_{A}(\lambda)=0$ , cioè gli zeri del polinomio minimo sono anche zeri del polinomio caratteristico. Rimane quindi da dimostrare il viceversa.

Sia $\lambda\in K$ tale che $p_{A}(\lambda)=0$ , cioè $\lambda$ è un autovalore di $A$ . Sia $\bar{K}$ un campo algebricamente chiuso che contiene $K$ . In $\bar{K}$ i polinomi minimo e caratteristico si fattorizzano nel prodotto di fattori lineari:

m_{A}(x)=\prod_{j=1}^{r}(x-\mu_{j}),\qquad p_{A}(x)=\prod_{i=1}^{n}(x-\lambda_% {i}),

ove $\lambda_{i}$ sono gli autovalori di $A$ . Sia $v\neq 0$ un autovettore associato all’autovalore $\lambda$ (quindi si ha $Av=\lambda v$ ).

Sappiamo che il polinomio minimo si annulla quando viene valutato nella matrice $A$ , cioè

m_{A}(A)=\prod_{j=1}^{r}(A-\mu_{j}I)=0,

quindi si ha

\prod_{j=1}^{r}(A-\mu_{j}I)v=(A-\mu_{1}I)(A-\mu_{2}I)\cdots(A-\mu_{r}I)v=0.

Osserviamo che $(A-\mu_{r}I)v=Av-\mu_{r}v=\lambda v-\mu_{r}v=(\lambda-\mu_{r})v$ , quindi sostituendo nella formula precedente si ottiene

(\lambda-\mu_{r})(A-\mu_{1}I)(A-\mu_{2}I)\cdots(A-\mu_{r-1}I)v=0.

Ripetendo lo stesso ragionamento si ha $(A-\mu_{r-1}I)v=(\lambda-\mu_{r-1})v$ e sostituendo nella formula precedente si ottiene

(\lambda-\mu_{r})(\lambda-\mu_{r-1})(A-\mu_{1}I)(A-\mu_{2}I)\cdots(A-\mu_{r-2}% I)v=0.

Continuando in questo modo, alla fine si ottiene

(\lambda-\mu_{r})(\lambda-\mu_{r-1})\cdots(\lambda-\mu_{2})(\lambda-\mu_{1})v=0.

Dato che $v\neq 0$ , si deve annullare uno dei fattori $(\lambda-\mu_{i})$ , quindi $\lambda$ deve essere uguale a uno dei $\mu_{i}$ , il che significa che $\lambda$ è uno zero del polinomio minimo $m_{A}(x)$ .

Teorema di decomposizione. Sia $f\colon V\to V$ una funzione lineare e sia $F(x)\in K[x]$ un polinomio tale che $F(f)=0$ (ad esempio, $F$ può essere il polinomio caratteristico $p_{f}(x)$ o il polinomio minimo $m_{f}(x)$ ). Supponiamo che $F$ si fattorizzi nel prodotto $F=F_{1}\cdot F_{2}\cdots F_{r}$ di polinomi $F_{i}(x)\in K[x]$ non costanti e a due a due coprimi. Poniamo $V_{i}={\rm Ker}F_{i}(f)$ . Allora i sottospazi vettoriali $V_{i}$ sono in somma diretta tra loro e la loro somma è uguale a tutto lo spazio vettoriale $V$

V=V_{1}\oplus V_{2}\oplus\cdots\oplus V_{r}.

Inoltre i sottospazi $V_{i}$ sono stabili per la funzione $f$ , cioè $f(V_{i})\subseteq V_{i}$ .

Dimostrazione. Dimostreremo questo risultato per induzione sul numero $r$ di fattori in cui si fattorizza il polinomio $F(x)$ . Se $r=1$ si ha $F=F_{1}$ e dato che $F(f)=0$ si ha $V_{1}={\rm Ker}F_{1}(f)=V$ . Quindi in questo caso non c’è nulla da dimostrare.

Consideriamo ora il caso $r=2$ , cioè $F=F_{1}\cdot F_{2}$ con $F_{1}$ e $F_{2}$ coprimi. Da ciò segue che esistono due polinomi $G_{1},G_{2}\in K[x]$ tali che $G_{1}(x)F_{1}(x)+G_{2}(x)F_{2}(x)=1$ . Poniamo $V_{1}={\rm Ker}F_{1}(f)$ e $V_{2}={\rm Ker}F_{2}(f)$ . Dobbiamo dimostrare che $V_{1}\cap V_{2}=\{0\}$ , $V_{1}+V_{2}=V$ , $f(V_{1})\subseteq V_{1}$ e $f(V_{2})\subseteq V_{2}$ . Iniziamo col dimostrare che $V_{1}\cap V_{2}=\{0\}$ .

Sia $v\in V_{1}\cap V_{2}$ . Dato che $G_{1}(x)F_{1}(x)+G_{2}(x)F_{2}(x)=1$ , si ha $G_{1}(f)F_{1}(f)+G_{2}(f)F_{2}(f)=1$ , quindi

(G_{1}(f)F_{1}(f)+G_{2}(f)F_{2}(f))v=G_{1}(f)F_{1}(f)v+G_{2}(f)F_{2}(f)v=v.

Osserviamo che $F_{1}(f)v=0$ perché $v\in V_{1}={\rm Ker}F_{1}(f)$ e $F_{2}(f)v=0$ perché $v\in V_{2}={\rm Ker}F_{2}(f)$ , quindi dalla formula precedente si ottiene $0=v$ . Questo dimostra che $V_{1}\cap V_{2}=\{0\}$ .

Ora dobbiamo dimostrare che $V_{1}+V_{2}=V$ , cioè che ogni vettore $v\in V$ si può scrivere come $v=v_{1}+v_{2}$ , con $v_{1}\in V_{1}$ e $v_{2}\in V_{2}$ . Abbiamo già visto che si ha

G_{1}(f)F_{1}(f)v+G_{2}(f)F_{2}(f)v=v,

quindi se poniamo $v_{1}=G_{2}(f)F_{2}(f)v$ e $v_{2}=G_{1}(f)F_{1}(f)v$ si ottiene $v=v_{1}+v_{2}$ . Dobbiamo però dimostrare che $v_{1}\in V_{1}$ e $v_{2}\in V_{2}$ .

Dato che $V_{1}={\rm Ker}F_{1}(f)$ , per dimostrare che $v_{1}\in V_{1}$ dobbiamo verificare che $F_{1}(f)v_{1}=0$ . Si ha:

	$\displaystyle F_{1}(f)v_{1}$	$\displaystyle=F_{1}(f)G_{2}(f)F_{2}(f)v$
		$\displaystyle=F_{1}(f)F_{2}(f)G_{2}(f)v$
		$\displaystyle=F(f)G_{2}(f)v=0$

ove abbiamo usato il fatto che $G_{2}(f)F_{2}(f)=F_{2}(f)G_{2}(f)$ perché i polinomi valutati in $f$ commutano tra loro, l’uguaglianza $F_{1}(f)F_{2}(f)=F(f)$ e l’ipotesi che $F(f)=0$ .

In modo del tutto analogo si dimostra che anche $v_{2}\in V_{2}$ . Rimane quindi solo da dimostrare che $f(V_{1})\subseteq V_{1}$ e $f(V_{2})\subseteq V_{2}$ .

Sia $v\in V_{1}={\rm Ker}F_{1}(f)$ . Si ha

F_{1}(f)f(v)=f(F_{1}(f)(v))=f(0)=0,

quindi $f(v)\in V_{1}$ . Questo dimostra che $f(V_{1})\subseteq V_{1}$ e, analogamente, si dimostra che $f(V_{2})\subseteq V_{2}$ .

Questo conclude la dimostrazione nel caso $r=2$ . Consideriamo ora il caso $r>2$ . Per ipotesi induttiva supponiamo che il risultato valga in tutti i casi in cui il numero di fattori in cui si fattorizza il polinomio $F(x)$ sia $\leq r-1$ . Sia $F=F_{1}\cdot F_{2}\cdots F_{r-1}\cdot F_{r}$ , ove i polinomi $F_{i}(x)\in K[x]$ sono non costanti e a due a due coprimi. Se poniamo $\tilde{F}=F_{1}\cdot F_{2}\cdots F_{r-1}$ si ha $F=\tilde{F}\cdot F_{r}$ , ove $\tilde{F}$ e $F_{r}$ sono coprimi. Ma questo è precisamente il caso $r=2$ , in cui $F$ si fattorizza nel prodotto di due polinomi coprimi. Pertanto se poniamo $\tilde{V}={\rm Ker}\tilde{F}(f)$ e $V_{r}={\rm Ker}\tilde{F}_{r}(f)$ , si ha $V=\tilde{V}\oplus V_{r}$ , $f(\tilde{V})\subseteq\tilde{V}$ e $f(V_{r})\subseteq V_{r}$ .

Considerando poi $\tilde{F}=F_{1}\cdot F_{2}\cdots F_{r-1}$ , siamo nel caso in cui il numero di fattori è $r-1$ e possiamo quindi usare l’ipotesi induttiva. Questo significa che $\tilde{V}=V_{1}\oplus V_{2}\oplus\cdots\oplus V_{r-1}$ , ove $V_{i}={\rm Ker}F_{i}(f)$ e $f(V_{i})\subseteq V_{i}$ . Combinando questi due risultati si ottiene $V=V_{1}\oplus V_{2}\oplus\cdots\oplus V_{r}$ e la dimostrazione è conclusa.

Usando il teorema di decomposizione siamo ora in grado di dimostrare un importante criterio di diagonalizzabilità.

Teorema. Una matrice quadrata $A$ di ordine $n$ a elementi in un campo $K$ è diagonalizzabile se e solo se tutti gli autovalori di $A$ esistono nel campo $K$ e il polinomio minimo di $A$ è prodotto di fattori lineari distinti, cioè

m_{A}(x)=\prod_{i=1}^{r}(x-\lambda_{i}),

con $\lambda_{i}\in K$ tutti distinti.

Dimostrazione. Se $A$ è diagonalizzabile esiste una matrice invertibile $P$ tale che $P^{-1}AP=D$ , ove $D$ è una matrice diagonale con gli autovalori $\lambda_{i}$ di $A$ lungo la diagonale principale. In questo caso si ha $m_{A}(x)=m_{D}(x)$ e il polinomio minimo $m_{D}(x)$ è prodotto di fattori lineari distinti.

Viceversa, supponiamo che tutti gli autovalori di $A$ esistano in $K$ e che il polinomio minimo di $A$ sia prodotto di fattori lineari distinti,

m_{A}(x)=\prod_{i=1}^{r}(x-\lambda_{i}),

con $\lambda_{i}\in K$ tutti distinti. Dal teorema di decomposizione, prendendo $F(x)=m_{A}(x)$ , si deduce che $V=K^{n}$ si decompone nella somma diretta dei sottospazi $V_{i}={\rm Ker}(A-\lambda_{i}I)$ , cioè nella somma diretta degli autospazi corrispondenti agli autovalori di $A$ . Pertanto, unendo le basi di tutti gli autospazi di $A$ si ottiene una base di $K^{n}$ formata da autovettori di $A$ , il che implica che $A$ è diagonalizzabile.

Osservazione. In generale il polinomio caratteristico di una matrice $A$ non è necessariamente prodotto di fattori lineari distinti, dato che gli autovalori di $A$ possono avere molteplicità algebrica maggiore di $1$ . Se $\lambda$ è un autovalore con molteplicità algebrica $m>1$ , il sottospazio ${\rm Ker}(A-\lambda I)^{m}$ è detto autospazio generalizzato e i suoi vettori sono detti autovettori generalizzati.