Definiția entropiei
Entropia (introdusă de Claude Shannon în 1948) reprezintă valoarea medie a auto-informației pentru toate evenimentele dintr-o mulțime X. Ea cuantifică incertitudinea medie asociată unei surse de informație.
Formula entropiei Shannon:
H(X) = -Σ P(xᵢ) · log₂ P(xᵢ) (pentru i = 1, 2, ..., n)
sau echivalent:
H(X) = Σ P(xᵢ) · log₂ (1 / P(xᵢ))
Proprietățile entropiei
Proprietatea 1: Non-negativitate
H(X) ≥ 0
Entropia este întotdeauna non-negativă. Dacă un singur eveniment are probabilitate 1 (repartiție degenerată), atunci H(X) = 0 — nu există incertitudine.
Proprietatea 2: Entropia maximă
Pentru o mulțime de n semnale:
H(X) ≤ log₂(n) = H_max
Egalitatea se atinge dacă și numai dacă repartiția este uniformă, adică P(xᵢ) = 1/n pentru toți i. Entropia maximă corespunde incertitudinii maxime.
Proprietatea 3: Subaditivitatea
Pentru două mulțimi de semnale X și Y:
H(X, Y) ≤ H(X) + H(Y)
Egalitatea se atinge dacă și numai dacă X și Y sunt statistic independente.
Entropia unei surse binare
Fie o sursă binară cu P(x₁) = p și P(x₂) = 1 - p. Entropia devine:
H(X) = -p · log₂(p) - (1 - p) · log₂(1 - p) = H(p)
Funcția H(p) se numește funcția entropie binară. Graficul ei este o curbă concavă cu maximul H(p) = 1 bit atins pentru p = 0.5.
Entropia condiționată
Entropia condiționată H(X|Y) măsoară incertitudinea rămasă asupra lui X după ce a fost observat Y:
H(X|Y) = -Σᵢ Σⱼ P(xᵢ, yⱼ) · log₂ P(xᵢ | yⱼ)
Proprietate fundamentală:
H(X|Y) ≤ H(X)
Condiționarea nu poate crește incertitudinea — observarea lui Y fie reduce, fie lasă neschimbată incertitudinea asupra lui X.
Informația mutuală
Informația mutuală I(X;Y) cuantifică cantitatea de informație pe care Y o furnizează despre X:
I(X;Y) = H(X) - H(X|Y)
Relații echivalente:
I(X;Y) = H(Y) - H(Y|X)
I(X;Y) = H(X) + H(Y) - H(X,Y)
Proprietăți ale informației mutuale:
I(X;Y) ≥ 0(non-negativă)I(X;Y) = I(Y;X)(simetrică)I(X;Y) = 0dacă și numai dacăXșiYsunt independente
Relații între entropii
Relațiile fundamentale se pot vizualiza prin diagrama Venn:
H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)
I(X;Y) = H(X) + H(Y) - H(X,Y)
I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)
Exemplu numeric: sursă binară
Fie o sursă binară cu P(x₁) = 0.8 și P(x₂) = 0.2:
H(X) = -0.8 · log₂(0.8) - 0.2 · log₂(0.2)
= -0.8 · (-0.3219) - 0.2 · (-2.3219)
= 0.2575 + 0.4644
= 0.7219 biți/simbol
Verificare: entropia maximă pentru o sursă binară este log₂(2) = 1 bit. Întrucât sursa nu este echiprobabilă, obținem H(X) = 0.7219 < 1 = H_max, ceea ce confirmă proprietatea 2.
Dacă sursa ar fi echiprobabilă (p = 0.5):
H(X) = -0.5 · log₂(0.5) - 0.5 · log₂(0.5) = 0.5 + 0.5 = 1 bit/simbol
Puncte cheie pentru examen
- Entropia Shannon:
H(X) = -Σ P(xᵢ) · log₂ P(xᵢ)— măsoară incertitudinea medie H(X) ≥ 0— entropia este non-negativăH(X) ≤ log₂(n)— maximă când repartiția este uniformă- Entropia condiționată:
H(X|Y) ≤ H(X)— condiționarea reduce sau menține incertitudinea - Informația mutuală:
I(X;Y) = H(X) - H(X|Y)— simetrică și non-negativă - Relația câmpurilor reunite:
H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) - Pentru sursa binară echiprobabilă:
H(X) = 1 bit/simbol
Exemple practice suplimentare
Exemplu 1: Sursă cu 4 simboluri
Fie sursa X = {a, b, c, d} cu probabilitățile:
| Simbol | a | b | c | d |
|---|---|---|---|---|
| P | 0.4 | 0.3 | 0.2 | 0.1 |
Verificare: 0.4 + 0.3 + 0.2 + 0.1 = 1.0 ✓
Calculul entropiei:
H(X) = -[0.4·log₂(0.4) + 0.3·log₂(0.3) + 0.2·log₂(0.2) + 0.1·log₂(0.1)]
log₂(0.4) = ln(0.4)/ln(2) = -0.9163/0.6931 = -1.3219
log₂(0.3) = ln(0.3)/ln(2) = -1.2040/0.6931 = -1.7370
log₂(0.2) = ln(0.2)/ln(2) = -1.6094/0.6931 = -2.3219
log₂(0.1) = ln(0.1)/ln(2) = -2.3026/0.6931 = -3.3219
H(X) = -[0.4·(-1.3219) + 0.3·(-1.7370) + 0.2·(-2.3219) + 0.1·(-3.3219)]
= -[-0.5288 - 0.5211 - 0.4644 - 0.3322]
= 0.5288 + 0.5211 + 0.4644 + 0.3322
= 1.8465 biți/simbol
Verificare cu entropia maximă:
H_max = log₂(4) = 2 biți/simbol
H(X) = 1.8465 < 2 = H_max ✓ (sursa nu e echiprobabilă)
Eficiența sursei:
η = H(X) / H_max = 1.8465 / 2 = 0.9233 = 92.33%
Exemplu 2: Entropia condiționată și informația mutuală
Fie două variabile aleatoare X = {x₁, x₂} și Y = {y₁, y₂} cu distribuția comună:
| y₁ | y₂ | P(X) | |
|---|---|---|---|
| x₁ | 0.3 | 0.1 | 0.4 |
| x₂ | 0.2 | 0.4 | 0.6 |
| P(Y) | 0.5 | 0.5 | 1.0 |
Pas 1 — H(X):
H(X) = -[0.4·log₂(0.4) + 0.6·log₂(0.6)]
= -[0.4·(-1.3219) + 0.6·(-0.7370)]
= 0.5288 + 0.4422
= 0.9710 biți
Pas 2 — H(Y):
H(Y) = -[0.5·log₂(0.5) + 0.5·log₂(0.5)]
= -[0.5·(-1) + 0.5·(-1)]
= 1.0 bit
Pas 3 — H(X,Y) (entropia reunită):
H(X,Y) = -[0.3·log₂(0.3) + 0.1·log₂(0.1) + 0.2·log₂(0.2) + 0.4·log₂(0.4)]
= -[0.3·(-1.7370) + 0.1·(-3.3219) + 0.2·(-2.3219) + 0.4·(-1.3219)]
= 0.5211 + 0.3322 + 0.4644 + 0.5288
= 1.8465 biți
Pas 4 — H(X|Y) (entropia condiționată):
H(X|Y) = H(X,Y) - H(Y) = 1.8465 - 1.0 = 0.8465 biți
Verificare: H(X|Y) = 0.8465 ≤ H(X) = 0.9710 ✓
Pas 5 — I(X;Y) (informația mutuală):
I(X;Y) = H(X) - H(X|Y) = 0.9710 - 0.8465 = 0.1245 biți
Verificare alternativă:
I(X;Y) = H(X) + H(Y) - H(X,Y) = 0.9710 + 1.0 - 1.8465 = 0.1245 biți ✓
Interpretare: Cunoașterea lui Y reduce incertitudinea asupra lui X cu 0.1245 biți (de la 0.9710 la 0.8465).