Entropía y cantidad de información (3)
Supongamos que tenemos una urna con diez bolas. Sabemos que nueve son blancas y una negra. Si sacamos una bola al azar, consideremos la variable aleatoria asociada al experimento, X. La cuantificamos dándole el valor de 0 si la bola extraída es negra, y 1 si es blanca
P{X=1} = 9/10 = 0.9
P{X=0} = 1/10 = 0.1
Podemos hallar la esperanza de la v.a. X:
E[X]=1 · 0.9 + 0 · 0.1 = 0.9
Esto no es ninguna sorpresa: la esperanza, o valor esperado, no es sino el promedio esperado tras una multitud de repeticiones del mismo experimento. En promedio, 9 de cada 10 veces obtendremos un 1 (bola blanca), por lo que el valor promedio de la variable es precisamente 0.9
Sólo dos son los valores posibles de X , pero la información asociada a cada uno de ellos es diferente.
Recordemos la definición de cantidad de información asociada a un suceso i:
En nuestro caso, tenemos:
I1= - log2(0.9)= 0.15
I0= - log2(0.1)= 3.32
Vemos que la información asociada a sacar una bola negra (X=0) es mucho mayor que la información asociada al suceso "sacar una bola blanca". Una forma de entender esto es comprender que obtener una bola negra reduce la indeterminación completamente: sabemos que cada una de las bolas que quedan en la urna son blancas. Si hubiéramos obtenido una bola blanca, la reducción de incertidumbre es mucho menor: seguimos sin poder decir qué pasaría si hiciéramos otra extracción sin reemplazamiento de la bola previamente extraída.
Así pues, tener una variable aleatoria implica no saber el resultado que vamos a obtener, y esto implica no saber qué cantidad de información vamos a obtener al realizar el experimento, porque cada posible resultado nos aporta una cantidad de información diferente.
Esta simple idea nos sirve para definir a partir de una variable aleatoria otra variable aleatoria derivada, que consiste precisamente en la cantidad de información a obtener en el experimento. Definamos pues:
Dada una v.a. X, que toma valores {x1,x2,...,xn} con probabilidades p1,p2,...,pn, que aportan cantidades de información I1,I2,...,In, llamamos variable aleatoria cantidad de información asociada a X a la variable aleatoria I[X] , que toma valores I1,I2,...,In con probabilidades p1,p2,...,pn.
En nuestro ejemplo, I[X] toma el valor 0.15 con probabilidad 0.9, y el valor 3.32 con probabilidad 0.1
Una propiedad importante de esta nueva variable aleatoria es que aunque deriva de la X inicial, no tiene en cuenta para nada los valores numéricos que esta X pueda adquirir: depende exclusivamente del reparto de probabilidades entre sus respectivas posibilidades.
Llegados hasta aquí, y dado que I[X] no es sino una variable aleatoria, nada nos impide preguntarnos por su valor esperado, o esperanza E[I[X]]; número que denotaremos H[X]
H[X] = E[I[X]] = 0.15 · 0.9 + 3.32 · 0.1 = 0.135 + 0.332 = 0.467
Vemos que la contribución del suceso menos probable es mayor que la del más probable, a pesar de que las cantidades de información deben estar multiplicadas por su correspondiente probabilidad.
Convenimos que un suceso de probabilidad nula no tiene ninguna relevancia en este cómputo. Es necesario este extremo porque el producto p(x)·log[P(x)] es una indeterminación cuando p(x)=0.
Qué hemos conseguido con esta definición?
Tenemos un número real, H[X], que es el valor esperado de la cantidad de información que obtendremos al obtener un resultado del experimento expresado por dicha variable aleatoria.
Este valor se denomina Entropía de Shannon de la variable dada. Y es un concepto de importancia capital en teoría de la información.
La expresión analítica de la entropía de Shannon es la siguiente:
En el siguiente post veremos qué tiene que ver esto con el desorden y porqué este concepto es importante.
P{X=1} = 9/10 = 0.9
P{X=0} = 1/10 = 0.1
Podemos hallar la esperanza de la v.a. X:
E[X]=1 · 0.9 + 0 · 0.1 = 0.9
Esto no es ninguna sorpresa: la esperanza, o valor esperado, no es sino el promedio esperado tras una multitud de repeticiones del mismo experimento. En promedio, 9 de cada 10 veces obtendremos un 1 (bola blanca), por lo que el valor promedio de la variable es precisamente 0.9
Sólo dos son los valores posibles de X , pero la información asociada a cada uno de ellos es diferente.
Recordemos la definición de cantidad de información asociada a un suceso i:
En nuestro caso, tenemos:
I1= - log2(0.9)= 0.15
I0= - log2(0.1)= 3.32
Vemos que la información asociada a sacar una bola negra (X=0) es mucho mayor que la información asociada al suceso "sacar una bola blanca". Una forma de entender esto es comprender que obtener una bola negra reduce la indeterminación completamente: sabemos que cada una de las bolas que quedan en la urna son blancas. Si hubiéramos obtenido una bola blanca, la reducción de incertidumbre es mucho menor: seguimos sin poder decir qué pasaría si hiciéramos otra extracción sin reemplazamiento de la bola previamente extraída.
Así pues, tener una variable aleatoria implica no saber el resultado que vamos a obtener, y esto implica no saber qué cantidad de información vamos a obtener al realizar el experimento, porque cada posible resultado nos aporta una cantidad de información diferente.
Esta simple idea nos sirve para definir a partir de una variable aleatoria otra variable aleatoria derivada, que consiste precisamente en la cantidad de información a obtener en el experimento. Definamos pues:
Dada una v.a. X, que toma valores {x1,x2,...,xn} con probabilidades p1,p2,...,pn, que aportan cantidades de información I1,I2,...,In, llamamos variable aleatoria cantidad de información asociada a X a la variable aleatoria I[X] , que toma valores I1,I2,...,In con probabilidades p1,p2,...,pn.
En nuestro ejemplo, I[X] toma el valor 0.15 con probabilidad 0.9, y el valor 3.32 con probabilidad 0.1
Una propiedad importante de esta nueva variable aleatoria es que aunque deriva de la X inicial, no tiene en cuenta para nada los valores numéricos que esta X pueda adquirir: depende exclusivamente del reparto de probabilidades entre sus respectivas posibilidades.
Llegados hasta aquí, y dado que I[X] no es sino una variable aleatoria, nada nos impide preguntarnos por su valor esperado, o esperanza E[I[X]]; número que denotaremos H[X]
H[X] = E[I[X]] = 0.15 · 0.9 + 3.32 · 0.1 = 0.135 + 0.332 = 0.467
Vemos que la contribución del suceso menos probable es mayor que la del más probable, a pesar de que las cantidades de información deben estar multiplicadas por su correspondiente probabilidad.
Convenimos que un suceso de probabilidad nula no tiene ninguna relevancia en este cómputo. Es necesario este extremo porque el producto p(x)·log[P(x)] es una indeterminación cuando p(x)=0.
Qué hemos conseguido con esta definición?
Tenemos un número real, H[X], que es el valor esperado de la cantidad de información que obtendremos al obtener un resultado del experimento expresado por dicha variable aleatoria.
Este valor se denomina Entropía de Shannon de la variable dada. Y es un concepto de importancia capital en teoría de la información.
La expresión analítica de la entropía de Shannon es la siguiente:
En el siguiente post veremos qué tiene que ver esto con el desorden y porqué este concepto es importante.
8 comentarios
Jordan Spizikes -
Tadalafil -
Walter -
http://es.wikipedia.org/wiki/Entrop%C3%ADa_%28informaci%C3%B3n%29
Osmar -
Muchas gracias
Diego -
emilio -
Gracias por la información
[Quique] -
Anabel -