Blogia
Tio Petros

Entropía y cantidad de información (y 4)

Vamos a intentar sacarle jugo a la fórmula de la entropía de una variable aleatoria. En todo caso hablaremos de variables aleatorias discretas, que pueden tomar un número finito o al menos numerable de valores, sin embargo la extrapolación a variables continuas es muy sencilla y no añade dificultad conceptual alguna.

Primero, volvemos a poner la ilustración del post anterior, en la que se ve además el origen del concepto de entropía a partir de la cantidad de información aportada por cada posible valor de la variable aleatoria.



Puede suceder que uno de los posibles valores xi tenga asociada una probabilidad pi=1. Como la suma de todas las probabilidades es la unidad, eso quiere decir que los demás "posibles sucesos" tienen probabilidad cero (no son posibles, de ahí el entrecomillado anterior).

Una variable así nos está diciendo que se va a realizar el valor xi con seguridad. A una variable aleatoria de este tipo la denominaremos degenerada , por no aportar aleatoriedad alguna.

Qué sucede con la entropía de una variable aleatoria degenerada?

Sólo tiene un valor con probabilidad mayor que cero, por lo que dicha probabilidad es uno; y para ese valor el logaritmo de la probabilidad es cero (pues log21=0), por lo que la entropía de dicha variable es nula.

Una v. a. nos está ofreciendo una cierta información; es como cuando el médico nos dice que tenemos un 88% de posibilidades de vencer nuestra enfermedad. No nos da tanta información como cuando nos dice con seguridad qué nos va a pasar; pero nos da más información que si nos habla de un 50% de posibilidades. La variable aleatoria degenerada no deja aleatoriedad: da la información máxima posible, y tiene entropía nula, según acabamos de ver.

Este hecho es el primer indicio de que si pensábamos que la entropía era una medida de la información que me ofrece una variable aleatoria, estábamos equivocados.

LA ENTROPIA DE UNA VARIABLE ALEATORIA NO NOS INDICA EL GRADO DE INFORMACION QUE NOS OFRECE DICHA VARIABLE

De hecho, es un muy buen indicador de lo contrario. Cuanto más baja sea la entropía de una v. a., más información nos estará dando, hasta llegar a la entropía nula en el caso de información puntual, fiel y no probabilística (en el sentido de que la ofrece con probabilidad 1)

El hecho de que hayamos dicho que la entropía era el valor esperado de la cantidad de información asociada a los valores posibles no nos debe llevar a engaño: una cosa es la información que aporta la variable aleatoria en sí, y otra es el incremento de información que nos supone el conocimiento de la materialización práctica del valor de dicha variable en un experimento. Bajo esta luz es evidente que un suceso de probabilidad uno tenga información asociada nula: ¿qué información nos va a aportar, si la variable aleatoria ya nos da toda la información posible?

Si el médico me dice que tengo una probabilidad del 100% de curarme de mi enfermedad (variable aleatoria degenerada) me aporta de principio la máxima información. Cuando me he curado (realización práctica del suceso predicho por la variable), ya no obtengo información añadida. En el extremo opuesto, si me dice que tengo un 50% de probabilidades de curación (máxima aleatoriedad) no me aporta información alguna, y mi futura curación (realización del experimento asociado a la variable aleatoria) en cambio aportará toda la información que la variable no aportaba.

La entropía de la variable es la medida esperada de la información que aportará la realización del evento asociado a la variable, no la propia variable. Por eso es que una entropía alta implica que la propia variable aporta una información pequeña. El resto de la información hasta la certeza vendrá de la materialización práctica del evento.

Vayamos a uno de los casos más sencillos de variable aleatoria: la realización de un experimento con dos posibles resultados, de probabilidad p y (1-p). El lanzamiento de una moneda (con posibles resultados 0 (cara) y 1 (cruz), o de un dado con resultados 0 (impar) ó 1 (par).

La entropía de esta variable , aplicando la fórmula de la definición es:

H[X]= -p·log2p-(1-p)·log2(1-p)

En el caso general tenemos infinitas distribuciones diferentes con este esquema dependiendo del valor de p, que recorre los reales en el intervalo [0,1].

Un poco de cálculo nos convencerá de que el valor máximo de la entropía es para p=0,5, y los mínimos para p=0 y p=1, para los cuales la entropía vale cero. En efecto, en ambos casos tenemos una variable degenerada; y la máxima entropía se da cuando la distribución es uniforme: todos los valores tienen la misma probabilidad de ocurrir y la variable en sí no nos aporta información alguna de cuál puede ser el que se dé en el evento.

Ahora sabemos que el máximo de entropía es para la distribución uniforme, además es muy sencillo evaluarla:

Si tenemos una v. a. X que toma valores {x1,x2,...,xn} con probabilidades (p1,p2,...,pn), si hay equiprobabilidad entonces pi=1/n, para todo n, y por lo tanto:

H[X]=-(1/p)·log2(1/p)-(1/p)·log2(1/p)-...-(1/p)·log2(1/p)=
log2(p)

Esta es la mayor entropía que puede tener una variable aleatoria de n estados.

Esta fórmula:

H[X]=log2(p)

es idéntica a la fórmula física que expresa la entropía de un sistema en función de su número de estados, salvo por la presencia de la constante de Boltzmann. Tanto en el caso físico como aquí, la elección del valor numérico de la constante depende de las unidades en las que estemos trabajando. En nuestro caso hemos elegido el asunto al dar base 2 a los logaritmos empleados y la unidad es el bit.

Así, una variable con 8 estados, si es uniformemente distribuida y por lo tanto aporta la menor información posible; tiene una entropía de H=log28=3 bits.

Habiendo ocho estados son precisamente 3 los bits necesarios para nombrarlos a todos (000,001,010,011,100,101,110 y 111). Esto no tiene nada de casual, sino todo lo contrario; pero es una historia que debe ser contada en otra ocasión... ocasión que deberá esperar pues este blog suspende su actividad hasta mediados-finales de Julio por motivos vacacionales.

Volveremos entonces con más energía. Que pasen un buen verano (o invierno, si nos leen desde el hemisferio sur).

6 comentarios

claudia -

quiero hacer un ensayo no soy fisica. sobre entropia. es posible aplicarlo a una experiencia de vida?

marcos d z n -

me parecio perfecto tu empleo de los vaores numericos

Anónimo -

Supongo que los lectores han detectado un error tipográfico:

Si tenemos una v. a. X que toma valores {x1,x2,...,xn} con probabilidades (p1,p2,...,pn), si hay equiprobabilidad entonces pi=1/n, para todo n, y por lo tanto
H[X]=-(1/p)·log2(1/p)-(1/p)·log2(1/p)-...-(1/p)·log2(1/p)=
log2(p)

la última expresión de debe ser corregida por

H[X]=-(1/n)·log2(1/n)-(1/n)·log2(1/n)-...-(1/n)·log2(1/n)=
log2(n)

tsukisan -

Muy interesante, y me plantea la cuestion de si la entropia entonces se puede entender como medida del desorden=falta conocimiento??

Anónimo -

Farid -

Muy interesante la serie de posts sobre la entropía, Tío Petros. Estaré atento a tus próximos artículos!