|
Temas
Archivos
Enlaces
Matemáticas
Ciencia
Escepticismo
Bitácoras amigas
Divulgación
Estadísticas
Otros
|
Se muestran los artículos pertenecientes al tema Conceptos.
 No es que de la definición de esperanza de una variable aleatoria lleguemos al concepto de integral de Lebesgue, sino que nos apoyamos en el concepto de esperanza matemática que hemos visto varias veces en el blog, y lo utilizamos como escusa para explicar un concepto de integral que supera al tradicional de Riemann. Hemos definido varias veces la esperanza de una variable aleatoria como la suma de los productos de los posibles valores de la misma por las probabilidades de que adopten esos valores. Si X es una V.A. que puede tomar valores x1,...,xn con probabilidades p1,..,pn, (p1+...+pn = 1 ) entonces la esperanza de la variable X es: E[X] = x1p1 + ... + xnpn Cuando la variable es continua y toma valores en un intervalo [a,b], no podemos hablar de probabilidad de que tome un valor concreto, pues en el caso genérico, cada valor concreto tiene probabilidad nula de ocurrir (son infinitos los posibles). Hablaremos de densidad de probabilidad, entendiendo la densidad de probabilidad de un punto como el límite del cociente entre la probabilidad de un segmento que contenga a dicho punto y la longitud de dicho segmento, cuando ésta tiende a cero. El operador esperanza se ha convertido en una integral . Sin embargo tenemos un problema: la integral habitual que se usa en ingeniería es la integral de Riemann, y se muestra absolutamente incapaz de hacer frente a problemas probabilísticos, incluso a algunos muy sencillos, como el siguiente: ¿Si escogemos un número en el intervalo [0,1] al azar cuál es la probabilidad de que el número escogido sea irracional? La solución a este problema, casi trivial, muestra que la integral de Riemann es incapaz de afrontar contajes (pues una integral no es sino una forma de contar) en espacios abstractos como los espacios probabilísticos. Por ello hace falta una herramienta conceptual más elaborada que vendrá de la mano de Lebesgue. Todo ello lo veremos en los próximos días. Daremos un repaso al concepto de Integral de Riemann, y veremos porqué en los casos más generales no es satisfactoria. Hablar de integrales es hablar de maneras de contar. La combinatoria se puede definir como el arte de contar. Así lo hemos hecho en muchos posts precedentes. Sin embargo habría que hacer alguna precisión. No es lo mismo contar el número de ordenaciones de un conjunto finito de elementos que cumpla una propiedad concreta que contar los metros cuadrados que ocupa una superficie. La diferencia básica es que en el primer caso estamos en el dominio de los números enteros (o de los racionales si establecemos cocientes entre las cantidades previamente halladas), y en el segundo estamos en el dominio del continuo de los reales. En cierto modo, estar en el dominio de R es cómodo: tenemos una serie de resultados que nos hacen agradable estar en el continuo de los reales, y que tienen que ver con temas topológicos muy profundos que ya se han discutido en el blog aquí. Aunque es un tópico muy común, veremos que la integral de Riemann es una herramienta excelente para trabajar en "ambientes" en los que las buenas propiedades topológicas, tanto de los espacios como de las funciones a integrar, lo permiten. El problema vendrá cuando encontremos funciones, como la función de Dirichlet, que aunque definen problemas sencillos como el de encontrar la probabilidad de elegir un número racional al azar en el intervalo [0,1], no cumplen las "buenas propiedades" exigibles a las funciones para que sean integrables en el sentido de Riemann (las llamaremos funciones Riemann-integrables). La meta será entonces encontrar una definición de integral que coincida con la de Riemann en las funciones Riemann-integrables, y que sea extensible a todas las funciones que se puedan definir de forma constructiva. Este reto es inmenso, y la forma de resoverlo me recuerda a la forma de Alejandro Magno de desatar el nudo gordiano. Para esta historia necesitaremos varios posts en los que recorreremos paisajes muy trillados y conocidos del cálculo diferencial; y otros menos conocidos y más exclusivos de la matemática menos "ingenieril". Espero que sea un paseo agradable.
Vamos a intentar sacarle jugo a la fórmula de la entropía de una variable aleatoria. En todo caso hablaremos de variables aleatorias discretas, que pueden tomar un número finito o al menos numerable de valores, sin embargo la extrapolación a variables continuas es muy sencilla y no añade dificultad conceptual alguna. Primero, volvemos a poner la ilustración del post anterior, en la que se ve además el origen del concepto de entropía a partir de la cantidad de información aportada por cada posible valor de la variable aleatoria.  Puede suceder que uno de los posibles valores x i tenga asociada una probabilidad p i=1. Como la suma de todas las probabilidades es la unidad, eso quiere decir que los demás "posibles sucesos" tienen probabilidad cero (no son posibles, de ahí el entrecomillado anterior). Una variable así nos está diciendo que se va a realizar el valor x i con seguridad. A una variable aleatoria de este tipo la denominaremos degenerada , por no aportar aleatoriedad alguna. Qué sucede con la entropía de una variable aleatoria degenerada? Sólo tiene un valor con probabilidad mayor que cero, por lo que dicha probabilidad es uno; y para ese valor el logaritmo de la probabilidad es cero (pues log 21=0), por lo que la entropía de dicha variable es nula. Una v. a. nos está ofreciendo una cierta información; es como cuando el médico nos dice que tenemos un 88% de posibilidades de vencer nuestra enfermedad. No nos da tanta información como cuando nos dice con seguridad qué nos va a pasar; pero nos da más información que si nos habla de un 50% de posibilidades. La variable aleatoria degenerada no deja aleatoriedad: da la información máxima posible, y tiene entropía nula, según acabamos de ver. Este hecho es el primer indicio de que si pensábamos que la entropía era una medida de la información que me ofrece una variable aleatoria, estábamos equivocados. LA ENTROPIA DE UNA VARIABLE ALEATORIA NO NOS INDICA EL GRADO DE INFORMACION QUE NOS OFRECE DICHA VARIABLE De hecho, es un muy buen indicador de lo contrario. Cuanto más baja sea la entropía de una v. a., más información nos estará dando, hasta llegar a la entropía nula en el caso de información puntual, fiel y no probabilística (en el sentido de que la ofrece con probabilidad 1) El hecho de que hayamos dicho que la entropía era el valor esperado de la cantidad de información asociada a los valores posibles no nos debe llevar a engaño: una cosa es la información que aporta la variable aleatoria en sí, y otra es el incremento de información que nos supone el conocimiento de la materialización práctica del valor de dicha variable en un experimento. Bajo esta luz es evidente que un suceso de probabilidad uno tenga información asociada nula: ¿qué información nos va a aportar, si la variable aleatoria ya nos da toda la información posible? Si el médico me dice que tengo una probabilidad del 100% de curarme de mi enfermedad (variable aleatoria degenerada) me aporta de principio la máxima información. Cuando me he curado (realización práctica del suceso predicho por la variable), ya no obtengo información añadida. En el extremo opuesto, si me dice que tengo un 50% de probabilidades de curación (máxima aleatoriedad) no me aporta información alguna, y mi futura curación (realización del experimento asociado a la variable aleatoria) en cambio aportará toda la información que la variable no aportaba. La entropía de la variable es la medida esperada de la información que aportará la realización del evento asociado a la variable, no la propia variable. Por eso es que una entropía alta implica que la propia variable aporta una información pequeña. El resto de la información hasta la certeza vendrá de la materialización práctica del evento. Vayamos a uno de los casos más sencillos de variable aleatoria: la realización de un experimento con dos posibles resultados, de probabilidad p y (1-p). El lanzamiento de una moneda (con posibles resultados 0 (cara) y 1 (cruz), o de un dado con resultados 0 (impar) ó 1 (par). La entropía de esta variable , aplicando la fórmula de la definición es: H[X]= -p·log 2p-(1-p)·log 2(1-p) En el caso general tenemos infinitas distribuciones diferentes con este esquema dependiendo del valor de p, que recorre los reales en el intervalo [0,1]. Un poco de cálculo nos convencerá de que el valor máximo de la entropía es para p=0,5, y los mínimos para p=0 y p=1, para los cuales la entropía vale cero. En efecto, en ambos casos tenemos una variable degenerada; y la máxima entropía se da cuando la distribución es uniforme: todos los valores tienen la misma probabilidad de ocurrir y la variable en sí no nos aporta información alguna de cuál puede ser el que se dé en el evento. Ahora sabemos que el máximo de entropía es para la distribución uniforme, además es muy sencillo evaluarla: Si tenemos una v. a. X que toma valores {x 1,x 2,...,x n} con probabilidades (p 1,p 2,...,p n), si hay equiprobabilidad entonces p i=1/n, para todo n, y por lo tanto: H[X]=-(1/p)·log 2(1/p)-(1/p)·log 2(1/p)-...-(1/p)·log 2(1/p)= log 2(p) Esta es la mayor entropía que puede tener una variable aleatoria de n estados. Esta fórmula: H[X]=log2(p)es idéntica a la fórmula física que expresa la entropía de un sistema en función de su número de estados, salvo por la presencia de la constante de Boltzmann. Tanto en el caso físico como aquí, la elección del valor numérico de la constante depende de las unidades en las que estemos trabajando. En nuestro caso hemos elegido el asunto al dar base 2 a los logaritmos empleados y la unidad es el bit. Así, una variable con 8 estados, si es uniformemente distribuida y por lo tanto aporta la menor información posible; tiene una entropía de H=log 28=3 bits. Habiendo ocho estados son precisamente 3 los bits necesarios para nombrarlos a todos (000,001,010,011,100,101,110 y 111). Esto no tiene nada de casual, sino todo lo contrario; pero es una historia que debe ser contada en otra ocasión... ocasión que deberá esperar pues este blog suspende su actividad hasta mediados-finales de Julio por motivos vacacionales. Volveremos entonces con más energía. Que pasen un buen verano (o invierno, si nos leen desde el hemisferio sur). Supongamos que tenemos una urna con diez bolas. Sabemos que nueve son blancas y una negra. Si sacamos una bola al azar, consideremos la variable aleatoria asociada al experimento, X. La cuantificamos dándole el valor de 0 si la bola extraída es negra, y 1 si es blanca P {X=1} = 9/10 = 0.9 P {X=0} = 1/10 = 0.1 Podemos hallar la esperanza de la v.a. X: E[X]=1 · 0.9 + 0 · 0.1 = 0.9 Esto no es ninguna sorpresa: la esperanza, o valor esperado, no es sino el promedio esperado tras una multitud de repeticiones del mismo experimento. En promedio, 9 de cada 10 veces obtendremos un 1 (bola blanca), por lo que el valor promedio de la variable es precisamente 0.9 Sólo dos son los valores posibles de X , pero la información asociada a cada uno de ellos es diferente. Recordemos la definición de cantidad de información asociada a un suceso i:  En nuestro caso, tenemos: I1= - log 2(0.9)= 0.15 I0= - log 2(0.1)= 3.32 Vemos que la información asociada a sacar una bola negra ( X=0) es mucho mayor que la información asociada al suceso "sacar una bola blanca". Una forma de entender esto es comprender que obtener una bola negra reduce la indeterminación completamente: sabemos que cada una de las bolas que quedan en la urna son blancas. Si hubiéramos obtenido una bola blanca, la reducción de incertidumbre es mucho menor: seguimos sin poder decir qué pasaría si hiciéramos otra extracción sin reemplazamiento de la bola previamente extraída. Así pues, tener una variable aleatoria implica no saber el resultado que vamos a obtener, y esto implica no saber qué cantidad de información vamos a obtener al realizar el experimento, porque cada posible resultado nos aporta una cantidad de información diferente. Esta simple idea nos sirve para definir a partir de una variable aleatoria otra variable aleatoria derivada, que consiste precisamente en la cantidad de información a obtener en el experimento. Definamos pues: Dada una v.a. X, que toma valores {x 1,x 2,...,x n} con probabilidades p 1,p 2,...,p n, que aportan cantidades de información I 1,I 2,...,I n, llamamos variable aleatoria cantidad de información asociada a X a la variable aleatoria I[X] , que toma valores I 1,I 2,...,I n con probabilidades p 1,p 2,...,p n. En nuestro ejemplo, I[X] toma el valor 0.15 con probabilidad 0.9, y el valor 3.32 con probabilidad 0.1 Una propiedad importante de esta nueva variable aleatoria es que aunque deriva de la X inicial, no tiene en cuenta para nada los valores numéricos que esta X pueda adquirir: depende exclusivamente del reparto de probabilidades entre sus respectivas posibilidades. Llegados hasta aquí, y dado que I[X] no es sino una variable aleatoria, nada nos impide preguntarnos por su valor esperado, o esperanza E[I[X]]; número que denotaremos H[X] H[X] = E[I[X]] = 0.15 · 0.9 + 3.32 · 0.1 = 0.135 + 0.332 = 0.467 Vemos que la contribución del suceso menos probable es mayor que la del más probable, a pesar de que las cantidades de información deben estar multiplicadas por su correspondiente probabilidad. Convenimos que un suceso de probabilidad nula no tiene ninguna relevancia en este cómputo. Es necesario este extremo porque el producto p(x)·log[P(x)] es una indeterminación cuando p(x)=0. Qué hemos conseguido con esta definición? Tenemos un número real, H[X], que es el valor esperado de la cantidad de información que obtendremos al obtener un resultado del experimento expresado por dicha variable aleatoria. Este valor se denomina Entropía de Shannon de la variable dada. Y es un concepto de importancia capital en teoría de la información. La expresión analítica de la entropía de Shannon es la siguiente:  En el siguiente post veremos qué tiene que ver esto con el desorden y porqué este concepto es importante. Cuando nos sometemos a una situación de incertidumbre es natural preguntarse qué resultado es esperable obtener. Naturalmente, esta pregunta debe ser precisada convenientemente para que tenga operatividad. El concepto de Esperanza matemática o valor esperado habilita la herramienta idónea para responder a dicha pregunta. Si nos jugamos a cara y cruz con nuestro oponente 1 euro a una tirada, no hace falta hacer muchas consideraciones matemáticas para comprender que la esperanza del juego es nula: por simetría no podemos asignar ventaja a ninguno de los dos jugadores, por lo que ambos están igualmente expuestos a perder un euro o a ganarlo. Cada uno de los jugadores comprende que en ausencia de trampas hay la misma probabilidad de ganar que de perder y que en cada caso, la cantidad involucrada es 1 euro. Por lo tanto este juego tiene esperanza nula; o lo que es lo mismo; es un juego que no tiene ganancia esperada. Si jugáramos un número suficientemente grande de veces, las ganancias compensarían a las pérdidas. Cualquier juego real de apuestas tiene esperanza negativa: lo más probable es perder dinero. El motivo por el que se juega es que en caso de ganar, los premios son de escándalo. Estamos dispuestos a perder una cantidad pequeña de dinero casi con seguridad a cambio de la posibilidad, por pequeña que sea, de hacernos ricos de la noche a la mañana. Es perfectamente comprensible, de ahí que si leen ustedes en algún sitio que la mera esperanza matemática es la mejor guía ante una situación de incertidumbre, no se lo crean demasiado por ser un razonamiento demasiado simplista. Pues bien, armados con esta idea, definimos la Esperanza matemática de una variable aleatoria X que toma valores en un conjunto { x 1 , x 2 , ... , x n} con probabilidades p 1, p 2, ... , p n como el número real: E[X]= p1· x1 + p2· x2 +...+ pn· xnEsto no es sino la suma de todos los posibles “premios” ponderada por la probabilidad de obtenerlos. En el caso del juego de cara y cruz con un euro en juego, tenemos: E[X]=0.5 · 1 – 0,5 · 1= 0 Para variables aleatorias continuas el concepto es exactamente el mismo, sustituyendo el sumatorio por una integral, y la probabilidad de cada suceso por la densidad de probabilidad. No hay ninguna diferencia conceptual y no incidiremos en ello ahora. Antes de continuar, es bueno advertir que no toda variable aleatoria tiene una esperanza definida. Algunas tienen esperanza infinita, por ejemplo esta: Sea un juego en el que hay una probabilidad de un medio de ganar 2 euros, un cuarto de ganar 4 , un octavo de ganar 8, etc. X toma valores en el conjunto {2 n; n€ N} siendo P {X= 2n} = 1/2 nSeguidamente tenéis el desarrollo que demuestra que esta v. a. no tiene esperanza finita:  Visto esto, estamos en condiciones de afrontar la definición de Entropía de una variable aleatoria . Lo haremos utilizando dos conceptos de importancia capital: el de cantidad de información visto en el post anterior y el de esperanza matemática visto ahora. Lo haremos en el próximo post, si ustedes quieren. Los niños que nacieron esta semana en el hospital materno-infantil de nuestra comarca tenían cada uno una cabeza, dos brazos y dos piernas. El sol salió por el este, se puso por el oeste y tras el ocaso el cielo se fue oscureciendo hasta volverse negro...
Noticiario imaginario
Hace cosa de un mes establecimos en este blog qué debe entenderse por variable aleatoria desde un punto de vista totalmente riguroso. Así, el concepto intuitivo de una función que puede tomar uno de entre una serie de valores con una cierta ley de probabilidad, quedaba explicado de forma bastante pormenorizada haciendo uso del concepto de espacios y funciones medibles.
Para los fines de este post, hablaremos de variables aleatorias (v.a.)de forma menos envarada. Tenemos la v.a. X, que supondremos, aunque no tiene porqué ser así, discreta. Esto quiere decir que puede tomar los valores de un conjunto finito {x1, x2,.., xn}, con unas probabilidades definidas:
P{X= x1}=p1 P{X= x2}=p2 ... P{X= xn}=pn
Además, dado que los {x1, x2,.., xn} son todos los casos posibles, tenemos que p1 + p2 + ... + pn = 1.
Nuestro propósito es definir dos conceptos relativos a las variables aleatorias: cantidad de información y entropía.
Si leen la noticia que encabeza este post (imaginaria evidentemente), verán que a pesar de su más que plausible veracidad, nunca periódico alguno publicará algo semejante. El motivo es claro: está enunciando unas noticias carentes e interés.
Conviene que analicemos un poco esa carencia de interés. En nuestro caso se debe a que los sucesos relatados son de tal habitualidad que no son dignos de ser reseñados. No se trata de que no sean importantes, o que dé lo mismo su cumplimiento que su incumplimiento. Se trata de que la importancia de una noticia es proporcional a su improbabilidad. Un notición es la reseña de un acontecimiento extraordinario que ocurre muy de vez en cuando. Si ocurre una única vez y es prácticamente irrepetible, se convierte en una primicia.
Esta idea intuitiva nos induce a hablar de la cantidad de información de un suceso. Cuanto mayor sea la probabilidad de que se produzca, menor será la información que aporta. Si el suceso es de probabilidad uno, la información que nos aporta su conocimiento es cero. En el caso límite contrario, un suceso de probabilidad cero nos aportaría una información infinita.
Precisamente la función logaritmo tiene unas propiedades muy buenas para cuantificar este extremo: log (x) vale cero para x=1, y va aumentando (en valor absoluto) hacia infinito conforme la x va desde la unidad hacia el cero. Definiremos por tanto la cantidad de información asociada a un suceso aleatorio de la siguiente manera:

El motivo del signo menos es que el logaritmo de todo número comprendido entre 0 y 1 es negativo.La elección de la base 2 para los logaritmos es de índole práctica e irrelevante para la explicación del concepto. Podríamos en principio poner cualquier base; simplemente es una cuestión de escala.
Mañana seguiremos por este camino, pero antes debemos definir qué cosa es la Esperanza matemática de una variable aleatoria . Con este concepto y el de cantidad de información bucearemos en la interpretación del concepto de entropía a la luz de la teoría de la probabilidad.
La Entropía tiene dos problemas:
1.- El concepto es algo difícil de pillar (no demasiado, pero requiere un cuartito de hora de atención)
2.- Es una palabra muy eufónica, suena tremendamente bien.
Ambas propiedades juntas hacen que muchos oradores la suelten, así sin más en medio de su discurso; como para dar empaque a su charla.
Este concepto de entropía es muy polifacético: aparece en matemáticas hablando de simples conjuntos (Entropía de Kolmogorov, de la que hablamos aquí), aparece en la teoría de la información con el aspecto que vamos a tratar en esta serie de post, y cómo no, aparece en física. Internamente subyace una unidad conceptual en todas estas versiones, como una medida del desorden de un sistema.
Seguiremos mañana definiendo la esperanza de una variable aleatoria; paso previo para definir la entropía.
Quinto y penúltimo post de la serie de Lola Cárdenas sobre reglas de divisibilidad Divisibilidad entre 4
Por tanto,  Divisibilidad entre 6
Por tanto,  Divisibilidad entre 7
Por tanto,  Notar que se repiten cíclicamente los factores por los que ir multiplicando las cifras. Ordenando de la más baja a la más alta, el ciclo que se da es éste: (1, 3, 2, -1, -3, -2). Divisibilidad entre 8
Por tanto,  Divisibilidad entre 12
Por tanto,  Divisibilidad entre 13
Por tanto,  Notar que se repiten cíclicamente los factores por los que ir multiplicando las cifras. Ordenando de la más baja a la más alta, el ciclo que se da es éste: (1, -3, 9, -1, 3, -9). Por ejemplo, 4394 es divisible entre 13. Sus cifras son:  ,  ,  y  . Aplicando esta regla, calculemos:  , y 0 es divisible entre 13. Luego 4394 es divisible entre 13. Cuarto post de Lola Cárdenas sobre reglas de divisibilidad.
Reglas básicas de aritmética modularDado m un entero positivo, y dados  ,  ,  ,  , se verifica lo siguiente (reglas básicas de aritmética modular):
- Si
y , entonces 
- Si
y , entonces 
Demostrar estas reglas es muy sencillo, como podemos observar: Regla de la suma: Si  , entonces existe  tal que  , y si  , entonces existe  tal que  . Ahora bien, (a1 + a2) - (b1 + b2) = (a1 - b1) + (a2 - b2) = k1m + k2m = (k1 + k2)m. De aquí es claro pues que  . Regla del producto: Si  , entonces existe  tal que  , y si  , entonces existe  tal que  . Desarrollamos: 
Por tanto, también es claro que  . Dejamos indicado un teorema importante que no vamos a demostrar [1]: Si llamamos  al conjunto cociente dado por  y la relación binaria de equivalencia de congruencia módulo m (para m un entero positivo), se cumple:
- Si
, , se definen las operaciones suma y multiplicación en como sigue:


- Ambas operaciones verifican las propiedades asociativa y conmutativa, y también se verifica la propiedad distributiva del producto respecto de la suma. El elemento neutro para la suma es la clase del cero, [0], y el elemento neutro para el producto es la clase del 1, [1].
- Dado
, tiene elemento opuesto para la operación de suma definida, siendo este opuesto el elemento . Además, si m es primo, para todo tal que , se cumple que [a] tiene inverso multiplicativo, y además este inverso es único.
El teorema no es importante para nuestro desarrollo final, pero sí es importante para ampliar la visión de conjunto de las congruencias y los conjuntos  , enteros módulo m. Y ahora vamos a ver cómo se aplican estas reglas para obtener criterios de divisibilidad para números enteros (el principal objetivo de todo este texto). Reglas de divisibilidadIntroducimos la siguiente notación: Sean x, y dos elementos pertenecientes a  (es decir, son dos números enteros). Decimos que x divide a y,  , y lo denotaremos por  si existe un  tal que  . Por ejemplo, decimos que 2 divide a 10 porque, en primer lugar,  y, en segundo lugar, existe  tal que  . Así, escribiremos que  . De la misma manera, decimos que 3 divide a 24 porque, primero,  y, segundo, existe  tal que  . Por tanto, podemos escribir que  . También vamos a adoptar la siguiente nomenclatura para las reglas de divisibilidad: dado un número entero x, escribiremos su expansión en base 10 como:  x0, ..., xn son las cifras de x, es decir, cuando escribimos x, escribimos lo siguiente:  , y la expansión de arriba es la que le corresponde al estar trabajando en base 10. x0 es la cifra de las unidades, x1 la de las decenas (por eso va mutiplicada por 10), x2 la de las centenas (por eso va multiplicada por 100), etc. Se entiende, además, que las cifras están entre 0 y 9, es decir,  , para i entre 0 y n. Divisibilidad entre 2Proposición (Criterio de divisibilidad)Un número entero x es divisible entre 2 si y sólo si la cifra de las unidades de dicho número (x0) es par.De acuerdo a la expansión decimal de x, tenemos lo siguiente:  . Por la segunda regla de operaciones con congruencias,  , luego  . No es difícil comprobar que, en general,  para cualquier k mayor o igual que 1. Por tanto, aplicando la primera y segunda regla de operaciones con congruencias, tenemos que: 
Ahora bien,  . O lo que es lo mismo, que x0 sea un múltiplo de 2. Es decir, que la cifra de las unidades sea par. Divisibilidad entre 3Proposición (Criterio de divisibilidad) Un número entero x es divisible entre 3 si y sólo si la suma de sus cifras es divisible entre 3.(El esquema es similar a la regla de divisibilidad entre 2) De acuerdo a la expansión decimal de x, tenemos lo siguiente:  . Por la segunda regla de operaciones con congruencias,  , luego  . No es difícil comprobar que, en general,  para cualquier k mayor o igual que 1. Por tanto, aplicando la primera y segunda regla de operaciones con congruencias, tenemos que: 
Ahora bien,  . Es decir, que la suma de sus cifras sea divisible entre 3. Divisibilidad entre 5Proposición (Criterio de divisibilidad) Un número entero x es divisible entre 5 si y sólo si la cifra de las unidades de dicho número (x0) es cero o cinco.(El esquema es similar a la regla de divisibilidad entre 2) De acuerdo a la expansión decimal de x, tenemos lo siguiente:  . Por la segunda regla de operaciones con congruencias,  , luego  . No es difícil comprobar que, en general,  para cualquier k mayor o igual que 1. Por tanto, aplicando la primera y segunda regla de operaciones con congruencias, tenemos que: 
Ahora bien,  . O lo que es lo mismo, que x0 sea un múltiplo de 5. Es decir, que la cifra de las unidades sea cero o cinco. Divisibilidad entre 9Proposición (Criterio de divisibilidad) Un número entero x es divisible entre 9 si y sólo si la suma de sus cifras es divisible entre 9.(El esquema es idéntico a la regla de divisibilidad entre 3) De acuerdo a la expansión decimal de x, tenemos lo siguiente:  . Por la segunda regla de operaciones con congruencias,  , luego  . No es difícil comprobar que, en general,  para cualquier k mayor o igual que 1. Por tanto, aplicando la primera y segunda regla de operaciones con congruencias, tenemos que: 
Ahora bien,  . Es decir, que la suma de sus cifras sea divisible entre 9. Divisibilidad entre 10Proposición (Criterio de divisibilidad) Un número entero x es divisible entre 10 si y sólo si la cifra de las unidades de dicho número (x0) es cero.(El esquema es similar a las reglas de divisibilidad entre 2 y entre 5) De acuerdo a la expansión decimal de x, tenemos lo siguiente:  . Por la segunda regla de operaciones con congruencias,  , luego  . No es difícil comprobar que, en general,  para cualquier k mayor o igual que 1. Por tanto, aplicando la primera y segunda regla de operaciones con congruencias, tenemos que: 
Ahora bien,  . O lo que es lo mismo, que x0 sea un múltiplo de 10. Es decir, que la cifra de las unidades sea cero. Divisibilidad entre 11Proposición (Criterio de divisibilidad) Un número entero x es divisible entre 11 si y sólo si la suma de las cifras que ocupan la posición impar, menos la suma de las cifras que ocupan la posición par, es divisible entre 11.(El esquema es semejante a las reglas de divisibilidad entre 3 y entre 9) De acuerdo a la expansión decimal de x, tenemos lo siguiente:  . Por la segunda regla de operaciones con congruencias,  , luego  . No es difícil comprobar que, en general: 
para cualquier k mayor o igual que 1. Por tanto, aplicando la primera y segunda regla de operaciones con congruencias, tenemos que: 
Ahora bien,  , lo que es equivalente a que, como dice el enunciado de la regla, la suma de las cifras en las posiciones pares menos la suma de las cifras en las posiciones impartes sea divisible entre 11. Hasta aquí, las reglas usuales de divisibilidad que a todos nos enseñan en el colegio. Pero vaya, el truco del principio de este texto manejaba unas reglas que normalmente no se enseñan en el colegio: divisibilidad entre 7 y entre 13. Así que vamos a completar las reglas de divisibilidad con los números que nos faltan para completar del 2 al 13. Es decir, vamos a desarrollar las reglas de divisibilidad entre 4, 6, 7, 8, 12 y 13, repitiendo el mismo procedimiento que hemos llevado a cabo para demostrar las anteriores. Abreviaremos un poco el procedimiento, obteniendo simplemente los resultados de las congruencias módulo m para las potencias de 10, y dejamos al lector el ejercicio de verificar los pasos que no se indican. Son prácticamente idénticos a los ya vistos, por lo que no debe suponer un problema.
Puede verse la demostración en cualquier libro básico de álgebra, por ejemplo, "Números, grupos y anillos", de J. Dorronsoro y E. Hernández, editorial Addison-Wesley, página 40 en la primera edición. Segundo post de Lola Cárdenas para TioPetros sobre el tema de las reglas de divisibilidad.
_______________________________________________________________________
Introducción a los criterios de divisibilidadCuando éramos niños, en el colegio nos explicaban las reglas de divisibilidad. Por ejemplo, nos decían que todos los números pares son múltiplos de dos, que todos los números acabados en cero o en cinco son múltiplos cinco, o que si sumamos las cifras de un número, y esta suma es múltiplo de tres, entonces el número mismo es múltiplo de tres. La reglas de divisiblidad por dos o por cinco parecen estar bastante claras, sin embargo la regla de divisibilidad por tres ya trae consigo un modo de operar que en principio no se sabe por qué es así ni por qué funciona. ¿De dónde ha salido esa regla? Me lo pregunté tan pronto como me hicieron aprenderla en el colegio. Y lo descubrí pocos años después, "haciendo cuentas" tras una clase de álgebra, intrigada, porque sabía que ahí estaba la clave. Esas reglas salen de lo más básico de un apartado conocido como ``aritmética modular''. Y veremos al final de toda la exposición que es mucho más sencillo de lo que el nombre y lo que los primeros conceptos sugieren. PreliminaresRelaciones binariasDefiniciónConsideremos un conjunto A. Recordemos cómo se define el producto cartesiano de un conjunto: se trata de todos los pares de la forma (a, b), donde a y b pertenecen al conjunto A. Es decir, el producto cartesiano, A x A se define como: 
Llamamos pues relación binaria  a cualquier subconjunto de A x A, y diremos que los pares (a, b) de dicho subconjunto están relacionados por  , es decir, que  (a está relacionado con b por la relación  ). EjemploSi tomamos como conjunto  al conjunto de los números naturales,  , considerando su producto cartesiano,  , podemos establecer la relación tal que relaciona a cualquier n1 con su doble, 2n1. Es claro que el conjunto  es un subconjunto de  y por tanto la relación establecida es una relación binaria. Relaciones binarias de equivalenciaLas relaciones que nos interesan en este momento no son relaciones cualesquiera, establecidas un poco al azar, sino relaciones que cumplen tres propiedades muy interesantes: Reflexiva: Una relación  se dice reflexiva si para todo a perteneciente al conjunto A, se verifica que  . Simétrica: Una relación  se dice simétrica si para todos a, b pertenecientes al conjunto A, el hecho de que  implica a su vez que  . Transitiva: Una relacion  se dice transitiva si para todos a, b, c pertenecientes al conjunto A, que  y  implica que  . Vamos a ver un ejemplo de relación binaria que sí sea de equivalencia y otra que no lo sea, para tratar de aclarar el significado de estas propiedades. Ejemplo de relación binaria de equivalenciaDados  , decimos que  si se cumple que  . ¿Es de equivalencia esta relación binaria? Para contestar afirmativamente tendremos que demostrar que se cumplen las tres propiedades. Para contestar negativamente, bastará con encontrar que falla una de ellas. Empezamos verificando la propiedad reflexiva. Sea  . ¿Se cumple que  ? Por definición de la relación, esto será cierto si se cumple que  . Pero dado  , siempre tenemos que  , luego  y la relación es reflexiva. A continuación veamos si cumple la propiedad simétrica. Sean  y supongamos que  . ¿Se cumplirá pues que  ? Como  , por la definición de la relación  se tiene que  . Ahora bien, se cumplirá que  si y sólo si  . Pero  . Luego  y la relación es simétrica. Por último, veamos si la relación es transitiva. Sean  y supongamos que  y que  . ¿Se cumple que  ? Como  , tenemos que  , y como  , tenemos que  . Se cumplirá que  si y sólo si  . Pero: 
Por tanto  y la relación es transitiva. Finalmente, tenemos que se cumplen las tres propiedades, y por tanto la relación binaria  así definida es de equivalencia. Ejemplo de relación binaria pero NO de equivalenciaAhora definimos la siguiente relación: dos elementos  están relacionados,  si  . Veamos si cumple las tres propiedades que debe verificar para ser una relación binaria de equivalencia. Comenzamos verificando la propiedad reflexiva. Sea  , ¿se cumple que  ? Esto será así si  . Pero esto sólo es así si  . ¿Se verifica la propiedad reflexiva entonces? No, porque para que se cumpliera,  tendría que ser cierto para cualquier  . Y sabemos que eso no es así. Si  , entonces  . Por tanto, no se cumple la propiedad reflexiva: no tenemos que seguir examinando propiedades para afirmar que esta relación binaria no es de equivalencia. Clases de equivalenciaCuando tenemos una relación binaria de equivalencia sobre un conjunto  , dado un elemento  , definimos su clase de equivalencia  como el conjunto de los elementos de  que están relacionados con  . Es decir: 
Dado  , en  tenemos pues todos los elementos de  que son equivalentes a  . Pongamos un ejemplo de la vida real que, sin ser en absoluto riguroso, ayudará a aclarar este concepto. Imaginemos que hablamos de muebles, y queremos clasificarlos. Queremos distinguir sillas de mesas, de sillones, de sofás... Así que definimos las propiedades que, indiscutiblemente, definen a una silla y la distinguen del resto de objetos. Definimos las propiedades que definene a una mesa y la distinguen del resto de objetos. Igualmente con los sillones, los sofás... Cuando la relación permita identificar sillas entre sí pero distinguirlas de los otros tipos de muebles, etc., tendremos una relación de equivalencia. Dos elementos del conjunto "muebles" serán sillas si reunen una serie de atributos básicos. Y son sillas y no sillones porque la diferencia ha quedado perfectamente establecida, e igualmente establecidos los distintos tipos de muebles que contemplamos así como todas sus características. Es decir, una relación de equivalencia define la manera de distinguir un tipo de elemento de otro tipo de elemento, de forma que los elementos de la misma clase de equivalencia sean, esencialmente, iguales, pero completa y distinguiblemente diferentes de los elementos de las otras clases de equivalencia: estamos formalizando el concepto de clasificación. Conjunto cocienteUna vez tenemos todas las clases de equivalencia de  según  , definimos el conjunto cociente  como el conjunto de todas estas clases de equivalencia. Lo expresaremos formalmente como sigue: 
Notar que dados  ,  , y que  . La serie de posts que se inician con éste ha sido elaborada para TioPetros por Lola Cárdenas Luque, con quien compartimos pasión por la matemática y por el pensamiento crítico. De una manera lúdica nos irá introduciendo en los conceptos más importantes de la aritmética modular y de las reglas de divisibilidad. Les dejo con Lola, que es lo mismo que decir que les dejo en muy buenas manos.
Empecemos con el truco
Piensa un número de tres cifras. Por ejemplo, 123. Copia ese número detrás de sí mismo, para obtener con eso un número de seis cifras. A mí me queda 123123. Mi número está amañado para que me salga el truco, pero el tuyo no tiene por qué estarlo, aún no sabes qué te voy a decir que hagas con él.
Ahora divide ese número de seis cifras por 13. Yo también voy a hacerlo, y el cociente ha sido 9471. Qué curioso, la división ha salido exacta. Pues vamos a aprovecharlo. Seguro que a ti también te ha salido exacta.
Puedo verlo. Así que ahora divide ese cociente por... vamos a ver... vale, ya lo sé. Divídelo por 7.
Yo también dividiré mi 9471 por 7. Me sale 1353. Vaya, y otra vez la división exacta.
Es más, estoy convencida de que a ti también te ha salido exacta. ¿Probamos a dividir por un número más? Esta vez vamos a dividir el cociente obtenido por... hm... déjame concentrarme en tu número... Sí, ya lo veo claro. Vamos a dividir ese cociente por 11. Es más, antes de que hagas la división, te voy a decir el resultado. Te va a salir el número que has pensado al principio.
Voy a ver qué sucede con el mío. Divido 1353 entre 11 y obtengo... ¡123! ¡El número que he elegido al principio! ¿Sorprendido? Pues eso no es todo.
Ahora invierte el número de seis cifras. En mi caso quedaría 321321. Voy a decirte algo que te va a sorprender más aún: ese número que queda al invertir, también es un múltiplo exacto de 13. Y de 7. Y de 11. En este punto podría decir que he leído tu mente y he sabido, tras un rápido cálculo mental, que entre sus divisores estaban el 13, el 7 y el 11.
Es más, podría decir incluso que he intervenido en tus pensamientos para que eligieras un número de manera que, al darle la vuelta, también saliera múltiplo de 13, 7 y 11. Pero no voy a hacerlo. En lugar de eso, voy a explicarte el truco.
____________________  Es increíble que un concepto que en la vida real sea tan simple de entender como el concepto de “tamaño” sea tan difícil de aprehender desde la matemática. En una primera aproximación, si hablamos de conjuntos parece que entre dos de ellos es fácil decidir cuál es más grande: no hay más que establecer una correspondencia biyectiva entre ambos, o al menos intentarlo. Si lo conseguimos, habremos conseguido emparejar a cada elemento del primer conjunto con uno y sólo un elemento del segundo, por lo tanto ambos conjuntos tendrán el mismo número de elementos. Lo bueno de este método es que no hace falta construir efectivamente la biyección uno a uno , sino que basta con demostrar que existe. No obstante, aquí se acaban las buenas noticias. La idea anterior nos da un buen criterio de igualdad de tamaño en cuanto a cardinalidad, o a número de elementos entre dos conjuntos. Dado que un conjunto no es sino eso: una colección de elementos, uno podría preguntarse qué más queremos. Pues queremos bastante más. La cardinalidad es una buena idea para medir conjuntos finitos: un conjunto de 1000 elementos es mayor que uno de 999 elementos; pero entre dos conjuntos de infinitos elementos la cosa es más complicada: ¿dos conjuntos infinitos de la misma cardinalidad tienen el mismo tamaño? El lector debiera darse cuenta de que estoy haciendo trampa con la pregunta anterior. Estoy preguntando por el tamaño de dos conjuntos como si el concepto estuviera aclarado, y no lo está. La existencia del concepto tamaño parece llevar consigo la existencia de una relación de orden entre conjuntos, de manera que podamos decir que uno que otro o si ambos son del mismo tamaño . Podemos demostrar que la cardinalidad no es una buena idea para comparar tamaños por la simple existencia de conjuntos de igual cardinalidad y “tamaños” diferentes. Consideremos los intervalos [0,1] y [0,2]. Ambos tienen la misma cardinalidad, la del continuo. En efecto, es muy sencillo emparejar cada elemento de [0,1] con uno y sólo uno de los elementos de [0,2], simplemente haciéndolo corresponder con su doble. Así de sencillo. Si no nos sorprende es por que lo sabemos desde niños, no porque no sea sorprendente. Así pues, tenemos una nueva manera de comparar “tamaños” entre conjuntos cuando la cardinalidad no es buena guía: la medida de lebesgue de los mismos. Cuando hablábamos de variables aleatorias definimos la medida de Lebesgue: en el seno de una sigma-álgebra, y dijimos que la medida de un intervalo [a,b], ó (a,b) ó (a,b] ó [a,b) es el número real m=b-a. Ahora se ve que desde esta perspectiva los intervalos [0,2] y [0,1] son de medida diferente, a pesar de tener la misma cardinalidad. Uno es el doble del otro más concretamente. Como un punto p equivale al intervalo [p,p], queda claro que la medida de cualquier punto es m = p-p = 0. Cualquier conjunto finito de puntos tendrá asimismo medida nula. Es más, cualquier conjunto numerable de puntos la tendrá nula también, pues por propiedad de las sigma-álgebras, la medida de una unión numerable es la suma de las medidas, y una suma numerable de ceros es cero. Así pasaba con el conjunto Q, que tratamos cuando hablábamos de la insoportable levedad del conjunto Q; era denso en R , y exhibía una curiosa propiedad que parecía (falsamente) hacerlo igual de grande que todo R: entre dos puntos de Q siempre había uno de R ( en realidad infinitos). Pero también era cierto lo contrario: entre dos puntos de R siempre había infinitos de Q. A pesar de este quid procuo , veíamos que Q no era sino polvo fractal dentro de R, y que su medida era cero. Q era ubícuo en R, pero era numerable (otra sorpresa dilucidada por Cantor y muchas veces comentada aquí), y medía excatamente cero. Lo que no está nada claro es qué ocurre cuando el conjunto es una unión no numerable de puntos. Dado que un intervalo es precisamente eso, y que tiene medida no nula, sabemos que ciertos conjuntos infinitos (respecto a su cardinalidad) no numerables son de medida no nula. ¿Pero lo serán todos? La intuición nos indica que así es. Sin embargo, la intuición es tan mala consejera en matemáticas... Seguiremos en el próximo post mostrándoles un conjunto con cardinalidad infinita no numerable que, a pesar de ello tiene medida cero, el conjunto de Cantor . Lo cual nos hará ver que la relación entre medida y cardinalidad es complicada, y que debemos abandonar para siempre la idea preconcebida de que podíamos imaginar un concepto de “tamaño” que fuera siempre satisfactorio para comparar varios conjuntos. Se mezclarán en este nuevo paseo otros conceptos importantísimos como el de dimensión . Pero no adelantemos acontecimientos.  Ya estamos en condiciones de definir una variable aleatoria como una función medible de un espacio probabilístico ( X, A,P) en el espacio medible ( R,B), donde , B es la sigma-álgebra de Borel definida en R. Todos los conceptos están definidos en los cinco posts anteriores. Sea f tal variable aleatoria. Para ver la importancia de que f sea medible, repetiremos la definición de función medible dada en el post anterior: Diremos que f es una función medible cuando la antiimagen de todo subconjunto de R que sea elemento de B es un subconjunto de X que es a su vez elemento de A. Esto significa que todo subconjunto medible de la recta real tiene un subconjunto medible del espacio probabilístico del cual es imagen. Tenemos una probabilidad definida en el espacio de partida, pero no en el de llegada. En virtud de la medibilidad de f, podemos considerar ahora una probabilidad inducida en R. En efecto, si B es un boreliano de R, tenemos la probabilidad inducida indicada por la siguiente ígualdad, que dada su importancia conceptual me permito escribir en caracteres grandes: Pf{B} = P{f-1(B)} La probabilidad original es P, y está definida en el espacio probabilístico original ( X, A,P); la probabilidad inducida es Pf, definida ahora en lo que hasta ahora era simplemente un espacio de medida de con la medida de Lebesgue , y ahora es ya otro espacio probabilístico. La variable aleatoria toma medidas en R, y para nosotros éste segundo espacio probabilístico inducido, ( R, B,P f) será lo más visible del problema en cuestión. Nuestros cálculos sobre probabilidades los haremos en muchas ocasiones sin preocuparnos del espacio de partida; y a menudo quedará totalmente a la sombra, si bien es “el que maneja las cuerdas del azar”. Esto se verá mejor con algún ejemplo: Partíamos en esta serie de posts sobre el azar de dos experimentos aleatorios: Experimento A: tirar un dado no trucado una vez. Experimento B: elegir un número con equiprobabilidad en el intervalo [0,1] Ambos experimentos definen los espacios probabilísticos de partida. De momento no hay variable aleatoria alguna definida.Definamos ahora dos variables aleatorias sobre ellos: Para el primer experimento, f1 definida como un pago en miles de euros igual a la puntuación sacada en el dado. Para el segundo experimento, f2 un valor de 100 si el numero es mayor que 0,5 y un valor de –100 si el número es menor o igual que 0,5. Ahora, podemos abstraernos de las naturalezas de los espacios probabilísticos de partida, porque podemos hablar de probabilidades en los espacios de llegada; probabilidades inducidas por las variables aleatorias y por las probabilidades. En efecto, en el primer caso, obtenemos 1000, 2000, 3000, 4000, 5000 ó 6000 euros con la misma probabilidad de 1/6. Esto nos basta para cortar las amarras que nos unían al espacio ( X, A,P) original, en el que X={1,2,3,4,5,6}, y contemplar únicamente la distribución de premios con sus respectivas probabilidades que es lo que nos interesa. Ahora podemos responder a cuanquier pregunta del tipo: ¿Qué probabilidad tenemos de ganar más de X euros? ¿Qué probabilidad tenemos de ganar entre X e Y euros?En la pregunta podemos incluir cualquier subconjunto de R que sea medible Borel. Parece que en este ejemplo tan sencillo estamos matando mosquitos a cañonazos. Efectivamente, el arsenal matemático empleado es desproporcionado; pero eso es tan sólo porque el ejemplo era trivial. En ejemplos más elaborados la cosa cambia. En nuestro segundo ejemplo la variable aleatoria tan sólo puede tomar dos valores: +100 ó –100. Por tanto, el conjunto {+100,-100} de R es todo el recorrido de la variable aleatoria f2 . Sin embargo, sigue siendo cierto que f2 define una probabilidad condicionada en toda la sigma-álgebra de Borel de R. Cada elemento de dicha sigma-álgebra de partida es un posible resultado del experimento de elegir con equiprobabilidad un punto en el intervalo [0,1]; así, B={0.25} es “salir elegido el 0,25; y B=[0,1/2) es “salir elegido un número menor que 1/ 2”, mientras que B= [0,1/2) U (1/2,1] es “no salir elegido el 1/ 2” . Todos ellos tienen una probabilidad asociada por el simple hecho de ser ( X, A,P) un espacio probabilístico. Ahora, cada B R (el subíndice es para recalcar que ahora estamos refieriéndonos a la sigma-álgebra del conjunto de llegada) de la sigma-álgebra de Borel de R tiene también una probabilidad inducida asociada, que es la probabilidad de que la variable aleatoria tome un valor que esté incluido en B. Así, B R=[1,inf) es el suceso “la variable f2 toma un valor mayor o igual que la unidad. En este ejemplo tan sencillo, la probabilidad P f2 inducida es la siguiente: P f2(B)= 0 , si {-100,+100} no está en B P f2(B)= 1, si {-100, +100} está en B P f2(B)= 1/ 2, si tan sólo uno de los dos valores –100, +100 está en B. Y desde este momento, podemos olvidarnos del espacio probabilístico de partida y trabajar tan sólo con la variable aleatoria. De hecho, la propia existencia de los espacios probabilísticos y sus sigma-álgebras, tanto de salida como de llegada pueden quedar oscurecidos al trabajar con un problema concreto. Pero siempre subyacen en el problema, dado cohesión teórica a todo el entramado. Un profesor, decía que los espacios probabilísticos son como Rebeca, la de la película de Hitchcock. Todo gira alrededor de Rebeca, aunque no se le ve por parte alguna. Pero sin Rebeca no habría película...  A lo largo de estos tres posts repasamos hace unos meses el concepto de continuidad en espacios generales. Decíamos allí que la continuidad de una función entre dos espacios topológicos era una propiedad relativa, no absoluta de la función. Unas topologías harían continua una determinada función y otras no. La noción de proximidad surgía de la topología sin necesidad de tener una métrica o forma de medir distancias definida, y decíamos que: Una función continua en un punto p transforma puntos próximos a p en puntos próximos a f(p), y esa proximidad se establece en virtud de los entornos de las respectivas topologías.Otra forma de decirlo es que la función, para ser continua debe "ser respetuosa" con las topologías de partida y de llegada. El concepto de función continua y de función medible es radicalmente diferente, pero operativamente análogo. En el caso que nos ocupa, no tenemos espacios topológicos, sino espacios de medida , que como hemos dicho son una tríada ( X, A,M), donde X es un conjunto cualquiera, A es una sigma-álgebra subre X y M es una medida definida en A. Supongamos que tenemos dos espacios de medida: ( X, A,M X) y ( Y, B,M Y); y una aplicación f de X a Y. Diremos que f es una función medible cuando la antiimagen de todo subconjunto de Y que sea elemento de B es un subconjunto de X que es a su vez elemento de A. De esta forma, la función “es respetuosa” con las sigma-álgebras de partida y de llegada. Este aparente galimatías esconde una idea extremadamente sencilla: los elementos de las respectivas sigma-álgebras son simplemente aquellos subconjuntos para los cuales tiene sentido aplicar el concepto de medida, y por ello se denominan conjuntos medibles . La propiedad pedida a las funciones medibles exige que cada medible del conjunto de llegada tenga un alter ego medible en el conjunto de partida del cual es imagen por dicha aplicación. Es fácil comprender que este tipo de funciones son las interesantes entre espacios medibles. Las variables aleatorias que aún estamos por definir son aplicaciones medibles entre dos espacios de medida: el origen es un espacio probabilístico ( X, A,P), donde P es una medida definida en X tal que P(X)=1, y por lo tanto es una probabilidad. Y el de llegada es en conjunto de números reales R. Lo único que nos falta es dotar a R de una sigma-álgebra para tener el panorama completo. Y eso es muy fácil de hacer: la medida en R será la extrapolación de la noción intuitiva de longitud a todos los conjuntos medibles de R. Esta medida se denomina medida de Lebesgue . Definir la medida de Lebesgue es dar una pauta para encontrar la medida de cualquier subconjunto medible de R. Como cualquiera de tales elementos debe poder ser obtenido por uniones y pasos a complementario de elementos, en virtud de la definición de sigma-álgebra, definiremos tales elementos primitivos como los intervalos [a,b], y definiremos su longitud como el número real l[a,b]=b-a. Las propiedad sigma-aditividad de la medida junto con las propiedades generales de toda sigma-álgebra nos facilita definir la medida de cualquier subconjunto que pertenezca a esta sigma-álgebra generada por los intervalos de la recta real. Recibe el nombre de sigma-álgebra de Borel , y sus elementos se denominan borelianos . Es mucho más fácil encontrar borelianos en la recta que no borelianos. Cualquier cosa incluida en Rque se imaginen (a no ser que sepan mucho o tengan mucha imaginación) es un boreliano. Los intervalos lo son, sean abiertos o cerrados (radical diferencia con las topologías),los puntos aislados lo son también... efectivamente, por uniones, intersecciones finitas o infinitas numerables, y con pasos a complementario (operaciones permitidas en las sigma-álgebras) lo podemos conseguir casi todo. Es ese casi el que complica tanto la teoría de la medida: existen como anunciábamos ciertos subconjuntos de R tan endiablados que no son borelianos, y para ellos no se puede definir medida alguna. Estos elementos son los que posibilitan en R3 cosas tan inexplicables como la paradoja de Tarski-Banach , de la que hablamos en su día aquí. Tenemos la estructura montada. En el próximo post veremos la definición rigurosa de variable aleatoria y comprenderemos mejor esa idea intuitiva de que una variable aleatoria es una variable que toma valores en función del azar. Entonces comprobaremos que no es una ocurrencia pedir que sea una función medible, sino que esta propiedad es la que nos posibilitará a inducir una probabilidad en R. Seguiremos dentro de unos días. 
Aunque los hombres se jacten de sus grandes acciones, muchas veces no son el resultado de un gran designio, sino puro efecto del azar.
François de la Rochefoucauld No perdamos el hilo: hace dos posts anunciábamos el comienzo de una serie explicativa de las bases de la teoría de la probabilidad, bellísimo edificio construido hace menos de un siglo por varias mentes poderosas entre las que descuella la de Kolmogorov, que aparece en la foto. Allí comenzamos el tema, y aquí desarrollamos el guión que seguiríamos. El presente post es la presentación de las estructuras conjuntísticas sobre las que se van a definir probabilidades. La meta es la definición rigurosa del concepto de variable aleatoria, tal y como se entiende modernamente. _________________________________________________________ ALGEBRAS Y SIGMA-ALGEBRAS
Hace unos meses hablábamos de topología. Decíamos allí que se pueden definir unas estructuras en el seno del conjunto de partes de un conjunto, con ciertas propiedades interesantes para lo que queremos en cada momento. Así, definíamos una topología sobre un conjunto X, como una colección de subconjuntos de X tal que cumplían tres propiedades: 1.- El conjunto total X y el vacío pertenecen a la colección. 2.- Si dos subconjuntos pertenecen a la colección, también pertenece su intersección. 3.- Para toda familia arbitraria de subconjuntos de la colección, la unión de todos ellos pertenece a la colección. Con estas tres propiedades obteníamos la caracterización de unos subconjuntos distinguidos en cierto aspecto, que denominábamos abiertos de la topología. Parece un hecho mágico que estas tres propiedades consigan tanto con tan poco, pero la realidad es que nada hay arbitrario aquí, y dichas propiedades son las que históricamente se han fijado como correctas para construir una topología. El tema que nos ocupa ahora tiene poco que ver con la topología, pero parte de una construcción análoga: una colección de subconjuntos de un conjunto genérico X que cumple ciertas propiedades. No perdamos de vista nuestro objetivo: X es un espacio muestral ; un conjunto de posibles resultados de un experimento aleatorio. En principio, cada subconjunto puede ser un evento. Más tarde quedará claro el inicio de la frase anterior en principio. A lo largo de todos estos posts haremos referencia a los dos experimentos que mencionábamos al principio de la serie: EJEMPLO A: Tirada de un dado. EJEMPLO B: Elección de un punto en el intervalo [0,1] Si nos fijamos en el experimento A, veremos que si tiene sentido pensar en el evento A=”sacar menos de cinco”, también será lícito preguntarse por el contrario A c=”sacar cinco o más”. El símbolo A c se llama complementario de A, y supone la realización de un resultado no contemplado en A. Así mismo, dados dos eventos posibles A y B, será lícito preguntarse por el evento unión de ambos. Estas dos propiedades que deben cumplir los eventos de un espacio muestral son suficientes para definir una estructura denominada álgebra en un conjunto DEFINICION. Dado un conjunto general X, un álgebra sobre X es un sistema de subconjuntos de X tal que:
1.- Si A pertenece al sistema, entonces Ac también pertenece. 2.- Si A y B pertenecen al sistema, su unión también pertenece al sistema.Podríamos preguntarnos porqué es necesaria tanta complicación, si con el conjunto de partes de A tenemos ya a todos los subconjuntos contemplados, y por tanto a todos los posibles eventos. La respuesta no puede ser más sorprendente: en el caso más general, en el que el conjunto X de partida es infinito no numerable, como el del ejemplo B existen ciertos subconjuntos que no representan eventos. Pero este extremo lo entenderemos mejor cuando hayamos introducido el concepto de medida de un conjunto. Las dos propiedades anteriores son mucho más potentes de lo que parece. Por ejemplo, dados dos subconjuntos A y B de un álgebra de X, no sólo la unión, sino que también la intersección pertenece al álgebra. Pero no hace falta alguna introducir una nueva propiedad; basta una aplicación trivial de las leyes de Morgan para deducirlo de las dos propiedades enunciadas. El desarrollo de la demostración lo tenéis a continuación:  Esto está pleno de sentido. Si dados dos eventos A y B, es lícito preguntarse por el evento unión de ambos, también lo es el preguntarse por el evento intersección: aquél que recoge los resultados individuales comunes a A y B, luego es necesario que en la estructura sobre la que vamos a definir probabilidades se de esta propiedad. Cuando tenemos un espacio muestral como el del segundo ejemplo, infinito no numerable, es importante añadir una tercera propiedad : 3.- la union de colecciones infinitas numerables de subconjuntos de la colección también pertenece a la misma.Las álgebras que cumplen esta tercera propiedad añadida se denominan sigma-álgebras . Los espacios probabilizables que mencionábamos en el post anterior son simplemente el par ( X, A) formado por el conjunto muestral; X={1,2,3,4,5,6} en el ejemplo A y X=[0,1] en el ejemplo B; y la sigma-álgebra correspondiente; el conjunto de partes de X en el ejemplo del dado A y algo más complicado en el caso B. Ahora tenemos la casa preparada para empezar a habitarla. Las álgebras en el caso finito (sigma-álgebras trivialmente); y las sigma-álgebras en el caso general, se mostrarán como el aparato matemático idóneo para definir probabilidades en el seno de XParte del motivo de que esto sea así debe ser a estas alturas evidente por sí mismo: las propiedades elegidas para definirlas sigma-álgebras son las que necesitamos para los sucesos. La otra parte vendrá de la mano de la definición de medida, y de probabilidad. El hombre tiene mil planes para sí mismo. El azar, sólo uno para cada uno.
Mencio
______________________________________________
Es este post vamos a comenzar la construcción del edificio conceptual que nos llevará a definir con cierto rigor qué cosa es una variable aleatoria.
Como dijimos en la introducción que supuso el post anterior, las variables aleatorias dan valores reales a los elementos de un espacio general que llamábamos espacio probabilístico . La misión de este post es presentar el recorrido que vamos a realizar en los próximos posts para explicar todo esto.
En la exposición de este tema, que nos ocupará varios posts, ilustraremos el discurso con dos ejemplos sobre los que posteriormente definiremos variables aleatorias:
EJEMPLO A: Tirada de un dado. EJEMPLO B: Elección de un punto en el intervalo [0,1]
Los posibles resultados de cada experimentos forman los respectivos Espacios muestrales . En el ejemplo A, el espacio muestral es X={1,2,3,4,5,6}; y el en ejemplo B es X=[0,1]. Centrémonos en el dado por el momento.
Un suceso no es simplemente cada uno de los elementos del espacio muestral, sino cada uno de los subconjuntos del mismo. Así, el suceso Z1={1,2,3,4,5} es el suceso “sacar menos de seis”; y el suceso Z2={1,3,5} es el suceso “sacar impar”.
De esta manera, asociado al conjunto X tenemos el sistema de todos sus subconjuntos, o conjunto de partes que denominaremos A.
El par (X, A) así definido se denomina espacio probabilizable para un conjunto finito X. Luego con el ejemplo B veremos que en el caso contínuo las cosas no son tan fáciles.
La propia nomenclatura de espacio probabilizable indica que tenemos todo dispuesto para hacer uso de la noción de probabilidad. Una probabilidad es una función de conjunto. El hábitat de una función de conjunto es diferente al de una función habitual del cálculo: las funciones de conjunto residen en un conjunto marco X, y más específicamente en el conjunto de partes de X, o un subconjunto suyo, de forma que a cada subconjunto B de X le corresponde un número.
Pero todo esto no es más que una burda aproximación, y como no tenemos prisa alguna y los conceptos necesarios son bellos de por sí, nos pasearemos por ellos en varias etapas.
Para hacer una exposición medianamente completa de este extremo, debemos explicar más pormenorizadamente qué es una función de conjunto, qué es una medida y qué es una probabilidad.
Y para ello, comenzaremos preparando convenientemente la casa en la que dichos conceptos van a habitar. Nos preparamos pues para hablar de unas estructuras llamadas sigma-álgebras, que no son sino porciones del conjunto de partes de un conjunto que cumplen ciertas propiedades muy sencillas, aunque dichas propiedades hacen que las sigma-álgebras sean a veces objetos muy complicados.
El guión de lo que sigue será así:
1.- Sigma-álgebras sobre conjuntos generales. Sigma-álgebra de Borel en R 2.- Funciones de conjunto 3.- Medidas sobre conjuntos. Medida de Lebesgue. 4.- Probabilidad. Espacios probabilísticos 5.- Funciones medibles
y por fin, variables aleatorias.
La intención es hacer un recorrido por estos tópicos sin fórmulas o casi sin fórmulas, atendiendo a la sutileza de los conceptos con la única meta en mente de atrapar de forma rigurosa aunque cualitativa el azar entendido matemáticamente.
Seguimos mañana.
En matemáticas las cosas están claras. Me explico: no hay ninguna indefinición en los conceptos, y las definiciones son claras, precisas y exentas de ambigüedad. Lo que ocurre es que, a veces, la sutileza de los conceptos a emplear exige una aparentemente complicada terminología.
Así ocurre con la definición de variable aleatoria . En una primera aproximación, la expresión variable aleatoria parece remitir a una variable que toma valores en función del azar. Esa primera impresión es totalmente correcta; pero fijar el concepto con el rigor que se exige en matemáticas no es tarea trivial. El presente post tiene la misión de acercar al lector a una definición algo más precisa de esto último.
La primera complicación viene del mundo en el que habitan las variables aleatorias, más complicado de explicar que el mundo de las variables habituales del cálculo infinitesimal.
En el cálculo infinitesimal, una función de n variables f(x,y,z,...t) “habita” en el espacio n-dimensional formado por las variables x,y,z,..,t. Este universo por muy n-dimensional que pueda ser es muy parecido al que habitamos nosotros: se tratá de un espacio métrico en el que existen distancias entre puntos. La propia función consiste en una aplicación que a cada punto del dominio de la función le hace corresponder un número, real o complejo.
Las de variable aleatorias no habitan en espacios métricos de este tipo, y esta es una diferencia radical. Su espacio natural es un espacio probabilístico, así que empezaremos por el principio.
La primera diferencia radical entre un espacio probabilístico y un espacio habitual (un espacio métrico n-dimensional) es que el segundo está formado por “puntos”; mientras que el primero está formado un conjunto en la acepción más general de la palabra, junto con sus elementos y subconjuntos; más una probabilidad definida en su seno . La frase anterior está en cursiva para resaltar el hecho de que tenemos mucho por definir antes de poder hablar alegremente de una probabilidad definida en el seno de un conjunto.
Así pues, una variable aleatoria no hará corresponder un valor concreto a cada punto de un espacio, sino que tendremos un conjunto de partida, que llamaremos X, y la de variable aleatoria hará corresponder valores concretos elementos concretos de dicho conjunto original.
He subrayado valores concretos para hacer hincapié en el hecho de que la aleatoriedad no reside en la atribución del valor a cada subconjunto. Repito: a cada elemento en el cual la variable aleatoria esté definida, la variable aleatoria le hace corresponder un número real (o complejo) fijo.
Dónde reside entonces la aleatoriedad?
Pues en el propio espacio de definición, que por eso se denomina espacio probabilístico. Para definir qué cosa es un espacio probabilístico, es necesario tener unos conceptos previos, lo que me da pié a iniciar una serie de posts sobre el tema
Haremos una incursión cualitativa en la teoría de la medida, en los espacios medibles y por lo tanto en las álgebras de conjuntos y sigma-álgebras. Espero que les guste el paseo.  En una ocasión, hablamos de los ingenuos trisectores de ángulos. Llamábamos así a estas personas empeñadas en demostrar lo imposible. Existe una fauna muy variada de personajes de este pelo; en cuestiones físicas se agolpan alrededor del mito de la máquina de movimiento continuo, y en matemáticas alrededor de tres problemas imposibles: la duplicación del cubo, la trisección de un ángulo cualquiera y la cuadratura del círculo . Decíamos entonces que la imposibilidad de estas tres construcciones se debe a resultados que provienen de la teoría de Galois, y que se resumen en dos proposiciones, ambas perfectamente consolidadas, demostradas y admitidas por la comunidad matemática desde hace muchísimo tiempo: 1.- Todos los números de Q son construibles. 2.- Un número real es construible si y solo si es solución de una ecuación de grado potencia de dos en Q La cuadratura del círculo implica al número pi, que no es solución de ningún polinomio en Q, la duplicación del cubo implica la construcción de la raíz cúbica de dos, que es solución de un polinomio de grado tres (no es potencia de dos), y la trisección del ángulo de 60º implica la construcción de otro número solución de una ecuación de grado tres, y por lo tanto las tres son imposibles. Pueden existir métodos para trisecar un ángulo concreto (el del ángulo recto es trivial), pero nunca, NUNCA el de 60º. Sucede que existen ciertos problemas parecidos en apariencia a los tres anteriores, que sí son posibles, y vamos a ocuparnos de uno de ellos: la cuadratura de la lúnula de Hipócrates . Una lúnula es la porción de plano comprendida entre dos arcos de circunferencia. En la figura tienen una lúnula de Hipócrates , que es una lúnuna con las proporciones dadas por las dimensiones de un cuadrado ABDC. Uno de los dos arcos es el ABC, con centro en 0 y radio r = OA. El otro es el APC, con centro en D y radio R = AD. El área de la lúnula es la diferencia entre el semicírculo de centro en O y radio OA y el sector circular APC Llamemos AL al área de la lúnula; As al área del semicírculo y At al área del sector antes citados. Tenemos AL = As - AtY desarrollando podemos escribir:  Así pues, el área de la lúnula es r 2, y como r 2=R 2/2, tenemos que el área de la lúnula es la mitad del área del cuadrado ABCD, o lo que es lo mismo: es igual al área del triángulo ABC, todo ello perfectamente construible con regla y compás a partir de la lúnula. ¿A que es sorprendente un área de una figura limitada por arcos de circunferencias en la que no aparece pi? Y es que la resta de dos números irracionales ( o en este caso lo que es aún peor: transcendentes) bien puede ser un número racional. En el fondo no hay misterio alguno: la explicación radica en la igualdad de dos áreas: el área A s del semicírculo ABC, y el área del cuadrante de círculo de centro en D y radio R. Llamemos X a dicho área. El área de la lúnula es igual a la diferencia entre A s y A t. La primera vale X y la segunda vale ( X -Q) siendo Q el área del triángulo ADC. Por ello, el área buscada vale A L = X - ( X -Q) = Q. Tanto ( X -Q) como X son trascendentes, no así Q, que es un número bien racional. Seguimos con la conjetura de Borsuk, comenzada en el post anterior. Cuando hablábamos de topología dijimos que a veces lo que está claro para dimensiones altas no lo está tanto para dimensiones bajas, cercanas incluso a nuestro mundo tridimensional.. De ahí que surja, por ejemplo, lo que se denomina topología de baja dimensión . En el caso que nos ocupa, sin embargo, pasa lo contrario. La conjetura de Borsuk resulta ser cierta para dos y tres dimensiones. Sin embargo para dimensiones altas la cosa es muy complicada. Veamos por encima el asunto. Para el caso tridimensional, la demostración tiene un atajo, basado en el siguiente teorema: Todo objeto de tres dimensiones con diámetro d está contenido en un octaedro recto cuyas caras opuestas están a una distancia d unas de otras, y con tres de sus vértices truncados por planos perpendiculares s las diagonales, que distan d/2 del centro. Puede parecer un poco complicado, pero con las siguientes figuras se ve mejor: Aquí vemos tal octaedro con el truncado del primer vértice:  Ahora con tres de sus vértices de la misma manera:  el teorema anterior dice que todo cuerpo tridimensional de diámetro d puede meterse dentro de este octaedro truncado, y resulta que sabemos dividir dicho cuerpo en cuatro partes para que todas tengan menor diámetro que el original, véanlo en la ilustración siguiente:  Ahora queda claro que el número de Borsuk para cualquier cuerpo de tres dimensiones es menor o igual a cuatro. Es evidente que para dimensiones mayores no podemos seguir por ese camino. Por eso es comprensible que el reto quedara en suspenso durante muchos años. Este estado de cosas cambió con la publicación por parte de los matemáticos J. Kahn y G Kalai en el Bulletin of the American Mathematical Society de un artículo que se titulaba Un contraejemplo de la conjetura de Borsuk . (1) Lo que Kahn y Kalai hicieron fue demostrar que el número de Borsuk para cualquier objeto n-dimensional crecía exponencialmente con la dimensión. Más concretamente demostraron que cuando la dimensión crece hacia infinito, el número de Borsuk tiende asintóticamente a una función exponencial, que resultó ser la función siguiente: g(n)=(1,1) SQR(n) donde SQR(n) quiere decir raíz cuadrada de n. Una de las propiedades de las funciones exponenciales es que por muy despacio que avancen al principio ( y esta lo hace muy lentamente, pues la base es cercana a la unidad, y el exponente no es n , sino su raíz cuadrada), siempre terminan por superar a cuanquier función polinómica. Concretamente la función f(n)= (n+1) que proponía la conjetura de Borsuk es polinómica de grado uno. Para un valor de n = 9.162 la función exponencial g(n)=(1,1) SQR(n) comienza a ser mayor que (n+1), luego a partir de ahí la conjetura de Borsuk debe fallar necesariamente. Este resultado zanja la cuestión de la validez universal de la conjetura, pero deja abierta una incógnita bastante incómoda. Efectivamente, tal valor de la dimensión (n=9.162) es una simple cota máxima de cumplimiento de la conjetura: asegura que de ahí hacia arriba se deja de cumplir, pero nada dice de valores menores que 9.162. Bien pudiera ser que falle desde valore bastante menores. Las sucesivas cotas de d han ido bajando : Nilli obtuvo el valor de 946, Raigorodsky 561 y Weissbach el de 560. Más recientemente, ya en el año 2.000, Aicke Hinrichs alcanzó el valor de 323. El artículo está disponible aquí.EN todo caso,el tema está abierto. ¿Cuál es el valor de la dimensión para el cual la conjetura de Borsuk empieza a ser falsa? ______________________________________________________ HACE UN AÑO comenzábamos una serie de tres post para responder la pregunta ¿Qué es un número? Vimos que contra la opinión general el número no es un concepto primigenio en la matemática, sino que se basa en el concepto anterior de conjunto. En este post comenzamos a ver los axiomas en los que nos íbamos a basar, aquí desarrollamos la idea y finalmente concluimos con la extraordinaria idea de que fundamentación de los números naturales y la matemática toda está basada en el conjunto vacío. A Siddharta Gautama el Buda le hubiera gustado esta idea. ______________________________________________________ (1) J. Kahn & G. Kalai: A counterexample to Borsuk's conjecture, Bulletin Amer. Math. Soc. 29 (1993), 60-62.  Dos reflexiones pueden servir para empezar este post, y ambas han sido realizadas bastantes veces desde este blog. La primera es que las conjeturas tienen en matemáticas un valor muy exiguo como afirmaciones, y un gran valor como acicate para nuevas investigaciones. De hecho, un sinnúmero de veces resultan ser falsas. Sin embargo el reto de demostrarlo ha espoleado a investigadores para transitar por caminos poco conocidos, alumbrando de paso rincones de la matemática, cuando no descubriendo zonas totalmente nuevas, más importantes que la mera dilucidación de la verdad o falsedad de la afirmación de la conjetura. La segunda es que en matemáticas no hay nada inocente. La propiedad más ingenua en apariencia, el teorema más tonto, la propiedad más aparentemente infantil puede dar pie a complicaciones de extraordinario calado, y generalizaciones inimaginables a priori. Hoy pretendo hablarles de algo bastante poco conocido: la conjetura de Borsuk . El inicio del asunto no puede ser más simple: dado un subconjunto de R 2 , como el F de la figura, definimos el diámetro del mismo como el menor número real que es más grande que la distancia de dos puntos cualesquiera de F . En la figura, el diámetro de F es igual a la distancia entre los puntos A y B, los más alejados de entre todas las parejas de puntos de F . Les muestro una partición de F en dos subconjuntos, F1 y F2 . Los diámetros respectivos de cada uno de ellos son menores que el diámetro del conjunto F original. Normal , pensarán. Pues no, no es tan normal. Si nuestro conjunto de partida F es una figura tan poco rebuscada como un triángulo equilátero, entonces no podemos partirlo en dos figuras que tengan ambas menor diámetro que el original. El motivo es claro: al repartirse tres vértices entre dos, alguno se quedará con dos de ellos. Para ese, el diámetro será necesariamente igual al del objeto original. En resumen: necesitamos dividir el triángulo en tres partes para obtener diámetros menores que el original en cada una de las figuras de la partición. Pueden ver la partición necesaria en la siguiente figura:  Así pues, las cosas no son tan sencillas. Llamemos B(F) al número entero que representa la mínima cantidad de trozos necesarios para partir la figura F de forma que todos los trozos sean de menor diámetro que el original. ¿Cuánto puede valer B(F) para una figura plana general? ¿Y para una figura tridimensional? ¿Y si F tiene 27.389 dimensiones? Como pueden ver, la cosa se complica. Para el caso de dos dimensiones, Borsuk demostró en 1.933 que con las tres divisiones que necesitaba el triángulo equilátero bastaba para cualquier figura. Así pues B(F) era menor o igual a 3 para cualquier figura de dos dimensiones. Esto le dió pié a presentar su conjetura para el caso más general, que dice: Sea F un subconjunto acotado del espacio n-dimensional. Entonces B(F) es menor o igual a (n+1).Era una conjetura arriesgada. Conjeturar el caso general cuando sólo se conoce un caso concreto me recuerda a hablar de la posibilidad de vida extraterrestres cuando sólo conocemos el cao de nuestro planeta. Es tema harto difícil. Sin embargo, el caso para tres dimensiones cayó en 1.955 ( veintidos años después del reto de Borsuk), cuando Eggleston demostró que para tres dimensiones hacían falta a lo sumo... ¡cuatro divisiones!. La conjetura cobraba fuerza. La demostración de Eggleston debe ser de una complejidad inusitada, pero válida. Dos años después otro matemático, Grunbaum dió otra demostración del mismo hecho, algo más sencilla pero igualmente endiablada. Quedaba aún el caso general... que vino a demostrar que la conjetura era falsa. Lo vemos en breve, si ustedes quieren; como siempre.  Hemos explicado en post recientes que las raíces de la unidad se distribuyen a lo largo de la circunferencia unidad en el plano complejo, dividiéndola en n partes iguales. Vimos que cada uno de los valores de la raíz n-ésima de la unidad se podía expresar mediante el número complejo ei(2PI/n)k. Dando valores a k desde 1 hasta n obtenemos todas las raíces. No lo dijimos en su momento, pero a dichos números complejos unitarios se les denomina números de Moivre . Estas raíces son las soluciones de la ecuación polinómica : xn=1Pues bien, a aquellos polígonos irreducibles cuyas raíces son raíces de la unidad se llaman Polinomios ciclotómicos . Esta bella palabra significa etimológicamente “que corta a la circunferencia”; como podemos ver tienen el nombre muy bien puesto. No son ellos quienes cortan a la circunferencia en R 2, sino sus raíces en el plano complejo. Nuestro polinomio genérico xn-1 no será ciclotómico para todo valor de n. De hecho lo será sólo para n=1. El motivo es que en la propia definición de Polinomio ciclotómico se expresa que dicho polinomio debe ser irreducible. Los polinomios son expresiones en forma de suma de potencias de ciertas variables, denominadas indeterminadas . Consideraremos únicamente polinomios racionales de una indeterminada. Su forma genérica es: P(x)=anxn+an-1xn-1+ an-2xn-2+...+ a1x+a0 Los números a n son los coeficientes; que pertenecerán al cuerpo de los racionales. Pues bien; el conjunto de todos los polinomios con la operación suma y producto habituales resulta ser un anillo, que llamaremos Z[x] o Q[x], para el caso de que los coeficientes sean enteros o racionales. Z[x] o Q[x] resultan ser anillos y no cuerpos, y la relación de divisibilidad entre los polinomios se define al uso: Diremos que un polinomio P(x) divide a otro Q(x) cuando existe un tercero Z(x) tal que Q(x)=Z(x)·P(x) Diremos que un polinomio es irreducible cuando no puede expresarse como producto de otros dos. Por lo tanto, obtendremos los sucesivos polinomios ciclotómicos factorizando los polinomios genéricos xn=1. El primero de ellos provendrá de la ecuación x=1; y por lo tanto es F1(x)=x-1.Para n=2, tenemos x2=1, que en forma de polinomio es x2-1 Ahora bien; este polinomio se puede expresar como (x+1)·(x-1). Como el segundo factor era el primer polinomio ciclotómico, el otro es nuestro segundo: F2(x)=x+1.Si continuamos, para n=3 tenemos que el polinomio x3-1 es divisible por (x-1), pudiendo ser factorizado así: x 3-1=(x-1)·(x 2+x+1) Este último factor es por tanto el tercer polinomio ciclotómico: P3(x)= x2+x+1Esa es la pauta para la obtención de los sucesivos polinomios ciclotómicos · F 1(x) = x-1 · F 2(x) = x+1 · F 3(x) = x 2+x+1 · F 4(x) = x 2+1 · F 5(x) = x 4+x 3+x 2+x+1 · F 6(x) = x 2-x+1 Si n es primo, entonces el polinomio ciclotómico F n es completo de grado (n-1). En general, el grado de Fn(x) es igual al número de enteros menores que n y coprimos (sin divisores comunes) con n. De hecho, una definición alternativa de los polinomios ciclotómicos es esta:  donde k toma sólo valores desde 1 hasta n que sean primos con el propio n. Siendo  los correspondientes números de Moivre. Lo curioso del asunto es que con tal definición, siempre resulten polinomios de coeficientes enteros. Además, todos los coeficientes parecen ser igual a la unidad con signo más o menos, o cero. Este extremo ilustra el papel relativamente poco significativo que representan las conjeturas en matemáticas, y que hemos resaltado muchas veces desde este blog. En efecto, es natural viendo que los primeros polinomios ciclotómicos tienen siempre sus coeficientes con estos valores, conjeturar que ocurre así para todo n. Si seguimos calculándolos, podremos comprobar que entre los cien primeros, ninguno incumple esta norma. En las ciencias experimentales, cuando las observaciones dan la razón a la teoría, ésta sale reforzada. Esta forma de acceso a la verdad en matemáticas no es satisfactoria: en matemáticas las hipótesis no valen nada mientras no se demuestren. Y cien casos demuestran el caso general tan poco como diez mil o mil millones... Lo extraordinario del caso es que nuestros polinomios ciclotómicos no cumplen la conjetura anterior: el primero que la incumple es el de puesto 105, que vale: F 105(x) = x 48 + x 47 + x 46 - x 43 - x 42 - 2x 41 - x 40 - x 39 +x 36 + x 35+x 34 + x 33 + x 32 + x 31 - x 28 - x 26 - x 24 - x 22 - x 20 +x 17 + x 16+ x 15 + x 14 + x 13 + x 12 - x 9 - x 8 - 2x 7 - x 6 - x 5 + x 2 + x + 1 como pueden observar, dos de los coeficientes son sendos doses. De hecho, se ha demostrado que existen coeficientes tan grandes como se quiera para polinomios de puesto suficientemente elevado. En la figura que encabeza este post pueden ver las gráficas de los cinco primeros polinomios ciclotómicos. Decíamos en el post anterior que un grupo cíclico era el que se generaba a partir de uno sólo de sus elementos, y escribíamos G=[a] para indicar que dicho elemento a de G era generador de todo el grupo. Con el grupo de giros del selector de siete posiciones del post anterior quedaba claro: el giro de un paso g1 generaba todo G: g12= g2g13= g3 ... g17= g0. Si seguimos operando, volvemos a encontrar g1, g2,..., y ahora se ve claramente el significado profundo del apelativo cíclico para este tipo grupos. En suma: los productos de operar g1 consigo mismo son { g1,g2,g3,g4,g5,g6,g0}, que es el grupo entero. SI lo intentamos con otro elemento, g2, por ejemplo, obtenemos: { g2,g4,g6,g1,g3,g5,g0}, que vuelve a ser el grupo completo. Podríamos hacer lo mismo con todos los elementos: cualquier elemento de G genera todo G, por lo tanto podemos escribir: G=[ g1]=[ g2]=[ g3]=[ g4]=[ g5]=[ g6]=[ g7]. Sin embargo esta situación no es la general: si el grupo original tuviera 8 elementos, el elemento g 2 generaría al subgrupo H={g2,g4,g6,g0}, que es la mitad de todo el grupo original. En el fondo la explicación es muy sencilla, y se ha apuntado en los comentarios del post anterior: a base de giros de orden par sólo podemos generar otros giros de orden par si es asimismo par el número de elementos del grupo original, y nunca generaremos uno impar. Lo mismo vale para los múltiplos de cualquier otro número diferente del dos. El conjunto de todos los elementos generados por uno, sea o no sea el grupo total es siempre a su vez un grupo (subgrupo propio o impropio del original. Llamamos propio si es estrictamente menor que el de partido, e impropio si es él mismo. Pues bien: el Teorema de Lagrange recoge este aspecto en toda su generalidad. Un enunciado light del mismo es: Dado un grupo G de orden n, si H es un subgrupo de G entonces el orden de H, o(H) es divisor de n Dado que el conjunto de elementos generado por un elemento es siempre un subgrupo, resulta que su número de elementos será siempre divisor del orden del grupo total o(G)=n. Y sólo en el caso en que n sea primo (como en el ejemplo anterior, con n = 7), tendremos asegurado que cualquiera de los n elementos generará el grupo completo, porque al no tener ndivisores, el orden de los subgrupos será igual a n, salvo en el caso del elemento neutro g0, que tendrá orden 1, e incluirá al citado g0 él sólo. Los grupos cíclicos tienen más propiedades que los hacen importantes: la primera es que son necesariamente abelianos (conmutativos), y la segunda es que el Teorema de Lagrange es inversible para ellos. Lo primero quiere decir que gj*gk=gk*gj, para toda pareja de elementos de G, y lo segundo merece una explicación más tranquila: El Teorema de Lagrange afirmaba que los subgrupos de un grupo G de orden n, de existir, tenían un orden m que era divisor de n. Su inversión indica que dado m, para cada divisor n, existe un subgrupo con dicho número de elementos. El teorema original lo cumplen todos los grupos, su inversión sólo algunos, los cíclicos entre ellos. Ahora estamos en condiciones de demostrar un terorema interesante y muy sencillo, que afirma que Si el orden de un grupo es primo, entonces dicho grupo es cíclico Lo demostramos: Sea o(G)=p, con p primo. Sea a un elemento de G, diferente del elemento neutro. H=[a] es un subgrupo generado por a, y su orden, por el teorema de Lagrange será divisor de p. Dado que p es primo y no puede ser o(H)=1 pues a no es el neutro, entonces necesariamente o(H)=p, con lo que H=G, y G=[a]. Con esto terminamos nuestra incursión en los grupos cíclicos. La teoría de grupos es una rama del álgebra muy abstracta. Normalmente un libro sobre este tópico es un tocho de cientos de páginas sin ilustración alguna. No obstante, y dada la belleza del asunto es evidente una vez más que la belleza de la matemática no está en las ilustraciones... Salvo los preliminares de la teoría, el resto en profundidad es para verdaderos especialistas. Felices ellos que están en disposición de saborear tales frutos. ____________________________________________________________________ HACE UN AÑO hablábamos de la matemática de la música. En una serie de tres post explicábamos los motivos por los que las notas musicales son siete (do,re,mi,fa,sol,la y si), doce si tenemos en cuenta sus correspondientes alteraciones; y no treinta o dieciocho. En el post anterior hemos presentado los números complejos de módulo unidad como operadores de giro sobre otros números complejos. Esta forma de verlos nos lleva a pasear por los llamados grupos cíclicos. Espero que sea un paseo agradable.Supongamos que tenemos un selector de n posiciones, como el de la figura. El aparato está siempre en alguna de las n posiciones, y nosotros podemos actuar sobre él, girando la aguja hasta donde nos plazca (siempre hasta una de las n posiciones fijas). Tenemos por tanto dos conjuntos perfectamente diferenciados, al conjunto de las posibles posiciones del selector, y el conjunto de las posibles acciones nuestras sobre el mismo. Llamaremos X al primero y G al segundo. Está claro que el conjunto X tiene siete elementos en la figura, y n elementos en el caso general. Los representaremos con números naturales. X={0,1,2,3,4,5,6}Los elementos del otro conjunto no son posiciones según hemos dicho, sino nuestras acciones sobre el selector. Podemos girar a la izquierda, o a la derecha hasta la siguiente posición, o podemos girar k posiciones a la izquierda o a la derecha. Consideraremos acciones diferentes las que produzcan resultados diferentes, lógicamente. Esto quiere decir que efectuar un giro de una posición a la derecha es lo mismo que hacerlo de (n-1) posiciones en sentido contrario. Así pues, el conjunto G también tiene n elementos, que denominaremos así: G={g0, g1, g2,..., gn-1} Donde g i será el giro de i posiciones a la izquierda. (exactamente podría ser en sentido contrario, pero sucede que cuando un servidor debe elegir entre derecha e izquierda, pues eso; elige). El conjunto G podría ser perfectamente el conjunto de las n raíces enésimas de la unidad del post anterior. No en vano adelantábamos allí que dichos números complejos podían entenderse como giros de una amplitud de la enésima parte de una vuelta, o cualquier múltiplo de esta cantidad. Pues bien, este conjunto G es más que un conjunto. Es un grupo. Ahora explicaremos esto. Pero de momento diremos que este grupo actúa sobre el conjunto de estados X. Esta actuación implica considerar loe elementos de G como operadores que afectan a los estados (elementos del conjunto X) Así, g 1(0) ( el operador g1 actuando sobre el estado 0) quiere decir el estado que tenemos cuando estando previamente en el cero hacemos un giro de una posición a la izquierda. Evidentemente g 1(0)=1. Es fácil ver la veracidad de las siguentes expresiones: g 0(x) = x, para todo x € X g 2(0) = 2 g 1 (g 2(0)) = g 1 (2) = 3 La primera igualdad nos dice que el giro nulo deja todo como estaba. La última supone la realización de un giro y luego otro. El resultado siempre se podría haber hecho de una sola vez mediante un giro único. Efectivamente, existe una operación natural entre los elementos de G: g i* g j, que consiste simplemente en ejecutar ambos seguidos; primero el que escribimos a la derecha (g j) y luego el otro (g i). Además, dado un giro concreto, siempre hay otro en G que deja las cosas como estaban. Diremos que cada elemento de G tiene un simétrico. Denotaremos g -1 al elemento simétrico de g. Queda una última propiedad, que permite agrupar giros por parejas sin alterar el orden en el que operan: gi* (gj *gk) = (gi* gj) *gk)Todo conjunto con una operación que tenga estas propiedades será llamado desde ahora un grupo . Este grupo nuestro tiene unas propiedades adicionales que no satisfacen todos los grupos, ni mucho menos. Por ejemplo: uno sólo de sus elementos puede generar a todos los demás por simple composición consigo mismo. Esto quiere decir que a base de la única acción de girar una sola posición podemos generar todas las acciones del grupo. En lenguaje técnico diremos que G es finitamente generado, cuando todos los elementos son generados por composición de un grupo finito de ellos, y monógeno cuando lo son por uno solo de ellos , como en nuestro caso. G =[ g 1] Diremos que g 1 es un generador de G Noten que hemos sustituido las llaves {} de los conjuntos por corchetes []. En la notación habitual se usan los signos “mayor y menor que”, pero me dan problemas porque Blogia los interpreta como comienzo de etiquetas HTML... Llamaremos orden de un grupo G a su número de elementos, y escribiremos o(G)=n. Llamaremos orden de un elemento de G al orden del subgrupo generado por dicho elemento. Está claro que si y solo si dicho elemento gk es un generador de todo G , entonces o(gk)=n. Llamaremos cíclico a un grupo tal que todos sus elementos son generados por uno solo. Es evidente que nuestro grupo de giros del conmutador es un grupo cíclico. Basta por hoy. Terminamos con una pregunta tan sólo para aquellos que nada sepan de teoría de grupos: Nuestro grupo completo es generado por uno sólo de sus elementos, lo hemos visto con el elemento más sencillo g 1, que es el menor giro posible a parte del nulo g 0, claro. El elemento nulo malamente puede generar nada distinto de sí mismo. Pero ¿los demás?. ¿Es g 2 también un generador de G ?, ¿Y un g k genérico? ¿Depende de algo que la respuesta sea positiva o negativa? Les espero para continuar hablando de grupos cíclicos.  Es muy notable que con los pocos conceptos desglosados en el post anterior se esté ya posibilitado para encontrar los k números complejos que satisfacen la ecuación: zk=1. Más notable aún es la brevedad del desarrollo necesario para hacer tal cosa, tres renglones, como pueden ver en la ilustración que encabeza este post. Sea z un número complejo raíz k-ésima de la unidad. Intentemos seguir paso a paso los tres renglones de la demostración: Por su propia definición podemos poner: zk=1 Ecuación(1)Pongamos tanto z como el 1 (que es un número complejo al fin y al cabo) en la forma exponencial (que llamaremos a partir de ahora forma polar) que aprendimos en el post anterior. z es un complejo genérico del que a priori nada sabemos, luego su forma será completamente general: z=r·eix donde la x sustituye a la letra griega zeta, que no puedo reproducir aquí. 1= ei·0No tenemos más que sustituir ambos números en la ecuación (1) anterior, teniendo en cuenta que zk tiene la forma: zk= (r·eix) k = rk·eikxPor tanto la igualdad (1) se convierte en: rk·eikx = ei·0El resto del desarrollo es pura aritmética, igualamos coeficientes y exponentes en ambos miembros y obtenemos el resultado que anunciábamos: las raíces k-ésimas de la unidad son k números complejos sobre la circunferencia unidad, y dividen a ésta en k partes iguales. Lo vemos mejor en la ilustración siguiente, para k=7:  Cada punto es una rotación del anterior de un k-ésimo de vuelta, o sea, de 2PI/k radianes. Esta reflexión nos da un nuevo punto de vista de estos números complejos: no como números sino como operadores. Me explico. Se tenemos un complejo en forma polar z=r·e ix y lo “operamos” con eiw multiplicando ambos, obtenemos lo siguiente: z=r·e ix· eiw= z=r·e i(x+w) Esto es: obtenemos un nuevo punto que es el primitivo, pero girado un ángulo w en sentido contrario a las agujas del reloj. Así, podemos entender un complejo unitario (de módulo igual a uno) como una operación giro alrededor del origen de coordenadas. Esto será importante en el post siguiente, en el que hablaremos de grupos cíclicos. Definir funciones en el campo complejo es relativamente fácil. El cuerpo C se define como el conjunto de pares de reales (a,b) con una operación suma y otra producto: (a,b)+(c,d)=(a+c, b+d) (a,b)·(c,d)=(ac-bd, bc+ad) Aquí no hay nada arbitrario. Si bien podemos definir las operaciones queramos y luego comprobar si tenemos o no un cuerpo, la definición anterior corresponde a la idea previa de que existen números cuyo cuadrado es negativo: los números imaginarios. Es muy fácil comprobar que las definiciones de suma y producto anteriores son simplemente la expresión de que las partes reales e imaginarias se suman y multiplican algebráicamente teniendo en cuenta que i 2=-1. Ciertamente, para tener perfectamente construido el cuerpo C no hizo falta un alarde de imaginación y de genialidad como en el caso del cuerpo de los reales; hizo falta tan sólo la valentía de postular la existencia de pleno derecho de un “número” i cuyo cuadrado era –1. Todo lo demás viene dado una vez que se ha cometido esta audacia. Un número complejo es por tanto un par, en el que el primer elemento es un número real, y el segundo es un número imaginario, o sea: un real multiplicado por la i así definida. Podemos escribir dicho número en forma de par (a,b) o en forma de binomio a+b i. Pues bien, resulta sencillo definir en C otras operaciones más complicadas, por simple extrapolación de sus definiciones en el caso real. Para ello suele ser muy conveniente utilizar las expansiones en forma de serie de potencias de las funciones elementales de R , y extrapolarlas a C . Concretamente la función exponencial, que para un número real está definida así: para un imaginario puro la definimos de la misma forma: Quiero hacer hincapié en un hecho fundamental: no hemos utilizado, no vamos a utilizar ninguna propiedad desconocida para manejar, por primera vez en este blog los números complejos. A riesgo de ser repetitivo, diré una vez más que la única audacia cometida es postular la existencia del número i, cuyo cuadrado vale i 2=-1. Las sucesivas potencias de i son triviales: i 3=i· i 2=-i i 4= i 2· i 2=(-1)·(-1)=1 i 5= i 4·i=i y a partir de aquí se repite el ciclo. Así pues, operando con los sucesivos términos de nuestra ecuación, obtenemos: y ahora no tenemos más que dejarnos llevar por el instinto. Agrupamos los términos que llevan la i imaginaria por un lado y los que no la llevan por la otra, obteniendo: Ahora resulta que ambos paréntesis son el desarrollo en serie de las funciones trigonométricas seno y coseno, cosa que no por no ser trivial, deja de ser cierta. Así pues, la cosa queda así, obteniendo la archiconocida fórmula de Euler Esto es fue una gran sorpresa. Las funciones trascendentes tales como las exponenciales y las trigonométricas eran viejas conocidas en tiempos de Euler, y todo el mundo sabía que las primeras son funciones de rápido crecimiento (crecimiento exponencial, traspasado al lenguaje cotidiano), mientras que las segundas reflejaban los vaivenes cíclicos de las oscilaciones de la naturaleza; las mareas, los péndulos... Qué quería decir esta fórmula increíble? No tiene mucho sentido hacer cábalas sobre significados ocultos de esta bella ecuación, ni tiene sentido ver misticismos orientales en su particularización para x= pi; pero no deja de ser sorprendente esta relación, conocida como la fórmula de Euler Nos servirá para expresar un número complejo de una tercera manera: en forma exponencial. Veamos las implicaciones de la fórmula en cuestión. Dado que el módulo de un número complejo se obtiene por el teorema de Pitágoras, como pueden ver en la ilustración siguiente: resulta claro que nuestro exponencial de imaginario puro es un complejo unitario, y que el valor x nos indica precisamente el ángulo que forma el eje X real con el vector que desde el origen apunta a dicho número complejo. Una vez más, nada nuevo hemos utilizado, sólo la conocida relación trigonométrica sin 22(x)+ cos 22(x)=1. Así pues, e ix representa un número complejo que está situado a distancia uno del centro de coordenadas, y cuyo radio vector forma un ángulo x con el eje real. Es fácil comprender que si queremos representar en forma exponencial y complejo de módulo diferente de la unidad, bastará multiplicar su correspondiente unitario por el módulo, obteniendo z= r· e ixcomo expresión general de un complejo cualquiera. Así, mientras x va recorriendo los valores reales desde 0 hasta 2·PI, z= e ix va recorriendo la circunferencia unidad centrada en el origen, girando en contra de las agujas del reloj. La fórmula mágica que surge al igualar x a 2·PI, y que ya la hemos usado alguna vez en este blog:  no representa ninguna conexión cósmico-mágica, ni tiene mística alguna en su interior,si la ponemos en forma menos críptica, así:  nos está diciendo que con un ángulo de PI radianes, estamos en el punto –1 del eje real, cosa que puede entender un niño (1). Ahora tenemos ya las herramientas para comprender que las raíces enésimas de la unidad , las soluciones de la ecuación x n=1surgen como bellas particiones de la circunferencia unidad. Lo vemos en el post siguiente, y luego pasearemos por los polinomios ciclotómicos. Les deseo un agradable paseo conmigo. ________________________________________________________________ (1) Un niño bastante listo, no un niño cualquiera.  Cuando el cuerpo de los números reales estuvo razonablemente bien construido como el conjunto cociente de todas las sucesiones de Cauchy de racionales con la relación de equivalencia apropiada, se consiguió una proeza. Se tenía ya rigurosamente construido un cuerpo arquimediano, ordenado y completo. Sin embargo, en cierto modo el cuerpo R era decepcionante: una simple ecuación de segundo grado tal como ésta: x 2+1=0 no tenía soluciones en él. A nadie se le escapará que no estoy presentando las cosas cronológicamente: era de antiguo conocido que no existen soluciones reales de ecuaciones muy sencillas. Sin embargo el paso siguiente, que consistía en la construcción de un cuerpo algebraicamente cerrado en el cual todo polinomio de coeficientes racionales (o enteros, lo mismo da) tenga solución en su seno, estaba al alcance de la mano. De hecho, intelectualmente la construcción de R fue un reto mucho mayor que la construcción de C , el cuerpo de los números complejos, ya que este surge casi trivialmente con la consideración de pares ordenados (a,b) de números reales si definimos bien las operaciones suma y producto. Tenemos así un cuerpo numérico algebraicamente cerrado, como nos lo enuncia el merecidamente famoso Teorema fundamental del álgebra , que dice que todo polinomio a coeficientes complejos tiene un raíz compleja, es decir existe un número complejo donde el polinomio evalua a cero. Esto es lo mismo que decir que todo polinomio de grado n con coeficientes complejos (o naturales, pues los naturales complejos son); tiene en C exactamente n soluciones, no necesariamente diferentes. Efectivamente, si Pn(x) es el polinomio original, el enunciado del teorema asegura la existencia de una raíz w, con lo que podemos expresar el polinomio como: Pn(x) =(x-w)·Pn-1(x) . Ahora aplicando lo mismo al nuevo polinomio con un grado menos Pn-1(x) y sucesivamente hasta llegar al polinomio de grado uno, tenemos n raíces, no necesariamente diferentes de Pn(x) en el seno de C . Particularmente, la ecuación x n=1 tiene n soluciones en C , ésta vez todas diferentes. Se trata de las denominadas raíces de la unidad . El estudio de las mismas es una bella y multidisciplinar parcela de la matemática que es: la teoría de variable compleja , la geometría, la teoría de grupos cíclicos y la teoría de polinomios ciclotómicos beben de esta fuente de cristalinas aguas. De ello nos ocuparemos en los próximos posts. Me parece una buena manera de iniciar el año. Espero que a ustedes también. La ciencia se puede aprender de memoria, pero la sabiduría no. Laurence Sterne (1713-1768) Novelista británicoMiren la ilustración que encabeza el post. Este galimatías suele ser el primer encuentro de un estudiante de bachiller (o como lo quieran llamar ahora, porque sólo los profesionales del ramo saben cómo coño se denominan en cada momento los estudios que cursan los adolescentes)...decía que este aparente galimatías suele ser el primer encuentro de un chaval con la matemática de verdad. Dicho encuentro es invariablemente traumático. Y la verdad es que parece mentira que tras estas cadenas de símbolos se encuentre tanta sutileza, tanta belleza y tanta historia. No es por casualidad que hablamos de ello ahora. Si el lector ha seguido los últimos post, aunque nada supiera del tema tiene las herramientas conceptuales necesarias para hacer muchas cosas interesantes. Como en otras ocasiones, detrás de estos símbolos están ideas topológicas mucho más profundas que las que sospechan los estudiantes de BUP. El hecho de que tantos estudiantes se hayan estrellado contra estos dos renglones, poniendo ojos como platos y decidiendo aprenderlos de memoria, como única alternativa a la locura es doblemente penoso. Por un lado, todas las grandes ideas son muy sencillas, y esta también lo es; por otro lado, sin entender BIEN esto, poco análisis matemático se puede comprender realmente. Y créanme que sé de lo que hablo: durante años estuve dando clases particulares a chavales y bien raro era encontrarse con alguno que supiera exactamente qué significaba todo esto. Esta definición es la superación de la fase intuitiva en el cálculo. La mayoría de edad de la matemática, debida a inmensos cerebros que se llamaron Cauchy, Weierstrass, y un largo etcétera. Es una expresión estática, sin frases vagas del tipo " cuando la x tiende a tal cosa" o " cuando tal distancia se hace infinitamente pequeña ". Es estática como estático es un cristal natural perfecto o una obra de arte escultórica. Como es tan importante, y no tenemos prisa, le dedicaremos varios post. Al final, nos parecerá tan clara como si estuviera escrita en castellano; y si no es así, será exclusivamente por mi culpa. Hasta la semana que viene. Hemos visto en el post anterior que sobre un mismo conjunto se pueden definir innumerables topologías diferentes, y que en función de qué topología estemos manejando, ocurrirán unas cosas u otras. Hemos visto que la noción aparentemente sencilla de interior de un conjunto varía completamente según la topología considerada. Vimos que todos tenemos unas nociones topológicas previas, aunque no lo sepamos, y que éstas hacen referencia a la llamada topología usual ; aquella cuyos abiertos son bolas abiertas o uniones arbitrarias de ellas. No quiero abandonar el tema sin mencionar un tema importante en el que la topología que definamos en también determinante: la convergencia de una sucesión. Llamamos sucesión de elementos de un conjunto X a una aplicación del conjunto N de los números naturales en X, de forma que a cada natural i le corresponde el elemento ai. En la figura siguiente tenemos una sucesión de puntos en espiral que "cae" hacia un punto p. Visualmente comprendemos que dicha sucesión converge al punto p: pero necesitamos una definición basada en conceptos topológicos. Diremos que la sucesión (ai) converge a un punto p cuando todo entorno de p contiene a todos los elementos de la sucesión a partir de uno dado.  En la figura lo vemos claramente: tenemos dibujado un entorno U p del punto p, y vemos que a partir de A 6 , todos los puntos de la sucesión caen dentro de U p. Si hubiéramos tomado un entorno menor, simplemente tendríamos que haber esperado a un punto de índice más alto, pero la situación sería la misma. Qué sucede en la topología extraña del post anterior? Lo vemos en la figura siguiente:  También es convergente la sucesión, pero ahora resulta que tanto converge al punto p de antes como al punto q o al punto r , dibujados en rosa. Esto es así porque los entornos de los tres puntos son los mismos; no estamos en un espacio de Hausdorff , y por lo tanto existen puntos diferentes que no pueden ser separados por entornos diferentes. Parece absurdo admitir que una sucesión como la dada converge a un punto q o r , cuando ni siquiera se acerca a ellos, pero es que en dicha topología la noción de proximidad no es la que a nosotros nos parece normal... En este espacio, la sucesión converge, pero lo hace a infinitos puntos, todos ellos con la misma componente x. Aunque no lo demostraremos aquí, que un espacio sea de Hausdorff es tranquilizador: en todo espacio de Hausdorff , si una sucesión converge a un punto, dicho punto es único. En cierto modo un espacio de Hausdorff es un espacio de "buen comportamiento". Pero no siempre; vean el siguiente ejemplo de un espacio de Hausdorff: Si consideramos la topología discreta , la más fina de las posibles; el espacio resultante es evidentemente de Hausdorff; pues todo subconjunto del plano es un abierto de la misma, y sin embargo resulta que la sucesión del ejemplo NO CONVERGE. ¿Cómo es esto? Pues muy sencillo: Repito la definición de sucesión convergente: Diremos que la sucesión (ai) converge a un punto p cuando todo entorno de p contiene a todos los elementos de la sucesión a partir de uno dado. Recordemos que un entorno de un punto es todo subconjunto que contiene un abierto que a su vez contiene al punto considerado.En la topología discreta , el propio punto es un abierto que se contiene a sí mismo, y ningún punto de la sucesión es exactamente el punto p, a pesar de que el acercamiento euclidiano al mismo es cada vez mayor, por lo que la sucesión en esta topología no converge. No les parece todo esto impresionante? Si la respuesta es NO, mantengan al menos la convicción de que la culpa es de quien esto les cuenta, no del tema en sí.  Estamos en condiciones para apreciar las diferencias entre la topología usual y otras topologías más, digamos, exóticas. Sabemos que un mismo conjunto, un plano por ejemplo, con dos topologías diferentes forma dos espacios topológicos diferentes en los que ocurrirán cosas deferentes. Vamos a definir una topología diferente a la usual en el plano. Recordamos que la usual es la que tiene los abiertos formados por uniones arbitrarias de bolas abiertas. Los entornos de un punto los podemos visualizar perfectamente como discos centrados en dichos puntos, tan grandes o pequeños como queramos. En realidad los posibles entornos de un punto serán muchos más que los anteriores: todos los subconjuntos del plano que contengan a un abierto de la topología, y por supuesto que contenga al punto considerado. No voy a escribir la frase anterior cada ver que hable de entornos de un punto, de forma que considero que a partir de aquí se entiende. Tomemos la topología usual en la recta. La tienen en la parte superior de la figura. Dos puntos, p y q con dos entornos suyos: dos intervalos abiertos que contienen a los puntos respectivamente. El plano es el producto cartesiano de R por sí mismo. Para cada abierto A de la topología de la recta, consideraremos el subconjunto del plano siguiente: B A={(x,y)€ R 2 tal que x € A ; y € R} Esto es: cada abierto de R define uno y solo un abierto en R 2, que son las bandas infinitas hacia arriba y hacia abajo de la parte inferior de la figura; cuyos valores en el eje X corresponden a las respectivos de los entornos de R de los cuales derivan. Es fácil demostrar que se trata efectivamente de una topología, pues sus propiedades dimanan directamente de las de la topología usual de R. Este topología de R 2 es tan fina como la usual de R, pero en R 2 hay muchos más puntos que discriminar. No debemos extrañarnos que pasen cosas extrañas. Para empezar; los puntos p 1 y p 1 tienen la misma componente x, luego todo entorno de uno de ellos engloba al otro. Olvidémonos de que los entornos eran disquitos que dibujábamos alrededor de los puntos: ahora un entorno es una banda vertical infinita de grosor cualquiera, o una suma arbitraria de bandas de este estilo!!! La topología dada es demasiado grosera para separar todos los puntos del espacio en cuestión (plano). Definimos un espacio topológico como espacio de Haussdorf o espacios de tipo T 2 cuando dados dos puntos diferentes del mismo, es posible encontrar un entorno de cada uno de ellos de forma que ambos tengan intersección nula ( que no se toquen, vaya). En nuestro ejemplo esto sólo es posible si los puntos considerados tienen valor de x diferente. Si la tienen igual, todo entorno de uno de ello cortará a todo entorno del otro. No es un espacio de Haussdorf. Qué pasa en dicho espacio con un círculo como el de la figura?  Pues que tiene interior vacío! Efectivamente, definíamos el interior como el conjunto de puntos para los cuales existía algún entorno totalmente incluido en el conjunto. Esto no es posible para el círculo en este espacio; todos los puntos “aparentemente” interiores en realidad son puntos de la frontera , pues cualquier entorno de los mismos tiene tanto puntos del círculo como puntos del complementario del círculo. Una vez más, la intuición nos falla. Y es que en espacios como este las cosas son muy diferentes de las habituales... Nuestra idea intuitiva del continuum de números relaes en la recta, o de puntos del plano o espacio tridimensional obedece a un espacio topológico T 2 . De ahí que las cosas que ocurren en espacios que no son de Haussdorf, nos desconciertan a veces. Se trata desde nuestra perspectiva de mundos ciertamente extraños. Hemos definido en el post anterior lo que es un sistema de entornos en un conjunto dado. Las cuatro propiedades se referían a la familia de entornos de un punto dado, y a la relación entre familias de entornos de puntos diferentes. Denominaremos Base de entornos fundamentales del punto correspondiente a cada una de estas familias. Lo primero que debemos notar es que no todos los candidatos a bases de entornos fundamentales lo serán efectivamente por no cumplir las propiedades. Lo vemos con un ejemplo: Sea la recta real, y consideremos para cada punto x la familia de intervalos B(x)= {[p-e , p+e)}. Tenemos infinitos entornos para cada punto p, uno para cada valor del número real e. El intervalo es cerrado por la izquierda y abierto por la derecha. Esto quiere decir que el propio punto (p-e) pertenece al intervalo, pero el (p+e) no. En la figura aparece uno de tales entornos. He dibujado su extremo derecho de forma diferente al izquierdo: más desvahído, para mostrar que el extremo derecho NO está incluido en el intervalo.  Veamos si tal presunto sistema de entornos fundamentales lo es en realidad. Repasemos las cuatro propiedades del post anterior, para lo cual las repito aquí: 1.- Un punto pertenece a todos sus entornos 2.- Dados dos entornos de un punto, la intersección de ambos también es un entorno del punto dado. 3.- Si un conjunto CONTIENE a un entorno de un punto, entonces ES un entorno de dicho punto 4.- Dado un entorno U de un punto, existe otro entorno V tal que U es entorno de todos los puntos de V .
Propiedad 1: La cumplen sin duda: todo intervalo de este tipo contiene al punto p. Propiedad 2: Dos intervalos diferentes del mismo punto están por definición anidados uno dentro del otro, de forma que su intersección es idéntica al menor de ambos; luego la propiedad 2 también se cumple. Propiedad 3: También se cumple: cualquier intervalo de la forma pedida que contenga a un entorno del punto p es también un entorno de dicho punto. Propiedad 4: Esta falla: tomemos el intervalo [p-e,p+e), y de él, el punto (p-e). No podemos encontrar ningún entorno de este punto (p-e) tal que el entorno original sea entorno de todos los puntos de este nuevo entorno. El motivo es que por la propia definición de estos intervalos, un intervalo del punto (p-e) (amarillo) debe “salirse” hacia la izquierda de dicho punto, fuera de los dominios del intervalo original (azul).  Queda claro por tanto que aunque tenemos muchas libertades para elegir las bases de entornos de los puntos, existen restricciones. Llamaremos, dada una base de entornos fundamentales definida, conjunto abierto a aquel conjunto que es entorno de todos sus puntos. Y llamaremos topología del conjunto X inducida por el sistema de entornos fundamentales al conjunto de todos los abiertos de X . Es fácil demostrar que la unión de cualquier cantidad de abiertos es un abierto, sea esta unión finita o no, y sin embargo sólo la intersección de una familia finita de abiertos es abierta con seguridad. Así pues, podemos definir una topología T de un conjunto X como una familia de subconjuntos de X que cumple: 1.- El conjunto vacío y el total están en T . 2.- Dada una familia finita de elementos de T , su intersección está en T 3.- Dada una familia cualquiera de elementos de T , la unión de todos ellos está en T Por lo demás, existe plena libertad para elegir los abiertos. Según los abiertos elegidos, tendremos un sistema de entornos fundamentales diferente. Alternativamente, según qué sistema de entornos fundamentales elijamos, tendremos una topología diferente. Si consideramos todos los subconjuntos de X como abiertos de la topología, se cumplen las tres propiedades anteriores, luego se trata en efecto de una topología lícita, de hecho, es la más grande que puede existir en X, diremos que es la más fina . El en extremo opuesto está la topología formada por dos conjuntos: el total X y el vacío. Entre ambos cumplen trivialmente las tres propiedades, y se trata de la topología más gruesa de las posibles. Tan sólo con estos elementos, podemos ya hablar del interior de un subconjunto de X, del exterior y de la frontera , cosa que con las herramientas meramente conjuntistas que teníamos hasta ahora no era posible. Lo veremos en el siguiente post, si bien nos remitiremos constantemente a lo que denominamos topología usual del plano y el espacio: aquella que “intuímos” desde siempre, en la que las bases de entornos de un punto están formadas por las bolas abiertas (sin incluir el borde) centradas en el mismo. Como no tenemos prisa, lo mejor es que empecemos por el principio. Queremos aclarar de una forma suficientemente rigurosa qué es la Topología. Debiéramos decir que la propia palabra Topología tiene dos acepciones totalmente diferentes. Por un lado es una rama de la matemática, como ustedes saben. Es aquella rama de la matemática de la que estamos hablando. Cuando nos refiramos a esta acepción, intentaremos escribirla con mayúscula. Pero también es un concepto matemático muy concreto: se trata de un concepto que habita en el interior del conjunto de partes de un conjunto dado (o mejor aún, en el conjunto de partes del conjunto de partes de un conjunto dado). Cuando hablemos de este concepto concreto, lo escribiremos en minúscula. En todo caso, no debemos perder de vista que vamos a establecer las bases del estudio de las propiedades más escondidas de los cuerpos geométricos, aquellas que permanecen invariables ante torturas continuas. Parece claro que si podemos “torturar” un objeto geométrico estirándolo, encogiéndolo, doblando y plegando; poca importancia tendrá el concepto de distancia. Necesitamos poder hablar de proximidad sin apelar al concepto de distancia, y para ello definiremos el importante concepto de entorno , bastante más abstracto que el de distancia. Es más, el nivel de abstracción que exigiremos será doblemente alto, pues entenderemos por cuerpo geométrico un conjunto cualquiera. Los elementos de dicho conjunto los llamaremos puntos. Como un triángulo, por ejemplo, no es sino un subconjunto de puntos de un plano, extenderemos nuestro campo de aplicación a conjuntos generales, tengan o no visualización geométrica, aunque nos apoyaremos en figuras de contenido geométrico para visualizar los conceptos. Nuestras herramientas de partida son las de la teoría de conjuntos. No poseemos otra cosa que las nociones de conjunto, subconjunto, elemento, pertenencia, inclusión, unión, intersección y complementario en conjuntos. Estarán de acuerdo conmigo en que poca “geometría” podemos hacer con dichos conceptos. Dado un conjunto, por ejemplo A={a,c,b,d,e}, podemos decir si el elemento f pertenece o no al mismo, si el conjunto B={a,b,e} es subconjunto suyo...y poco más. Preguntas como ¿Cuál es el interior de A? O ¿Cuál es la frontera de B? carecen de sentido por ahora. Si habláramos de un triángulo B dentro de un plano A, parece que dichas preguntas tendrían una respuesta más clara, pero esto tan sólo es así porque poseemos nociones intuitivas previas que en el caso del triángulo funcionan y en el caso del conjunto general no. El concepto de entorno es un concepto topológico que hace referencia a unos subconjuntos del conjunto X "marcados", llamados genéricamente abiertos. Dado que queremos empezar desde el principio y estamos a nivel "pre-topológico", definiremos lo que en los próximos post llamaremos entornos fundamentales . La nomenclatura es mía, y la palabra fundamental no hace referencia a nada en concreto. Es una manera de diferenciar este concepto nacido directamente de la teoría de conjuntos, del concepto habitual de entorno, que manejaremos más adelante. Luego se verá la identidad de ambos conceptos, pero de esto no hay que preocuparse ahora. Definiremos a partir de la Teoría de conjuntos el concepto de entorno de un punto en un conjunto X. Este concepto será clave en todo lo que sigue. Supone la aproximación desde la teoría de conjuntos a la idea intuitiva de vecindad de un punto dado. Todo punto no es sino un elemento del conjunto ambiente X en el que estamos situados, y todo entorno es un subconjunto del mismo. Dado que estos entornos van a ser abstracciones que sustituyan la noción intuitiva de vecindad, deberán cumplir cuatro propiedades que consideramos intuitivas de algo que merezca llamarse entorno de un punto:  1.- Un punto pertenece a todos sus entornos 2.- Dados dos entornos de un punto, la intersección de ambos también es un entorno del punto dado. 3.- Si un conjunto CONTIENE a un entorno de un punto, entonces ES un entorno de dicho punto 4.- Dado un entorno U de un punto, existe otro entorno V tal que U es entorno de todos los puntos de V . Las cuatro están ilustradas en la figura siguiente, y salvo la cuarta, que es un poco más enrevesada, son muy fáciles de entender y de aceptar. Pues bien, si dado un conjunto general X , tenemos para cada punto x de X una familia Nx de subconjuntos de x que verifiquen las cuatro propiedades de los entornos, entonces tenemos una herramienta de poder incalculable para hacer cosas que desde la mera teoría de conjuntos nos estaba vedado. Diremos que el conjunto X dotado del sistema de entornos mencionado es un Espacio topológico . Estos entornos definidos en torno (permítanme la gracia) a los puntos definirán lo que se denomina una topología (con minúscula) en X. De ello hablaremos en el próximo post. Estamos a punto de saber qué es un conjunto abierto, qué es uno cerrado, y de comprender que un conjunto no abierto no tiene porqué ser cerrado, que uno no cerrado puede ser no abierto, que uno abierto también puede ser cerrado y que otro puede no ser ni una cosa ni otra. No se alarmen: de alguna forma había que llamarlos, lo mismo podría haberse impuesto la nomenclatura de conjuntos blancos y negros, o feos y guapos. Lo de menos es el nombre. Lo vemos enseguida, como siempre si ustedes quieren.  Como ya dijimos en alguna ocasión una conjetura es un teorema al que le falta la parte más interesante: la demostración. Dicho de otro modo: una conjetura nada tiene que ver con un teorema; es una simple afirmación. Aunque a veces se pervierta la nomenclatura, como en el caso del “Ultimo teorema de Fermat”, que no tuvo tal rango hasta que Wiles lo demostró hace pocos años. Visto así, parece que una conjetura tiene poco valor, y es poco más que una opinión. Así es en parte, de hecho muchas conjeturas resultaron falsas a la postre. Sin embargo normalmente tienen el valor de ser agudas observaciones realizadas por especialistas, retos lanzados al mundo para que las mejores mentes del planeta se esfuercen en desentrañar sus misterios. Así ocurre con una de las más famosas: la Conjetura de Poincaré Pasamos a explicar en qué consiste la conjetura, tan de moda últimamente a raíz de la demostración (pendiente de refrendar por lo que yo sé, pero probablemente correcta) del matemático ruso Grigory Perelman La Conjetura de Poincaré es una afirmación topológica. Una vez explicamos aquí que la topología tiene un estatus muy especial dentro de la matemática. Supondremos que el lector sabe qué estudia la topología por tanto. A veces, los matemáticos tienen algo de naturalistas; taxónomos más concretamente. Les gusta clasificar cosas y ponerles etiquetas. Este gusto es totalmente lógico; para clasificar atendemos a las propiedades más esenciales de las cosas e investigamos la diversidad de las mismas. El procedimiento básico suele ser el siguiente: se establecen relaciones de equivalencia entre los objetos; no relaciones cualesquiera, sino relaciones que se consideran relaciones importantes precisamente porque atienden a propiedades que consideramos esenciales de las mismas. Dichas relaciones inducen clases de equivalencia dentro de las cuales todos los objetos están “emparentados”, y estudiamos el conjunto cociente de clases obtenido. Ese es el esquema esencial de clasificación en matemáticas, si bien su aplicación práctica puede variar, y así se han establecido clasificaciones para los grupos simples finitos, para las superficies en R n , las formas cuadráticas, los grupos de Lie, etc, etc. La relación más habitual que se emplea en topología es la relación “ser homeomorfo” . Pocas veces se ha escondido detrás de una palabra tan fea un concepto tan bello. Dado un espacio de trabajo X, dos objetos A y B de dicho espacio (dos subconjuntos de “puntos” de X) son homeomorfos si pueden transformarse el uno en el otro mediante una transformación continua especial llamada homeomorfismo. Diremos que una aplicación de A a B es un homeomorfismo si es biyectiva, continua e inversible, siendo su inversa igualmente continua. Dado que si A y B son homeomorfos, entonces para un topólogo “son” esencialmente el mismo objeto, se comprende la importancia de la clasificación atendiendo a tal concepto. Pues bien; la capacidad simplificatoria de este procedimiento es impresionante: al tratar a todos los objetos de cada clase como uno sólo (su representante canónico), obtenemos un panorama mucho más racional del universo que estamos estudiando. Es de esperar (de hecho, está asegurado) que todos los objetos de una misma clase de homeomorfia exhiban las mismas propiedades topológicas. El problema es que lo que vale para un espacio topológico no tiene porqué valer para otro. Dado que un espacio de tres dimensiones no es homeomorfo a uno de siete, cabe esperar que ciertas cosas (cosas topológicas, entiéndanme) que ocurran en un universo de tres dimensiones no ocurrirán o al menos no tienen porqué ocurrir en otro de siete, y viceversa. Y aquí está el quid de la cuestión en lo que a la Conjetura de Poincaré se refiere. Pero vayamos con calma. Consideremos una esfera. Es muy importante explicar que entendemos que una esfera es el conjunto de puntos del espacio que equidistan de otro, llamado centro. Esto viene a cuento porque con esta definición una esfera es una superficie. No una bola maciza sino la superficie que la delimita. Esto es básico para entender lo que sigue. Para dejar más claro el asunto, la llamaremos 2-esfera por ser un objeto bidimensional, aunque esté inmerso en un espacio de tres dimensiones. Todo objeto homeomorfo (topológicamente equivalente) a una esfera tendrá las mismas propiedades topológicas que una esfera; esto es una perogrullada. Lo que no lo es es preguntarse si una determinada colección de propiedades de la esfera es una caracterización topológica de la misma. Esto no es nada trivial. Y de eso va la conjetura. Una caracterización es un conjunto de propiedades que definen sin ambigüedad un objeto. Tres propiedades topológicas son importantes en una esfera: 1.- Es compacta 2.- Es orientable 3.- Es simplemente conexa Hace mucho tiempo que quedó claro que este conjunto de tres propiedades es una caracterización de una 2-esfera, pero ¿qué ocurre en dimensiones superiores? Una 3-esfera NO ES una esfera maciza, como alguno podría pensar. Una 3-esfera es una variedad diferenciable de tres dimensiones, que podemos definir como el conjunto de los 4-puntos de R4 que equidistan de uno dado (centro). Es una 3-variedad inmersa en un espacio de 4 dimensiones, por tanto. Pues bien; ¿sigue siendo el conjunto de las tres propiedades una caracterización de las 3-esferas? La Conjetura de Poincaré afirma que para cualquier número de dimensiones el conjunto de las tres propiedades es en efecto una caracterización de las n-esferas. Apreciar el sabor de este bello (bellísimo, no lo duden) postulado es la tarea que les proponga en sucesivos post, en los que desgranaremos conceptos topológicos, y recorreremos la historia de la conjetura hasta llegar al bueno de Grigory Perelman , que se encerró durante años hasta dar con una demostración de este reto que el genial Poincaré lanzó a sus iguales. Seguiremos disfrutando (yo al menos) con este tema en días sucesivos. Les espero. En el post anterior vimos que cuando los votantes en una decisión de aceptación o rechazo de una propuesta tienen pesos específicos diferentes derivados del número de votos o escaños en el caso de un parlamento, del número de acciones en el caso de una asamblea general de accionistas o de cualquier otro tipo, el poder real que poseen no es proporcional a dichos pesos como sería de desear si atendemos al ideal de justicia por el cual tal proporcionalidad debiera darse. En este pos veremos la forma de calcular el poder real de los integrantes, y comprenderemos que, a veces, dicho poder es muy diferente del que las urnas, o el número de acciones les debieran proporcionar. Para ello vamos a desarrollar un poco la teoría de los sistemas de votación ponderados, donde cada votante tiene un peso específico propio. Nada mejor que empezar unificando la nomenclatura: Llamaremos v1, v2,..., vn a los votantes, siendo w1, w2,..., wn la importancia, el peso o el número de votos de cada uno de ellos. Llamaremos q a la cantidad de votos necesarios para aprobar una propuesta. Debe quedar claro que llamamos votante a cada grupo de poder, no a cada miembro de dicho grupo de poder. En el caso de un parlamento, los votantes serán los partidos, y el peso específico de cada partido será el número de escaños del mismo. De ésta manera, el problema de votación ponderado queda perfectamente definido, y lo representaremos así: V=[q; w 1, w 2,..., w n]. Llamaremos Coalición a un conjunto de votantes que se han unido para votar a favor o en contra de una propuesta. Si admitimos como coalición las unitarias (formadas por un solo votante) hay tantas coaliciones como subconjuntos de votantes. Su número es de 2 n. Una Coalición ganadora es una coalición en la que la suma del número de votos de sus miembros es superior o igual a la cuota q . Una coalición de bloqueo es aquella en la que la suma del número de votos de sus miembros es suficiente para bloquear (conseguir que no se apruebe) una propuesta. En evidente que tal coalición debe tener un número de votos superior al total menos la cuota de aceptación q . ¿Cómo podemos medir el poder real de un miembro? Está claro que no sirve estimar las posibilidades que tiene para formar parte de una coalición ganadora. Esto es así porque pudiera ser que dicha coalición fuera ganadora sin necesidad de su apoyo, en cuyo caso es indiferente su adhesión a la misma. Para acercarnos al concepto que necesitamos introduciremos una idea auxiliar: el swing. ¿Qué es un swing? Un swing para un votante i con peso específico wi es un par de coaliciones ( S U{i}, S ), de forma que S U{i} es una coalición ganadora y S es una coalición perdedora. Dicho de otro modo: un swing del votante i es una coalición en la que el votante i es un votante basculante : votante que si se retira de una coalición ganadora, deja de serlo. Llamaremos N i al número de swings del votante i, y N a dicha cantidad extendida a la totalidad de votantes: N= N1+ N2+...+ Nn Parece lógico interpretar que el número de swings de un votante es un buen índice del poder real del mismo: existen N i posibles coaliciones en las cuales su adhesión resulta determinante. Denominaremos Indice de poder de Banzhaf normalizado del jugador i-ésimo a la cantidad Bi= Ni/N Veamos un ejemplo: En una determinada empresa hay presentes cuatro accionistas. A,B,C y D, con el siguiente capital invertido en la misma, (en millones de euros por ejemplo): 13, 12, 6 y 2 . Las decisiones se aceptan por mayoría simple: basta reunir un peso de 17. Calculemos índice de poder de Banzhaf normalizado de cada uno de ellos. Empezaremos por calcular el peso específico de cada una de las posibles coaliciones. En la figura aparecen en negrita aquellas que igualan o sobrepasan la cuota q=17.  Tengamos ahora en cuenta las coaliciones S para las cuales i es determinante aquellas en las que siendo S perdedora, S U{i} es ganadora:  Por tanto, podemos ver que el número de swings totales es 12, y los de cada accionista son: N 1= 4 N 2= 4 N 3= 4 N 4= 0 Y por lo tanto el Indice de Banzhaf de cada uno valdrá: B 1= 4/12=1/3 B 2= 4/12=1/3 B 3= 4/12=1/3 B 4= 0 El poder se reparte equitativamente entre los tres primeros, quedando el cuarto sin cuota alguna de poder. El resultado, como pueden ver, no respeta proporcionalidad alguna: el tercer accionista tiene menos de la mitad de derechos que el primero, resultando con una cuota de poder igual. Pero es la situación para el grupo minoritario, que queda sin poder alguno. Las cosas pueden ser aún más injustas: examinen si les apetece la situación en un gobierno con tres partidos A,B,C con el 49% , el 49% y el 2% de escaños respectivamente. Otra situación curiosa se da para el caso de cuatro partidos con el 26%,26%,26% y 22%. Que pasen un feliz fin de semana. En cierto modo, los números reales son más sencillos que los enteros. Esta afirmación parecerá algo absurda, teniendo en cuenta que los reales se construyen a partir de los racionales, éstos a partir de los enteros y éstos a partir de los naturales.
Me explico: la gran ventaja de los números reales es doble: por un lado, forman un cuerpo con las operaciones habituales, lo cual quiere decir que siempre es lícito sumar, restar, multiplicar o dividir dos reales entre sí: el resultado es otro número de la misma clase (salvo la división entre cero, que es anatema y cosa muy prohibida). La otra ventaja es que ese cuerpo es completo: esto quiere decir que “no tiene huecos”: todo número comprendido entre dos reales es asimismo real. (Técnicamente un cuerpo completo es aquel para el cual toda sucesión de Cauchy converge a un número que pertenece al cuerpo, pero esa es otra cuestión.)
¿Tiene esto alguna aplicación práctica? ¿Se ve en algún ejemplo que trabajar con números naturales puede ser más complicado que hacerlo con reales?
Pues sí. Y además los ejemplos son de una cotidianeidad apabullante. Cuando queremos repartir proporcionalmente a algunos valores dados un cierto número de premios entre personas, y esos premios no se pueden partir, empiezan los problemas. Lo vemos continuamente en las elecciones: los escaños no se pueden partir, de modo que es imposible hacer corresponder un determinado número de votos obtenidos con un escaño logrado, y mantener esta relación hasta efectuar el reparto completo: hace falta salirse de la norma para repartir los restos, y esto hace que el problema sea no sólo difícil, sino además muy cuestionable al existir varias soluciones no equivalentes.
Lo mismo ocurre cuando hay que efectuar una votación para aprobar o rechazar una propuesta, y cada uno de los votantes tiene un peso específico concreto: por ejemplo, votaciones en el congreso para aprobar una ley, donde existen N partidos , y el partido i tiene ni escaños. El poder real de cada partido es la capacidad para influir en el resultado de aceptación o rechazo de la propuesta, y lo más justo es que dicho poder fuera proporcional al número de escaños, número que será aproximadamente proporcional al número de votos conseguidos. Así, el ideal democrático parece preservarse, y realmente son los ciudadanos los que aceptan, por delegación, o rechazan las propuestas. Sin embargo todo esto no es más que una bonita teoría que nada tiene que ver con la realidad. La realidad es que un partido en el congreso, un grupo de accionistas en una asamblea general, o un país en el seno de un organismo internacional puede tener una cuota de poder totalmente desproporcionada (a veces a favor, y otras en contra) a lo que debiera, entendiendo que “debiera” tener una cuota de poder proporcional a sus méritos: al número de escaños en el caso del partido en un congreso o al número de acciones en el caso del grupo de accionistas.
Si les parece, veremos la explicación de porqué esto es así, y veremos unas medidas de poder real creadas expresamente para la ocasión. Como habrán intuido, las causas de la desproporcionalidad real entre méritos y poder efectivo son matemáticas. En el fondo derivan de la dificultad intrínseca de trabajar con números enteros que mencionábamos al inicio, y las iremos viendo en post sucesivos. Espero que les parezca interesante este paseo que les propongo.  Vamos a obtener la fórmula de recurrencia de los números de Catalán. Para ello, fijemos la nomenclatura: Cn es el número de triangulaciones con n triángulos, o lo que es lo mismo, de un polígono convexo de n+2 lados. Visto de otra forma: un polígono con i lados tendrá Ci-2 triangulaciones posibles. Dado que el mínimo polígono existente tiene 3 lados, y se trata del triángulo, con una única triangulación (valga la redundancia y nunca mejor dicho), tenemos que C1=1. Haremos C0=1, como caso inicial. Supongamos conocidos los valores de los primeros Cn.Intentaremos hallar Cn+1. Esto equivale a suponer conocidas las triangulaciones de polígonos hasta (n+2) lados e intentar conocer las del polígono de (n+3) lados. Sea P un polígono de (n+3) lados, que numeraremos 1,2,3,…,n+2,n+3. Elegimos uno de los lados, el que tiene como vértices {1,(n+3)}. Una vez elegido este lado, tomamos uno de los vértices restantes (que llamaremos vértice i ) para formar un triángulo. (En rosa, el triángulo T i en la figura). Dicho triángulo divide al polígono P en tres partes: un subpolígono P1de vértices {1,2,3,…,i}; el propio triángulo T i y otro subpolígono P2 de vértices {i,i+1,i+2,…n+2,n+3}. P1 tiene obviamente i vértices. P2 tiene (n-i+4) vértices. Esto quizás no es tan fácil de ver. Se comprende mejor al ver que la suma de los vértices de P1 y P2 debe ser una unidad superior a los vértices de P, puesto que el vértice i lo tomamos dos veces, una para cada subpolígono. Así pues deben sumar entre ambos (n+4) vértices, y por lo tanto P2 tendrá (n-i+4) vértices. Sabiendo el número de vértices de P1 y P2, sabemos automáticamente sus respectivos números de triangulaciones: Ci-2 y Cn-i+2 respectivamente. Luego para el triángulo T i escogido tenemos Ci-2 . Cn-i+2 posibles triangulaciones. Resulta que el vértice i lo podemos elegir desde i=2 hasta i=(n+2) para formar el triángulo T i, luego tendremos tenemos que las posibles triangulaciones del polígono P, de (n+3) lados será dicho producto Ci-2 . Cn-i+2 extendido a todos los posibles valores de i: Esto es: Cn+1= C0 Cn+ C1 Cn-1+ C2 Cn-2+…+ Cn-2 C2+ Cn-1 C1+ Cn C0Que es la fórmula de recurrencia deseada. Dado que conocíamos los primeros casos: C0=1 C1=1 C2=2 triangulaciones de un cuadrado Ahora podemos fácilmente ir hallando los siguientes: C3=1.2+1.1+2.1=5 triangulaciones de un pentágono C4=1.5+1.2+2.1+5.1=14 triangulaciones de un hexágono,… etc.  La combinatoria es una de las ramas más arduas de la matemática (al menos desde mi humilde entender). No es otra cosa que el arte (o la técnica) de contar. Conforme se va complicando lo que queremos contar, es lógico que se vaya complicando proporcionalmente la forma de contarlo. Sin embargo, a veces la complicación es muy grande cuando lo que contamos no es tampoco nada del otro mundo. Me explico: en este momento tratamos de contar triangulaciones de polígonos, que supondremos regulares, o al menos convexos. Una triangulación de un polígono es una partición del mismo en triángulos disjuntos cuyos vértices coinciden con los vértices del polígono. En la figura pueden ver todas las posibles triangulaciones de un cuadrado, un pentágono y un hexágono. Denominaremos C n al número de posibles triangulaciones diferentes de un polígono utilizando n triángulos. Si el polígono en cuestión tiene m lados, necesitaremos m-2 triángulos para hacerlo. En efecto, es fácil convencerse de esto comprobando que sólo dos de los triángulos comparten dos lados con el polígono, y todos los demás comparten necesariamente un lado tan sólo. Por tanto, C n denotará tanto el número de triangulaciones de un polígono para el que se necesitan n triángulos, como el número de triangulaciones de un polígono de un polígono de n-2 lados. En la figura se muestra que C 2=2; C 3=5 y C 4=14. El lector puede intuir que el procedimiento de contar exhaustivamente todas las triangulaciones deja de ser factible enseguida: debemos encontrar atajos, y en la búsqueda de atajos es donde se expresa el genio matemático, porque contar de uno en uno lo sabemos hacer todos, y no tiene gracia alguna. Estudiaremos la recursividad de la sucesión de Catalán C 0, C 1, C 2,...en la que obviamente C 1=1, C 2=2, y haremos C 0=1. Este método de encontrar los valores de C n basándonos en valores anteriores, que se consideran ya conocidos es el método de recurrencia que ya explicamos en su día. El conocimiento de la fórmula de recurrencia de una sucesión no nos ofrece simplemente la posibilidad de encontrar más fácilmente los elementos de la sucesión: también nos dice muchas cosas más. Por ejemplo: si demostramos que varios problemas de conteo, aparentemente dispares obedecen a la misma ley de recurrencia, hemos demostrado que en ambos problemas subyace el mismo concepto matemático. En el caso que nos ocupa, el de los números de Catalán (1), se han encontrado hasta 66 problemas geométricos de conteo accesibles mediante dichos números. Lo vemos en el siguiente post. ____________________________________________________________________ Así denominados en honor a Eugene Catalán (1814,1894), matemático belga. Continuando con lo prometido, efectuaremos el cálculo de la fecha de origen del sistema de cómputo temporal conocido como días julianos. Este post tiene interés para quien desee llegar hasta el final y es un mero desarrollo matemático. No es el post típico en´TioPetros.
Por facilidad de notación sustituiré el signo de las congruencias (los tres guiones) por el símbolo “:=”
Tenemos el siguiente sistema:
x := 20 mod 28 (congruencia 1) x:= 0 mod 19 (congruencia 2) x := 13 mod 15 (congruencia 3)
De la ecuación (1), tenemos x=20+28k con k entero.
Introduciendo en la segunda este último valor, tenemos:
20+28k := 0 mod 19 1+9k := 0 mod 19 9k := 18 mod 19
y por lo tanto:
k := 2 mod 19
Luego k=2+19s, para algún s entero.
Así pues x = 20+28k = 20+28(2+19s) = 76+532s, que introducido en la congruencia (3), da:
76+532s := 13 mod 15 , o simplificando
1+7s := 13 mod 15 7s := 12 mod 15 s := 6 mod 15 , lo que significa que
s=6+15t
Volviendo a reemplazar en el valor de x, obtenemos:
x=76+532(6+15t)=3268+7980t
Por lo tanto hemos obtenido que x := 3268 mod 7980
Así pues, el año buscado debe ser congruente con 3268 módulo 7980. Como el año 3268 está en el futuro, tomamos como origen el anterior congruente con él, que es el año 3268-7980=-4712.
Dado que en nuestro sistema de cómputo el año cero no existió, el año –4712 corresponde al año 4.713 a.C. .
Así pues, el 1 de Enero del año 4.713 antes de Cristo es el momento de origen del sistema de cómputo de tiempos conocido como días julianos.
 Hemos comentado en posts anteriores que el concepto de congruencia era imprescindible en este estudio, vayamos con él: CONGRUENCIAS Supongamos que tenemos el conjunto N de todos los números naturales. Tomemos un natural cualquiera, por ejemplo el siete. Cuando dividimos por siete, el resto de la operación es un número comprendido entre 0 y 6. Pues bien, vamos a asociar a cada número natural el resto de su división por siete. Y ahora agrupamos los naturales en siete compartimentos; según los restos de la división realizada. Esto que hemos hecho es establecer una relación de equivalencia (reflexiva, simétrica y transitiva). Todo número da el mismo resto al dividir por siete que sí mismo, si a da el mismo resto que b , entonces b lo dará igual que a , y si a da el mismo resto que b , y b da el mismo resto que c , entonces a dará el mismo resto que c . Cuando una relación tiene estas tres propiedades, se denomina de equivalencia, y cristaliza el conjunto original en una serie de compartimentos estancos dentro de cada uno de los cuales están todos los elementos relacionados entre sí, y solamente entre sí. Estos compartimentos se denominan clases de equivalencia, en nuestro caso clases de restos módulo 7 , y clases de restos módulo p en el caso general. El conjunto de las siete clases se denomina conjunto cociente por la relación dada, y es un conjunto con p elementos(7 en el ejemplo que nos ocupa) , cada uno de los cuales es una clase, cada una de las cuales tiene dentro los elementos originales. Dicho conjunto cociente se denota N/R, siendo R la relación de equivalencia que hace cristalizar el conjunto original en clases, y en nuestro ejemplo concreto, se denominará N/p: conjunto cociente de clases de resto módulo p. Cada clase se expresa poniendo entre corchetes uno cualquiera de sus elementos; así en nuestro conjunto cociente de restos módulo 7, se cumple que [1]=[8]; la clase del 1 y la del 8 son la misma (lo cual es normal, dado que el 1 y el 8 son congruentes módulo 7. Dos elementos que pertenecen a la misma clase, se denominan congruentes módulo p. En nuestro caso, vemos que el 9 y el 2 son congruentes módulo 7. Los números 16, 23,30, 37,...(7k+2),... también son congruentes módulo 7 con el 2 y el 9. Efectivamente, todos ellos dan un resto de 2 al dividir por 7. Cada clase de restos módulo p es representada por uno de sus elementos, normalmente el más pequeño, que se denomina el representante canónico de la clase. Así, el 1 es el representante de la clase [1], La frase Los números a y b son congruentes módulo p se escribe de la siguiente manera:  Aunque en sentido estricto no lo son, podemos trabajar con las congruencias como si de ecuaciones se tratara, e incluso podemos formar sistemas de congruencias, de esta forma:  El teorema chino del resto nos da las pautas para saber cuándo un sistema de este tipo tiene solución. En efecto, aunque estamos acostumbrados a decir que un sistema de n incógnitas necesita n ecuaciones para tener solución, las cosas son más complicadas. El Teorema de Rouché-Frobenius da las condiciones suficientes y necesarias para que tal cosa ocurra, pero de ello ya hablaremos en otra ocasión. Baste decir que el teorema chino del resto nos dice que un sistema de congruencias como el anterior tiene solución si los módulos p 1, p 2,..., p n son primos entre sí dos a dos. Esto quiere decir que tomando dos de ellos cualesquiera, no existe ningún número que divida exactamente a ambos, salvo la unidad. Cuando esto ocurre, el sistema tiene solución única módulp p 1x p 2x...x p n. Si lo piensan un poco, esto es lo esperable. Pero si no les apetece pensarlo, hablaremos de ello en otro momento. Por ahora, el lector se preguntará qué relación tiene esto con los días julianos. Pues bien: hemos dicho que Scaliger quería encontrar un origen para su sistema; un año x en el pasado que fuera a la vez inicio de los tres ciclos. Scaliger sabía que el año 1.560 tenía 1 como número del ciclo solar. También sabía que el año 532 fue el que Dionisio el Exiguo introdujo el sistema del ciclo lunar, y que tenía dicho año número áureo igual a 1. Sabía asimismo que el ciclo fiscal de indicción romana se instituyó el año 313 por Constantino, con lo que dicho año tenía número 1 en su correspondiente ciclo. Los tres ciclos tienen módulos 28,19 y 15 respectivamente, luego el año inicial buscado deberá ser congruente con las tres fechas citadas vía sus respectivos módulo(pues cada uno de ellos era el primero de su correspondiente ciclo). Esto es:  Simplificamos este sistema: lo explico para la primera congruencia: 1560 es congruente módulo 28 con muchos números. Si los ordenamos todos, veremos que están separados 28 unidades cada uno del siguiente, porque estamos trabajando en módulo 28. Se trata de encontrar el más bajo congruente con 1560. Esto se hace buscando el múltiplo de 28 más cercano a 1560 por debajo, que es 55x28=1540. Como nos faltan 20 para llegar a nuestro 1560, resulta que 20 es el número buscado, congruente con 1.560 módulo 28. Luego podemos sustituir 1560 por 20 en la primera congruencia, sin variar el contenido de la misma. Espero que el lector se de cuenta de que esta simplificación no es otra cosa que sustituir los números 1560,532 y 313 por los representantes canónicos de sus clases respectivas. En definitiva, obtenemos:  Tenemos suerte: los tres módulos son primos entre sí por parejas, luego el Teorema Chino del resto es de aplicación: Lo haremos pormenorizadamente en el próximo post, que será un mero desarrollo de los cálculos, por aquello de que lo hemos prometido. Así pues, el siguiente post sólo tendrá interés para los que quieran llegar hasta el final; el resto, simplemente puede obviarlo. Centrémonos en el problema, porque no hay mejor manera de entender un método que saber qué problema se intenta solucionar con el mismo. Un astrónomo calcula el paso de un nuevo cometa por su punto más cercano al sol (perihelio) en el presente, demuestra que dicho cometa tiene una órbita periódica, y calcula su período en una unidad de tiempo, digamos en segundos. Obtiene 4.016.131.200 segundos. Es natural saber cuándo vamos a poder ver el cometa de nuevo. Hasta qué fecha de nuestro calendario hay que esperar? Es del todo claro que no está nada claro. Incluso si cambiamos de unidad de tiempo, a días (46.483) la cosa está igual de oscura. Pasando a años ya tenemos algo más de claridad (127,35), pero empiezan las pegas: unos años tienen 356 días, y otros 366. Ya no está nada claro qué quiere decir 127.35 años, pues lo hemos obtenido dividiendo el número de días que teníamos entre 365. Cuando mayor sea el lapso de tiempo que estamos midiendo, peor se nos pone la cosa. Es difícil saber a qué día corresponde una fecha de X días en el futuro cuando X es muy grande! Para solucionar estos problemas, Joseph Justus Scaliger propuso en 1.583 un nuevo calendario de uso para astrónomos, en el que únicamente se tuviera en cuenta el día como unidad de tiempo, usando decimales de día para ajustes más finos. De ésta forma, a partir de un día que se consideraría como origen del sistema, a cada día futuro le correspondería un número real. Así de sencillo. Se establecería un algoritmo de conversión del sistema de días julianos al sistema tradicional de nuestro calendario gregoriano y viceversa para los cálculos. Como todas las ideas verdaderamente buenas, esta era muy sencilla y no tenía más que ventajas. Sólo faltaba definir el origen. Para ello, Scaliger planteó que dicho día de origen fuera a su vez origen de tres sistemas de cómputo importantes: 1.- El ciclo solar 2.- El ciclo lunar 3.- El ciclo de indicción romana. CICLO SOLAR El llamado ciclo solar es el período de tiempo más corto en el cual los d´çias de la semana y las fechas del calendario vuelven a coincidir. Como el año no bisiesto tiene 365 días, hace 52 semanas (364 días) más un día. Esto hace que el 1 de enero de cada año caiga en un día de la semana posterior al del año anterior. El decalaje es de 2 días en año bisiesto. Como los años bisiestos son cada 4, tenemos que cada 7x4=28 años se vuelve a repetir exactamente el ciclo entero. CICLO LUNAR También llamado ciclo metónico . La división de tiempo que nosotros conocemos como mes proviene del ciclo de las fases lunares. El mes lunar o mes sinódico es el tiempo transcurrido entre dos conjunciones seguidas del sol y de la luna; o lo que es lo mismo: el tiempo transcurrido entre dos lunas nuevas (29 dias, 12 horas, 44 minutos y 2,8 segundos). Intentando, como siempre cuadrar lo irracional, resulta que 19 años solares equivalen casi exactamente a 235 meses lunares, luego cada 19 años, las fases de la luna vuelven a coincidir . Número áureo de un año es el orden del año dado dentro de este ciclo de 19. Se considera número aúreo 1 a aquel año cuyas fases lunares del mes de enero se inician el 24 de diciembre del año anterior. El año 1 de la era cristiana, por ejemplo tenía de numero áureo la unidad. Este sistema fue introducido por el emperador Dionisio el Exiguo en el año 532 (año con número áureo=1) INDICCION ROMANA Este ciclo nada tiene que ver conla astronomía, sino con temas fiscales heredados del imperio romano. Cada 15 años se hacía ena evaluación de los bienes de las personas con el fin de determinar los impuestos a satisfacer al estado. Fue introducido por el emperador Constantino en el año 313, siendo este año el número 1 de su correspondiente ciclo. Así pues, un sistema que conjuntara los tres ciclos debiera tener a su vez un ciclo de 28x19x15=7.980 años. Ahora solo faltaba encontrar un origen de cómputo, que sólo podía ser aquel año que tuviera la unidad como valor de los tres ciclos. Cómo encontrarlo? Pues muy fácil. Con el auxilio del álgebra, el teorema chino del resto y las congruencias. Seguiremos explorando el calendario, más que nada para intentar evadirnos de la miseria humana. Pocos temas son más importantes para una civilización agrícola que el momento oportuno para plantar las patatas, los nabos, el maíz o los puerros, y recogerlos. Ni las grandes conjunciones cósmicas, ni el poder astrológico de los planetas, ni las fuerzas ctonico-primordiales (sean éstas lo que sean, si es que son algo, que lo dudo...) ni los dioses ni los extraterrestres: las patatas y los nabos . Al no tener en cuenta esa verdad primordial, resulta enigmático el esfuerzo enorme que muchas civilizaciones realizaron para medir el tiempo. La dificultad del asunto está en que los ciclos naturales van a su aire, y los más evidentes (alternancia día-noche) no son los más indicados para medir lo que realmente importa. Los ciclos naturales más evidentes , además del día son las fases lunares, las estaciones y el año. Quitemos las estaciones. No por no importantes; precisamente ésas son las importantes, las quitamos porque van incardinadas en el año, siendo por lo tanto éste el que hay que medir. No vamos a extendernos mucho en los tópicos más corrientes del tema: los solsticios, los equinoccios, las estaciones, y todo eso. Daremos un brevísimo resumen para entender lo posterior, porque está sobradamente tratado en mil lugares de la web. San Google irá raudo a la ayuda de quien lo invoque correctamente. Por tanto, daremos unas someras pinceladas mínimas para entender la visión de conjunto, sabiendo que nos metemos en terrenos que no dominamos: la astronomía, y pidiendo perdón por las erratas que podamos cometer. En todo caso, la incursión será breve, y en el siguiente post volveremos a la matemática de las congruencias y al cómputo por días julianos. El año no puede ser definido por los creadores de los calendarios como el período de tiempo que tarda la tierra en dar la vuelta al sol por motivos epistemológicos evidentísimos: no se sabía que tal cosa ocurriera. Lo que sí se sabía es que a latitudes medias, el curso del sol sobre el cielo variaba un poquito de día en día, y se repetía cada 365 días, más o menos. El camino que recorre el sol en el cielo a lo largo del día está inclinado respecto al horizonte, con una pendiente que depende de la latitud del punto de observación. En los polos hace círculos palalelos al horizonte sin ponerse en todo el día (latitud 90º) en el ecuador sale y se pone perpendicular al suelo (latitud 0º), y por eso los amaneceres y anocheceres son muy bruscos. En las latitudes medias, el arco solar tiene lógicamente inclinaciones medias.  El punto de salida (orto) o puesta (ocaso) del sol, va oscilando a lo largo de los días del año, marcando cuatro momentos no demasiado difíciles de concretar con alguna exactitud: los dos extremos, en los que el sol sale y se mete más al norte o más al sur; y los dos medios. Hoy los conocemos como solsticios y equinoccios. Equinoccio proviene de la palabra euqus : igual y nox : noche, cada año suceden dos acontecimientos de este tipo el de primavera y el de otoño, con fechas aproximadas del 21 de marzo y el 20 de septiembre, respectivamente. En ambos, el día y la noche tienen igual duración. Cuando el sol sale más al norte, el recorrido en el cielo era más largo, consecuentemente hace más calor y las noches son más cortas: estamos en verano. Cuando el sol sale más al sur, ocurre exactamente lo contrario. Soy plenamente consciente de mi asqueroso eurocentrismo: en el hemisferio sur las cosas ocurren exactamente igual, pero al revés Pues bien; sirva todo esto para tener una idea clara: todo agricultor sabe que es peligrosísimo sembrar antes de un determinado momento, por mil motivos: una helada tardía puede acabar con la cosecha, por ejemplo. Sembrar demasiado tarde trae consecuencias igualmente desastrosas; y la recolección debe ser realizada también en momentos determinados. No debemos olvidar que la consecuencia de un error grave en este “detallito” es el hambre y la muerte. Para la época de los romanos, el tema estaba aparentemente solucionado: el Calendario juliano contemplaba 365 días , y cada cuatro años había un día adicional. El calendario tenía 12 meses, comenzaba en marzo (como debe ser, no como nosotros), y terminaba en febrero. Por eso es Febrero el mes irregular que carga con el día adicional cuando el año es bisiesto. ¿Qué se había conseguido con ello? Se había conseguido una duración media del año de 365,25 días. Sin embargo, la naturaleza es terca en su querencia por los irracionales, y la duración del año trópico (intervalo entre dos equinoccios de primavera) es de 365 días, 5 horas, 48 minutos y 46,43 segundos. Eso significa que el error de 11 minutos y 14 segundos. No parece gran cosa, pero ¡es acumulativo! Esto quiere decir que cada 128 años se comete un error de un día entero de adelanto del calendario juliao respecto a la naturaleza. Allá por 1.582 el decalaje era de 10 días. La solución fue la revisión completa del calendario: se suprimieron 10 días (el día siguiente al 4 de Octubre de 1.582 fue 15 de octubre), y se redujo el número de años bisiestos de la siguiente forma: los bisiestos múltiplos de 100 sólo seguirían siendo bisiestos si además son múltiplos de 400. De esta forma, se corregía el error acumulativo hasta cotas muy pequeñas. Lo suficientemente pequeñas como para olvidarse del problema en varios milenios. La penetración del nuevo calendario fue paulatina, pero terminó por imponerse en el mundo, que es como los occidentales solemos llamar al mundo occidental cuando nos referimos a él, haciendo alarde de una miopía sin par. A pesar de todo, los astrónomos utilizan otro calendario para ellos solos. Es el calendario de los días julianos , que nada tienen que ver con el calendario juliano. Para ver su origen, significado y utilidad, tendremos que aprender congruencias, y pasearemos por conceptos tan poco habituales en la vida diaria como números aúreos , indicción romana , y maravillas similares...""  Les propongo un paseo matemático alrededor del calendario. El tema es algo arduo, de manera que deberemos hacer acopio de provisiones. Para este paseo bastará con llevar ganas de llegar a la meta, y como siempre, la meta será lo de menos. Lo importante será el propio camino. A lo largo de esta caminata, veremos que la naturaleza gusta de los números irracionales, lo cual es una faena para nosotros los humanos. Sabemos( porque lo sabemos, nooo?) que un número irracional puede expresarse con la precisión que queramos mediando una división de dos enteros, pero sucede que cuanta mayor precisión queramos, más grandes deberán ser numerador y denominador. No obstante, los planetas y los satelites se obstinan en tener períodos de rotación irracionales unas respecto a otras, salvo los notables casos de resonancia . Esto hace que el tema de la medición del tiempo a largo plazo sea exquisitamente complicado. Revisaremos los conceptos de congruencias, con las que tanto trabajó el bueno de Euler; echaremos un vistazo al Teorema chino del resto , e intentaremos comprender el sistema actual de calendario, conocido como Calendario gregoriano . Veremos también el sistema astronómico de datación temporal, conocido como el sistema de los días julianos , y veremos la explicación de porqué los astrónomos actuales fechan sus eventos en un extraño calendario en el que los días son la única unidad, arrancando en la estrambótica fecha del 1 de enero del año 4.713 antes de Cristo. Todo esto lo haremos con la humildad necesaria al comprender que civilizaciones diferentes solucionaron el tema incluso desde antiguo de formas diferentes; algunas muy buenas y alguna extraordinariamente buena. Y es que en contra de lo que piensan los amantes del misterio barato, los antiguos eran antiguos, pero no gilipollas. Todo ello en post subsiguientes, si les apetece.  Este blog no está pensado en un público matemático. Sería como invitar a Edurne Pasaban a dar un paseo por la loma que hay detrás de mi casa. Este blog se hace pensando en amigos de la reflexión, en personas que disfrutan pensando un ratito y apreciando la belleza. Este blog es como una invitación a pensar la matemática sin gran esfuerzo.Por eso, a veces los conceptos que aquí se explican no tienen el rigor preciso que un matemático exigiría. Sin embargo, y dado que el rigor es precisamente la marca de la casa de todo quehacer matemático, lo que sí podemos es ir afinando detalles para comprender que tras una secuencia de símbolos (una cadena bien formada, que diría alguno), hay ideas precisas, afiladas como bisturíes. Invito al lector no acostumbrado al lenguaje matemático a que compare la definiciópn del post anterior con la de este. Hay alguna pequeña diferencia. ¿Cuál es el sentido? ¿En qué mejora ésta a aquella? Probablemente, como nos ha pasado a todos, tras un momento de incertidumbre, se hace la luz repentinamente y lo comprendemos todo de un plumazo. Esa es la sensación "Ajá", que decía Martin Gardner. Pero vaya, es una invitación que pueden aceptar, o no aceptar.  Hace unos día vimos cómo Johann Bernoulli demostró que las suma de los inversos de los números naturales era una suma infinita.(En lenguaje de hoy: que la serie armónica es divergente). Dijimos que la demostración hoy no se consideraría rigurosa por el tratamiento del infinito tan alegre que en ella se hace: se considera como un infinito actual, y se opera con él sin ningún respeto. Hoy vamos a ver, si les parece, cómo se evita este problema y cómo se convierte en rigurosa la demostración. EL argumento finitista, tan al gusto de la matemática moderna, viene definido en la ilustración. Si uno no está acostumbrado, las frases en las que intervienen los símbolos de para todo , o existe un , son un poco liosas en apariencia, pero un pequeño esfuerzo será recompensado. Escojamos un número M, tan grande como queramos. Si sucede que sumando elementos de la serie siempre conseguimos sobrepasarlo, entonces decimos que la serie diverge. n es la cantidad de elementos de la serie que hemos tenido que sumar para alcanzar el valor M. Si consigo demostrar que, sin importar el valor de M, siempre habrá un valor de n que cumpla este requisito, habré demostrado que la serie es divergente. La lógica del razonamiento es aplastante, y así hemos evitado toda referencia al infinito. En el caso de nuestra serie, la demostración sería así: Si agrupamos los sumandos de la siguiente manera: 1+[1/2+...+1/10] + [1/11+1/12+...+1/100]+[1/101+...+1/1000]+... El primer corchete tiene 9 elementos, el segundo 90, el tercero 900 y así sucesivamente. Para cualquiera de dichos corchetes (por ejemplo el primero) podemos razonar así: [1/11+1/12+...+1/100] > [1/100+1/100+...+1/100], ya que hemos sustituido todos los sumandos por el último, que es el menor. Y esta última suma vale 0,9 . De la misma forma, cualquier corchete vale 0,9 (90 veces 1/100, ó 900 veces 1/1000, ó 9000 veces 1/10000 da lo mismo, verdad? Hemos demostrado que podemos agrupar los sumandos de la serie armónica en grupos que sumen más de una cantidad fijada y mayor que cero. Dado que disponemos de tantos grupos de estos como queramos, dado un número M, por grande que sea, nos bastará tomar un cierto números de corchetes de los anteriores para sobrepasar el valor de M. Por lo tanto, LA SERIE ARMONICA DIVERGE . Que es lo que queríamos demostrar. _________________________________________________________________________________ Yo no sé qué les parecerá a ustedes esta demostración, pero aún recuerdo cuando se la expliqué a un buen amigo mío. Se llama Pedro. Le gustó tanto que me impresionó cómo a ciertas personas un buen razonamiento les puede hacer el efecto de una historia bien contada, de una película estupenda o de una música arrebatadora. Y es que, con ciertas audiencias, da gusto. ;)
NOTA.- La definición "buena" de convergencia de una serie es un poquitín más complicada que la aquí explicada. Ello es debido a que, en la generalidad, una serie puede ser más perversa de lo que es la armónica que aquí nos ocupa. La simplificación ha sido realizada en aras de una mayopr claridad en la definición. En otro post hablaremos de ello. No es mi intención cargar demasiado los post con formulismo matemático por miedo a cansar al personal. Por eso, y dado que los últimos post iban fuertes en este aspecto, vamos a relajarnos un poco. Hace unos meses comprobábamos una de las propiedades más fascinantes de la matemática: la facultad de postular la existencia de objetos que desconocemos, que nunca hemos visto, pero que podemos deducir sus propiedades una a una antes de encontrarlo. El ejemplo que veíamos era el del poliedro de Szilassi; extraño cuerpo tridimensional cuya existencia demostramos y propiedades en una serie de tres post, antes de mostrarlo en las ilustraciones.  No deja de ser mágico el asunto si lo pensamos bien: demostramos la existencia de un extraordinario poliedro con tan sólo siete caras, con 21 aristas y 14 vértices, que es topológicamente similar a una rosquilla por tener un agujero, y que además cada par de caras se encuentran en una arista. Podemos saber por tanto que todas las caras son hexagonales, pues cada una de las siete debe tener una arista común con las seis restantes. Sabemos también que de cada vértice salen exactamente tres aristas... y sin embargo nada sabemos del aspecto real del mismo... hasta que lo descubre Szilassi y nos lo muestra con exactamente las propiedades que habíamos predicho. El hecho de hacer el post muchos años después del descubrimiento no empaña para nada la belleza del asunto, creo yo... Pues bien, siendo todo esto extraordinario, puedo asegurarles que hay cosas más extrañas todavía: hay ciertas propiedades que deben cumplir indefectiblemente ciertos objetos matemáticos ¡en el caso de existir! Nadie sabe si existen o si no existen, pero se sabe que si existieran, deberían cumplir una serie (cada vez más larga) de propiedades. Filosóficamente, uno se podría preguntar de qué leches estamos hablando cuando nos referimos a propiedades de objetos, tal vez inexistentes, verdad? Estos "objetos" no son geométricos: son números. Concretamente son números perfectos (aquellos cuya suma de divisores propios es igual al propio número, se acuerdan?). Y más concretamente, son números perfectos impares. Nadie sabe si existen, nadie conoce ninguno. Nadie sabe una razón por la que no deban existir, ni por la que sí deban existir. Sin embargo, se sabe que si existieran, debieran cumplir al menos estas propiedades: 1.- No pueden ser divisibles por 105 2.- Deben tener al menos 8 factores primos diferentes. 3.- Deben ser, incluso el más pequeño, mayor que 10 3004.- Su segundo factor primo más pequeño debe ser mayor de 1000 5.- La suma de los inversos de todos ellos, debe ser finita. La lista de proiedades "descubiertas" para los perfectos impares va creciendo continuamente, y ese crecimiento es el que, precisamente podrá demostrar al final la inexistencia de los mismos. ¿Cómo? Pues muy sencillo. Si algún día se demuestra una propiedad que sea incompatible con alguna de las ya demostradas anteriormente, se habrá demostrado la inexistencia de los números perfectos impares. Para terminar, permitanme una infantilidad: yo no quiero que eso ocurra . Me parece mucho más interesante que existan que que no existan. Desgraciadamente, si un día decíamos que una de las propiedades del universo es el nulo caso que hace de nuestros deseos, creo que con la matemática pasa igual...lo cual da pie a pensar de un modo platónico en la existencia matemática, y nos llevaría a la eterna pregunta de su los objetos matemáticos se inventan o se descubren, pero eso es harina de otro costal. ___________________________________________________________________________________ Como suele suceder con las demostraciones de los enunciados aparentemente inocentes de la Teoría de números, la complicación y dificultad se hace inusitadamente grande cuando aumenta la fuerza de la afirmación. Para ejemplificarlo, baste ver la demostración de dos afirmaciones más suaves que las que se listan aquí. A saber: todo perfecto impar tiene al menos TRES factores primos diferentes; aquí, y todo perfecto impar tiene al menos CUATRO factores primos diferentes ; aquí. Todos sabemos que cuanto más lejos está un objeto, más pequeño lo vemos. Hablamos en todo caso de observación directa, sin instrumentos de aumento. Nos vendrá bien comprender el motivo y cuantificar un poco el asunto. En la figura aparece un objeto, como un rombo alargado, visto desde un punto a una distancia l, siendo d la diagonal mayor del rombo. Lo importante desde nuestro punto de observación es el ángulo alfa que ocupa el objeto. Cuando hablemos del tamaño aparente del rombo, nos referiremos a dicho ángulo. Con un poco de trigonometría, vemos que tg (a/2)=d/(2·l) y por lo tanto, a= 2 arc tg (d/(2·l)) Vemos por lo tanto que el tamaño aparente de un objeto depende exclusivamente de la relación (cociente) entre su diámetro real y la distancia que nos separa del mismo. Teneis la gráfica en la ilustración. Conviene recalcar que el eje horizontal no expresa distancias sino cociente de distancias, o si lo quereis: la distancia a la que estamos del objeto observado, tomando el diámetro del mismo como unidad de medida. Es una función sin sorpresa alguna: decreciente y asintótica a cero, como debía ser. A distancia nula del objeto observado, su visión nos abarca 180 grados, lo que quiere decir que lo tenemos tan cerca que llena todo nuestro campo visual. Es lo que pasa con la tierra, que nos tapa exactamente la mitad del cielo si estamos en una zona completamente llana a ras de suelo. El sol y la luna están aproximadamente a la misma distancia de nosotros si tomamos como escalas sus respectivos diámetros, de ahí que apreciemos aproximadamente el mismo tamaño en ambos. En ausencia de referencias añadidas, no tenemos evidencia directa de cuál de los dos está más cerca. Parecen dos astros de tamaño similar. Sin embargo, resulta que el cerebro no se vale únicamente de los tamaños aparentes para estimar tamaños reales, sino que efectúa todo tipo de comparaciones. Pongamos un ejemplo: tengo en una calle a cierta distancia un niño con un globo, y tras él, bastante más lejos, otro niño con otro globo idéntico. Podemos hinchar el segundo globo hasta que desde mi punto de observación tenga el mismo tamaño aparente que el primero, pero en ese caso, no tendré ningún problema para saber que el globo más alejado es más grande: sé que está más lejos porque tengo mil referencias: ambos niños, la propia calle...) y lo aprecio moyor aunque tenga el mismo tamaño aparente que el cercano. Eso es exactamente lo que pasa con el sol y la luna sobre el horizonte. Nuestro cerebro, por lo visto, imagina la bóveda celeste no como una semiesfera, sino como una cúpula elíptica, de forma que los puntos más alejados están en el horizonte, y el punto más cercano es el cenit. Aunque los tamaños aparentes son los mismos, una luna sobre el horizonte nos parece mayor porque la situamos más lejos que cuando está más alta. Así de sencillo, sin necesidad de apelar a aberraciones atmosféricas, ni a cosas raras. Y lo de las montañas que parecen alzarse sobre nosotros cuando nos alejamos en coche? Si observan la gráfica de la curva de la ilustración, verán que la pendiente de la curva (su derivada, o ritmo de variación) va decreciendo paulatinamente (no podía ser de otra forma, si es asintótica a cero, continua y siempre positiva). Esto quiere decir que las variaciones de tamaño aparente según nos vamos acercando o alejando de los objetos que vemos serán mucho más acusadas para objetos que estén a distancias pequeñas de nosotros en (comparación con sus diámetros, no lo olvidemos !!!). Si nos alejamos de una montaña en coche, nos estamos alejando a una velocidad muy pequeña medida en (altura de montaña)/hora. Sin embargo, todo lo cercano que hace de marco a la montaña (los árboles que vamos dejando atrás, la propia carretera) sufre un efecto muy diferente: nuestra velocidad de separación medida en (altura de árbol)/hora es ahora muy grande a pesar de que nuestra velocidad real es la misma, y por lo tanto todo disminuye de tamaño a ritmo rápido menos la montaña, que lo hace muy lentamente. El efecto conjugado es que la montaña crece respecto al marco de referencia. Hace cosa de un mes, me desperté en el momento en que el sol estaba saliendo por mi horizonte. Como no es cosa habitual (que me levante en ese momento, no que el sol salga), le hice una foto con mi cámara digital y me olvidé del asunto. Pasados los días, al ver las fotos me acordé de una desilusión que ya se me había producido en otras ocasiones: el sol (o la luna) sobre el horizonte en las fotos parece ser mucho menor que en nuestro recuerdo. Si no hay efecto de zoom o ampliación posterior, las fotos de puestas o salidas de astros son decepcionantes. Aunque recordamos la puesta de sol que hemos fotografiado más o menos así:  lo que obtenemos en la foto es algo como esto:  con un tamaño aparente del astro mucho menor que lo que recordábamos. Dado que nosotros percibimos que cerca del horizonte el sol o la luna parecen más grandes, y dado que la cámara fotográfica no registra dicho aumento aparente de tamaño, la explicación de lo que percibimos deberá ser algo más elaborada que un efecto de aumento por parte de la atmósfera, por ejemplo: si así fuera, la cámara registraría el aumento aparente. En el próximo post explicaremos los motivos de tal efecto, que tienen que ver con los tamaños aparentes de las cosas por un lado, y con nuestra forma de procesar la información en el cerebro por otra. Además, al explicarlo, podremos comprender las bases trigonométricas de otra ilusión muy corriente: si van ustedes atravesando un paisaje montañoso en coche, dejando las montañas atrás, y se dan la vuelta (NO LO INTENTE SI ES USTED EL CONDUCTOR!!!) para ver por la ventana trasera las montañas de las que se aleja el vehículo, se tiene la poderosa sensación de que las montañas están aumentando de tamaño; alzándose sobre nosotros incluso. En determinadas circunstancias ( si la velocidad del vehículo es grande) el efecto es muy llamativo. La culpa la tiene en gran parte una función arco tangente. Pero lo veremos en el próximo post, si les apetece...  Una de las cosas más extrañas de la matemática es que muchas veces es difícil saber qué estudia una cualquiera de sus ramas. Un buen ejemplo de esto lo tenemos con la geometría . La inequívoca etimología de la palabra nos evoca mediciones de terrenos. Por lo tanto, la geometría sería la parte de la matemática que estudia las figuras, las porciones del plano y sus propiedades. Rápidamente podemos hacer una extensión del concepto, y englobaríamos dentro de los estudios geométricos las figuras que no son planas: superficies alabeadas, cuerpos sólidos, etc. En una generalidad creciente, si somos capaces de estudiar espacios de más dimensiones, sus porciones quedarían también dentro del estudio de la geometría. La idea original, como pueden ver, se va desdibujando. En un ambiente de creciente abstracción como la que ocurrió a mediados y finales del siglo XIX, empezaremos a vez la geometría como el estudio de los subconjuntos de un conjunto general, llegando con Félix Klein a decir que la geometría es el estudio de las propiedades que permanecen invariantes por transformaciones. Cuando más generales son estas transformaciones, más primigenias son las propiedades estudiadas. Tenemos así un conjunto anidado de geometrías diferentes, siendo la topología la más general de todas ellas, por estudiar las propiedades invariantes por homeomorfismos, feo palabro que indica simplemente transformaciones generales continuas (sin romper ni rasgar). Con los trabajos de Klein se desdibuja la separación entre álgebra y geometría, y empiezan a ser posibles gruesos libros de texto sobre geometría sin dibujo alguno. La tendencia de abstracción crece enormemente con la irrupción del mítico (nunca mejor dicho) matemático Nicolás Bourbaki , llegando a Alexander Grothendieck , con su geometría algebráica a niveles nunca antes alcanzados. ¿Qué es hoy la geometría? El 5 y 7 de febrero de 1.934, el matemático holandés Van Schouten dió dos conferencias con cuyo título era precisamente ésta pregunta. Según cuenta Raymond Queneau, Van Schouten repasó las diferentes definiciones que desde Klein se han dado de geometría. Después de haber demostrado que ninguna de ellas resultaba completamente satisfactoria, decidió adoptar la de O. Veblen: Se llama Geometría a una rama de las matemáticas que un número suficiente de gentes competentes están de acuerdo en denominar así por razones de sentimiento y de tradición. Que tengan ustedes un feliz fin de semana.  La teoría de números es sin duda alguna uno de los apartados más enigmáticos y que mayor fascinación han despertado desde siempre. Se trata de algo tan fácil de definir como el estudio de un único conjunto: el discreto (nunca mejor dicho) conjunto N . Sabemos positivamente que jamás el ser humano será capaz de responder todas las preguntas que dicho humilde conjunto nos plantea; y lo sabemos porque es muy fácil comprender que el número de preguntas diferentes que tiene capacidad de plantearnos es sencillamente infinito. Además, bajo la apariencia de preguntas sencillas, de conjeturas infantiles, se esconden retos inmensos contra los que se han estrellado las mentes más poderosas del planeta. No en vano Erdös decía que si se plantea un problema en términos sencillos y no obtiene respuesta satisfactoria en un par de siglos, estamos ante un problema de teoría de números. La Conjetura de Goldbach pertenece a esta especie. Otras conjeturas son muy famosas, e incluso muy importantes, como la conjetura de Riemann o la conjetura de Poincaré ; sin embargo, para explicar estas últimas hace falta que el interlocutor tenga unos ciertos conocimientos, o al menos hace falta hacer una buen introducción. La de Goldbach en cambio es meridianamente clara para cualquier persona, independientemente de su formación matemática: todo número par es la suma de dos primos. Es la inconcebible dificultad de la demostración de esta frase lo que atrae a los matemáticos. El origen de esta conjetura parece datarse en 1742, cuando un oscuro matemático de nombre Christian Goldbach le escribe una carta al gran Leonard Euler y le comenta, marginalmente, que, hasta donde ha podido comprobar, todo número par puede escribirse como la suma de dos números primos. Otra de las fascinaciones del conjunto N es la distribución de los números primos. Me van a permitir que les hable hoy de una fascinación escondida del conjunto N , relacionada con esta distribución. Todo el mundo sabe que los primos son aquellos números que sólo se pueden dividir exactamente por sí mismos y por la unidad, revelándose así como los ladrillos a partir de los que se construyen los demás. Su aparición en el seno de N es errática: existen porciones de N tan grandes como queramos dentro de las cuales no hay ningún primo. (¿Lo sabía el lector? además, esto último es extraordinariamente fácil de demostrar). Sin embargo, parecen existir una infinidad de primos gemelos, que sólo distan dos unidades de uno a otro. Sin embargo, aunque la distribución en sí es impredecible, el acumulado de la misma, esto es: el número de primos existentes desde 1 hasta n, sí que tiene una cierta distribución “conveniente”. Se trata del famoso teorema de los números primos , que afirma que dicho número tiende asintóticamente al valor del logaritmo integral. No nos importa ahora qué es este logaritmo integral. Es simplemente una función concreta. Donde dicho logaritmo integral toma la forma siguiente: Pues bien: aunque el comportamiento asintótico (para n tendiendo a infinito) parece estar claro a partir de este teorema, lo que no está nada claro es si para cada n concreto el número de primos menor que n se acerca al logaritmo integral por arriba o por abajo. Basándose en extenuantes comprobaciones, se averiguó que el número de primos era siempre menor que el correspondiente logaritmo integral : se acercaba por abajo. El propio Gauss, que no era amante de conjeturas, conjeturó que esto era así para todo n. Pues bien, Skewes demostró (ojo, he dicho demostró, no conjeturó) que la desigualdad  se invierte para un número muy grande. Esto es muy curioso. Para empezar, la demostración utiliza la conjetura de Riemann . Una demostración que utilice una conjetura, no es una demostración, sino otra conjetura, me dirán ustedes. Y sin embargo no es así: se asume que la conjetura de Riemann es cierta, y se demuestra que existe un número a partir del cual la desigualdad anterior se invierte. Luego se asume que la conjetura es falsa, y también se demuestra que existe otro número a partir del cual la desigualdad se invierte. Ambos números son cotas que pueden ser reducidas en trabajos posteriores más finos; pero en todo caso son demostraciones de que al menos a partir de dichos números, la desigualdad se invierte (siguiendo cumpliéndose el teorema de los números primos, por supuesto).De esta forma, hemos independizado nuestra afirmación de la conjetura en la cual nos apoyábamos para hacer nuestra demostración (nos apoyábamos en sentido positivo, o negativo). Lo que añade mucho encanto al asunto es la extraordinaria, devastadora, inmensa magnitud de las cotas obtenidas, llamadas primer y segundo números de Skewes. Sus valores son:  Apenas existen trabajos matemáticos que involucren a números enteros más grandes (1) .No son grandes: son absurdamente grandes. No hay con qué compararlos, sobrepasan todo entendimiento. El número de electrones de trillones de universos como el nuestro es prácticamente cero en comparación. Ni los indios en su obsesión habían imaginado jamás nada parecido. Y todo esto dentro del humilde conjunto N , el que surgía del vacío como una joya zen... increíble. Nota (1): De hecho, sí existen números mayores en la historia de la matemática, el número de Graham por ejemplo. Son tan grandes que incluso la notación exponencial se muestra impotente para expresarlos, y ha habido que inventar otra notación específica para ellos.  Ya lo hemos dicho alguna vez: la matemática no es el arte de hacer conjeturas. Es el arte de hacer demostraciones. Y de hacerlas bien. Cantidad de conjeturas se han demostrado falsas a lo largo de los siglos, es tan fácil hacer una conjetura... Un ejemplo es la Conjetura de Polyà: Afirma que Existe igual cantidad de enteros con número par de factores primos que enteros con número impar de factores primos Un vez realizada, ahí queda para la posteridad; pero tiene algún interés? Permítanme que lo dude. El interés de la matemática no reside en la dificultad de demostrar la primera barbaridad que se le ocurra a un matemático. Además, esta conjetura se demostró falsa (C.B. Haselgrove: A disproof of a conjecture of Polyà, Mathematika, tome V,1958), con lo cual no quedó nada interesante del asunto. Si al menos la demostración hubiera sido "elegante", pero no, se trató de una comprobación por ordenador de que la conjetura fallaba más allá de la cota 1.845 · 10 361. Una conjetura no vale nada... a no ser que pasen varios cientos de años, y nadie pueda demostrarla, ni en sentido afirmativo ni en sentido negativo. Y aún así, es la demostración la que tendrá interés, no el mero enunciado de la conjetura. Es la demostración, y la consiguiente elevación a rango de Teorema la hazaña digna de merecer una edición especial de sellos de correos (ver imagen). Piensen ustedes: ¿qué importancia puede tener la mera afirmación de la existencia o inexistencia de un número entero n tal que la ecuación x n+y n=z n no tenga solución para ninguna tripleta (x,y,z) de enteros? (Ultimo Teorema de Fermat) Ninguna en absoluto. Esta afirmación se conoció durante siglos con el nombre de El Ultimo Teorema de Fermat . Aunque debiera haber sido conocido con el nombre de La conjetura de Fermat , porque digo yo que la simple afirmación del autor de que había encontrado una maravillosa demostración del teorema, pero que no le cabía en el margen del libro que estaba leyendo en ese momento ( Aritmética, de Diofanto , creo recordar) no basta para dar categoría a la afirmación de la conjetura. Y ya saben, sin demostración no hay teorema, ni debe haber gloria alguna para el autor. Lo que sí tiene interés matemático, y mucho, es la respuesta a cualquiera de estas preguntas: 1.- Cómo se demuestra esta afirmación? 2.- Porqué es tan difícil la resolución de este problema? 3.- Qué nuevas matemáticas hacen falta para demostrarla? 4.- Porqué la afirmación es cierta (si lo es), y porqué es falsa en caso de serlo? 4.- Qué nuevas perspectivas nos abre la demostración completa de la conjetura? Al final, pasa un puñado de siglos, y alguien (Andrew Wiles en nuestro caso), lo consigue. Lo que no me gusta que se diga es que Andrew Wiles consiguió demostrar el teorema de Fermat. Andrew Willes consiguió demostrar el TEOREMA DE WILES , cuyo enunciado es: La conjetura de Fermat es una afirmación cierta (1)Que no es lo mismo. (1)NOTA. Bueno,no quiero engañar a nadie; el enunciado real de Wiles es: Todas las funciones elípticas son modulares , pero palabrita de blogero que ambas afirmaciones deben ser equivalentes... En dos ocasiones hemos comentado que los seres humanos estamos muy mal dotados en general por la evolución para ciertas actividades que, paradójicamente, son muy importantes para la supervivencia: concretamente para el cálculo de probabilidades.
Acabo de encontrarme con otro tema de importancia enorme en la vida diaria para la cual estamos horrorosamente dotados: la estimación de porcentajes.
He realizado un experimento entre las personas de mi entorno inmediato. Se trata de responder la siguiente pregunta:
Por motivos contables que no vienen al caso, un empresario le explica a un asalariado suyo que va a proceder a subirle el sueldo un tanto por ciento, para decrementarle el mismo porcentaje del nuevo sueldo al día siguiente. Sin embargo, le explica que si lo prefiere lo pueden hacer al revés:comienza por decrementarle el citado porcentaje para luego subirle el mismo porcentaje del nuevo sueldo. ¿Qué debe elegir el asalariado?
Me concederán que el tema está muy cercano a los intereses más cotidianos de cualquiera, y que no es en absoluto complicado; y sin embargo... pregunten, pregunten. En el post ¿Qué es una teoría? un lector (Ctugha), cuya estupenda bitácora podeis ver aquí me plantea la importancia de los modelos en las teorías: "me parece importante incluir el concepto de modelo para formar el triunvirato de: teorias - modelos - hechos". Efectivamente, así es, y tenía pensado hablar de ello para contraponer la tarea científica genuina con las actividades paracientíficas, que son una corrupción de la idea original. Lo que sigue es un artículo mío que Marcos Taracido tuvo a bien publicar hace muy poco en su excelente página. LAS PARACIENCIAS COMO PERVERSION METODOLOGICA Hay veces que uno se encuentra con un artículo, una explicación o un documento paranormal, y capta al vuelo lo falaz de su contenido. Puede ser que el tema tratado no pertenezca a nuestra esfera de conocimiento, pero "sabemos" que nos están contando un cuento. Evidentemente, si el artículo está publicado en Año Cero o Más Allá, la cuestión no tiene mucho mérito, pero muchas veces lo encontramos en nuestro diario, o incluso en una revista de divulgación científica. Las paraciencias son ubicuas, como bien sabemos. A la gente de la calle le resulta a veces muy difícil detectar la falta de rigor científico en ciertas aseveraciones, y ciertamente la culpa no es suya. Es una de las asignaturas pendientes de los medios de divulgación, asignatura que suspenden repetidamente, dado el nivel de irracionalidad imperante en nuestra sociedad. ¿Porqué es esto así? ¿Porqué es tan difícil defender la razón y tan fácil propagar la superstición? Básicamente la respuesta la sabemos todos: quienes hablan de ciencia y racionalidad no suelen hacer trampas y los otros sí. Ha sido perfectamente explicado en muchas ocasiones, y no es cuestión de insistir en este aspecto. En lo que sigue intentaré describir es otra de las características paranormales, a nivel algo más escondido: la metodología corrupta que utiliza. Corrupta por tomar el método científico y volverlo del revés para su propio beneficio. Explicar cuestiones científicas al público en general no es sencillo. Además, la ciencia es difícil, y la paraciencia fácil. Pero explicar cómo funciona la ciencia es bastante más sencillo que explicar ciencia pura y dura, y éste es un conocimiento muy provechoso de poseer. Explicar qué marcas, qué estructura profunda subsiste en el fondo de los argumentos paranormales en contraposición a los que existen en el genuino quehacer científico nos puede servir para ayudar a otros a detectar a tiempo las falacias y las mentiras de la sinrazón paranormal. No existe un "método paracientífico" para contraponer al científico, pero existen unas pautas que se repiten en los documentos paranormales una y otra vez, cuestiones de estilo aparte. En un primer e ingenuo vistazo, tanto la ciencia como la paraciencia intentan explicar la realidad. La realidad externa es suficientemente compleja como para dejarnos anonadados. Somos testigos de multitud de fenómenos y procesos que ocurren a nuestro alrededor, cuya explicación se nos escapa; pero dentro de la naturaleza humana hay un impulso que conduce a encontrar una explicación satisfactoria de los mismos.  En una hipotética situación inicial (Fig.1) tenemos al ser humano preguntándose por la explicación de lo que ve, y sin herramientas para llevar a buen puerto tal empresa. Es evidente que tal situación derivó rápidamente a otra bastante más satisfactoria. En ausencia de mejores herramientas, el hombre imaginó que tras el plano real existía un mundo oculto, ordenador de la existencia. El observador no ve ese mundo, sino los efectos que produce sobre el mundo de la realidad. Los llamaremos el plano de lo real y el plano de lo oculto, el plano de los dioses o de las fuerzas sobrenaturales que ordena, crea y destruye la realidad. Ha nacido la mitología, con toda su fuerza explicativa. A nadie se le escapa que esta etapa no ha sido en absoluto abandonada, y que goza de excelente salud hoy en día, incluso en nuestro país. Sin embargo es muy fácil reconocer este esquema, que a nadie engaña.  Las explicaciones que siguen este patrón hablan de dioses, de designios inescrutables, de leyes ordenadoras de la existencia que parten del plano de lo divino, ordenador de la realidad. Mediante su acción, (Fig.2) las fuerzas ocultas intervienen en nuestra realidad. La naturaleza de dicha acción divina (flecha d en la figura) se explica mediante observaciones de la realidad; a menudo muy agudas, pero contaminadas culturalmente por dogmas socialmente consolidados respecto a la naturaleza del plano divino. Esta es la situación hasta los comienzos del pensamiento racionalista, que podemos situar en Asia menor y en la costa jónica con los primeros filósofos griegos. Conscientes de los graves perjuicios que a la búsqueda de la verdad acarreaba el esquema anterior, las mejores mentes del planeta fueron consolidando lo que hoy conocemos como el método científico (fig. 3). La metodología científica no contempla nada más allá del plano real, pero consciente de su complejidad, crea un plano más cercano a las posibilidades de análisis del observador; el plano de los modelos.  Existe una proyección desde la realidad R hasta el modelo M. Como toda proyección, es una simplificación que pretende captar lo esencial de la parcela de realidad que se quiere estudiar. El quid de la cuestión está en el hecho de que los humanos podemos aprehender y estudiar el modelo perfectamente con el auxilio de la matemática, que se revela así como la herramienta básica para el estudio de los modelos, y por tanto para la investigación científica en general. Al establecer la proyección , queremos que el modelo se parezca a la realidad lo suficiente como para que las conclusiones que saquemos del comportamiento del modelo sean extrapolables al plano real, que es nuestro verdadero interés; y a la vez pretendemos que el modelo sea lo suficientemente sencillo como para ser abordable analíticamente. Este paso maravilloso es posible gracias a nuestra capacidad de experimentar y observar la realidad. La acción o del observador sobre el plano real es el que validará o invalidará el modelo. La existencia de esta realimentación es lo característico del método científico. Los modelos nacen con vocación de explicar los hechos observados, entran en crisis y son sustituidos por otros mejores cuando sea posible. Según este esquema, una teoría científica es una creación humana de un modelo para explicar una parcela de realidad, y no es verdadera ni falsa: es útil o no lo es. El plano real es en última instancia quien valida y invalida los modelos, que sólo existen porque la realidad externa nos queda demasiado grande y lejana. El magnífico éxito de este esquema ha proporcionado un prestigio enorme al método científico, dados los progresos en la comprensión del universo obtenidos. El presente artículo trata de mostrar que las paraciencias son una perversión del esquema anterior.  Es más, defenderé que el esquema de la figura 4 define el concepto de paraciencia, a la vez que explica la metodología corrupta que utiliza, robada del quehacer científico para adueñarse de su prestigio ante públicos poco avisados. Al igual que el método científico, tiene un plano de trabajo más cercano al observador que la propia realidad, pero en este caso dicho plano es el objetivo. Nos se trata de estudiar la realidad, sino de forzar a la misma a adecuarse a dicho plano, que llamaremos plano de las explicaciones a priori . Toda paraciencia trata de preservar sus hipótesis apriorísticas, que son hipótesis no falsables, y por lo tanto no científicas. Para ello, en lugar de existir una proyección de la realidad hacia el modelo, como en el caso científico, existe una retroproyección en dirección contraria, desde las supuestas verdades que queremos preservar hacia la realidad. Así pues, existe una visión deformada de la realidad, coherente con la asunción de los postulados arbitrarios que hay que preservar a toda costa. Este esquema es doblemente perverso, pues además de funcionar al revés, es capaz de usar el lenguaje de la ciencia en su desarrollo. Esto es así porque permite observaciones de la realidad, como en el caso científico, pero sólo si mantienen incólume el conjunto de presuposiciones . Dichas observaciones de lo real pasan por un filtro, de forma que sólo las observaciones que validan las explicaciones a priori son tenidas en cuenta. De esta manera, la crítica desaparece y el "modelo" se perpetúa, pero la paraciencia se viste de lenguaje científico, pudiendo emplear tendenciosamente cuantas herramientas provengan de la ciencia para revalidar su hipótesis inicial. En el caso del llamado creacionismo científico se ven perfectamente las componentes del esquema. La información a preservar a costa de lo que sea es la creación del hombre por Dios. Este es el punto de partida y de llegada. Todo el registro fósil se ve en consecuencia, y se interpreta de forma que sea consistente con el punto inicial. Las observaciones son filtradas, de forma que siempre favorezcan la hipótesis, pero existen observaciones, lenguaje robado del mundo de la biología y la paleontología, y un aspecto exterior cientifista. La naturaleza del filtro paranormal no es unívoca, sino cambiante y múltiple. A veces se trata de burdas maniobras de engaño, otras veces la práctica con este tipo de actuaciones hace que el autor del trabajo sea inconsciente de su existencia y no sea un engañador consciente. En muchas ocasiones basta un tratamiento estadístico no correcto de la información recopilada, o incluso una recolección sesgada de la misma. Es perfectamente posible aparentar el rigor, la nomenclatura y las formas del quehacer científico, pero la existencia de este esquema perverso con el plano de las explicaciones a priori a preservar a toda costa, y de la retroproyección del mismo hacia la realidad constituye la "marca de la casa" de los amigos de la paranormal. Comprender cómo actúa la paraciencia es requisito sine qua non para batallar contra ella, y lo que es más importante: para explicar al oyente menos avisado por dónde vienen los tiros. Ya hemos tenido ocasión de comentar que el concepto de independencia es el que da sabor especial a la teoría de la probabilidad, y lo separa de la teoría de la medida, de la que surge naturalmente. La definición de independencia de dos sucesos aleatorios es muy simple: Los sucesos A y B son independientes si se cumple que la probabilidad de que se den ambos es igual al producto de las probabilidades de cada uno de ellos. Por ejemplo: la probabilidad de sacar un seis al lanzar un dado es 1/6, y la probabilidad de sacar cara con una moneda es ½. Si lanzamos primero uno y luego otro, o ambos a la vez, la probabilidad de sacar un seis en el dado y cara en la moneda es ½ x 1/6=1/12. Cuando esto ocure, la materialización de uno de los sucesos nada nos dice de la del otro: un seis en el dado no nos aporta información de lo sacado en la moneda, ni viceversa. Esta última visión del asunto la podemos expresar en forma de probabilidades condicionadas: P(A/B)=P(A) P(B/A)=P(B). Si A y B son independientes.
Esto es: la probabilidad de un suceso condicionada al resultado de otro suceso independiente suyo es igual a la probabilidad de suceso sin condicionar. Esta visión es la que nos da la explicación de la palabra independencia utilizada para expresar esta propiedad. Gran parte del pensamiento mágico e irracional que comprobamos a nuestro alrededor consiste precisamente en negar la independencia a sucesos aleatorios independientes. Por supuesto, a priori no es siempre evidente cuándo unos sucesos son independientes de otros, pero existe una especie de creencia humana en la justicia de los sucesos aleatorios que desvirtúa las apreciaciones de independencia. Según esta creencia no siempre verbalizada ni expresada, parecería que las probabilidades de los sucesivos eventos tienen que irse modificando. Al fin y al cabo, todos sabemos que si tiramos infinitas veces un dado, la sexta parte serán unos, otra sexta parte serán doses, y así hasta los seises. Si por un azar extraño hamos obtenido una racha inusitada de unos, por decir un número, algo tendrá que pasar para compensar este hecho ...Hace años, traté infructuosamente de convencer durante meses a un compañero de trabajo, entrado en años él y gran aficionado a los juegos de azar, de que aunque el gordo de la lotería llevara muchos años sin acabar en cuatro, por ejemplo, eso no modificaba para nada la probabilidad de que acabara en cuatro el próximo sorteo. Mi compañero no sabía lo que eran las variables aleatorias independientes, pero intuía la existencia de la Ley de los grandes números . Decimos que una sucesión de variables aleatorias X n, definidas sobre un mismo espacio de probabilidad obedece a la ley de los grandes números cuando la media de las observaciones de n resultados tiende a la media de las esperanzas de las variables aleatorias de la sucesión según n aumenta. He puesto la palabra tiende en cursiva para resaltar la informalidad y ambigüedad de la expresión. En efecto, según qué entendamos por tiende , tendremos las llamadas leyes fuertes o débiles de los grandes números. Pero no quiero incidir en ello, lo importante es que tras esta definición existe un montón de teoremas que nos especifican qué propiedades debe cumplir una sucesión de variables aleatorias para que cumpla esta ley de los grandes números. Estos nos irán dando detalles de cómo deben ser estas variables aleatorias para que obedezcan a una ley (fuerte o débil) de los grandes números, llegando a la conclusión de que la mayor parte de los casos que se nos presentan en la vida cotidiana obedecen dicha ley, cuando las variables son independientes. No hace falta una extraña “interconexión” entre las variables para que la media de las mismas se vaya acercando a la esperada. Varios de estos teoremas son: Teorema de Tchebychev  Basta que las variables aleatorias independientes tengan la varianza acotada para que cumplan la ley débil (convergencia en probabilidad). Teorema de Khintchine  Si las variables aleatorias independientes están idénticamente distribuidas, basta que tengan esperanza no infinita. Es la enorme generalidad de estos teoremas la que nos dice que no es necesaria conexión ni memoria alguna entre los sucesos pasados y futuros independientes para que las aguas vuelvan a su cauce , y la media de las observaciones se acerque asintóticamente al valor esperado. Y nos lo dicen en el estilo habitual en el que nos hablan los teoremas matemáticos: con la certeza de una verdad inmutable, de un hecho incuestionable por toda la eternidad. Pero claro, mi compañero no creía que un teorema pudiera ser más importante que su fuerte intuición. Por cierto; nunca ganó un duro con los juegos de azar. Ante un juego, o ante un problema de decisión, tenemos un conjunto de posibilidades de actuación, cada una de las cuales nos da un resultado. Quizás el resultado es determinista, quizás no lo es. En el primer caso diremos que estamos en ambiente de certidumbre, y en el segundo diremos que estamos en ambiente de riesgo.
La manera de unificar ambos ambientes es la siguiente: Tenemos un conjunto A={A1, A2,..., An} de posibles estrategias o actuaciones que desembocan en resultados. Se supone que existe una relación entre los posibles resultados, que llamaremos relación de preferencia-indiferencia. El jugador debe saber decidir si entre dos resultados A y B prefiere uno, otro ,o le son indiferentes.
Una función de utilidad es una aplicación definida en el conjunto de posibles resultados A, con valores reales, tal que respeta la relación de preferencia entre los resultados. Esto es: si el resultado A es preferido al B, entonces la utilidad U(A) es mayor que la utilidad U(B).
Cuando nos movemos en ambientes probabilísticos, una actuación suele desembocar en posibles resultados: eligiendo la estrategia, X tenemos una probabilidad p1 de obtener el resultado A1, una probabilidad p2 de obtener el resultado A2... y una pi de obtener el resultado Ai. En este caso , una vez definida la función de utilidad de los sucesos Ai, la valoración de utilidad de la adopción de la estrategia o elección X será: p1·U(A1)+ ... + pi·U(Ai), donde la suma de todas las pi es lógicamente la unidad. De esta forma, el ambiente de certidumbre se considera como una variedad del ambiente en riesgo, para el cual ante una determindad ectuación o estrategia, las probabilidades de todos los resultados posibles son cero excepto para uno de ellos, que vale uno: Hablamos de una distribución de probabilidad degenerada. Hablaremos pues de ambiente de riesgo, entendiendo que es el general que engloba al de certidumbre como caso particular.
John Von Neumann y Oscar Morgenstein establecieron la axiomática de las utilidad utilizando un concepto adicional: el de mixtura
Ante dos opciones X e Y, la mixtura de ambas se representa por pX+(1-p)Y. Aquí, tanto X como Y son actuaciones que llevan una distribución de probabilidad asociada de obtener los resultados Ai con probabilidades pi la X y con probabilidades qi la Y. La mixtura de ambas se interpreta como una decisión aleatoria consistente en elegir la actuación X con probabilidad p y elegir Y con probabilidad (1-p).
Existen cuatro axiomas de comportamiento racional que deben cumplir las mixturas. Cuando lo cumplen, el conjunto de todas las posibles decisiones junto con la operación mixtura se denomina un espacio de mixtura P.
Son los siguientes:
1.- Si X e Y pertenecen a P, entonces pX+(1-p)Y tambien pertenece a P. 2.- 1·X + 0·Y=X
3.- pX+(1-p)Y= (1-p)Y+pX
4.- Si Z= pX + (1-p)Y, entonces qZ + (1-q)Y = pqX + (1-pq)Y
En tal caso, la axiomática que nos ocupa consta de otros cuatro axiomas, que son los siguientes:
A I: Hay en P definidada una relación de preferencia-indiferencia que es un preorden completo.
A II: Hay definida en P una operación que lo convierte en un espacio de mixtura.
A III: Axioma de sustitución: Para cualquier X,Y,Z de P, X es preferida a Y si y solo si pX+(1-p)Z es preferida a pY + (1-p)Z.
A IV: Axioma de continuidad: Si X,Y,Z son tales que X es preferida a Y e Y es preferida a Z, entonces existen dos números p, q comprendidos entre cero y uno tales que:
pX + (1-p)Z es preferida a Y Y es preferida a qX + (1-p)Z.
Cuando se cumple todo lo anterior, el teorema de existencia de función de utilidad, debido a Von Neuman y Morgenstein dice que existe una función U definida en el espacio de mixtura, única salvo por transformaciones lineales, lineal a su vez y que queda determinada fijando el valor de dos actuaciones.  Los últimos post del mes de Febrero trataban de explicar el enunciado (que no la demostración) del Teorema de Ramsey . Comentamos entonces que dedicaríamos varios comentarios a aplicaciones prácticas del mismo, para acabar de comprender el sentido profundo del teorema. Para ello, vamos a apoyarnos en la teoría elemental de grafos. Un grafo no es más que una colección de puntos, junto con aristas que unen unos puntos a otros. Vamos a restringirnos a grafos simples no orientados, en los cuales los lazos entre puntos no tienen dirección, y no existen lazos múltiples entre la misma pareja de puntos; ni lazos que vayan de un punto al mismo punto. Cada arista por tanto une dos puntos, y es una buena representacione de una relación entre los mismos. Un grafo es completo cuando toda pareja de puntos tiene una arista que los une. El grafo completo de n vértices se denomina K n. En la figura tenemos dos grafos completos: K 5 y K 6. Sus aristas han sido coloreadas de dos colores: rojo y azul. Veamos el siguiente enunciado: En un grupo de seis personas, o se cumple que tres se conocen entre sí, o se cumple que tres no se conocen entre sí En las figuras, cada persona del grupo es un punto, y las aristas representan la relación de conocimiento o desconocimiento mutuo entre ellos. Digamos que rojo indica que sí se conocen y azul lo contrario. Una alternativa al enunciado anterior es la siguiente: Si en un grafo completo K6 coloreamos sus aristas de dos colores, siempre encontraremos un subgrafo K3 monocolor. Espero que sea evidente para el lector la equivalencia entre ambos enunciados, y espero también que aprecie el "sabor a Ramsey" de este último. En efecto, tenemos una aplicación directa del teorema de Ramsey: tenemos un conjunto X de seis puntos; tenemos el conjunto de todos sus subconjuntos de dos elementos (R=2), que no son sino las aristas del grafo , y coloreamos todas ellas usando dos colores. Ahora, dados los números tres y tres , el teorema de Ramsey nos asegura que si el conjunto X es suficientemente grande, existirá en su seno un conjunto de tres puntos unidos tan sólo por aristas de color rojo, o un conjunto de tres puntos unidos tan sólo por aristas de color azul. Las figuras nos demuestran que para el caso de cinco personas, no es obligado el cumplimiento. Es muy fácil demostrar que con seis sí. En el caso concreto que presento, aparecen regruesados dos subrafos de orden tres monocromáticos: los que tiene como vértices (1,3,5) rojo; y los que tienen como vértices (4,5,6) azul. El Teorema de Ramsey nos dice que si el número es suficientemente grande, en un grupo habrá, por ejemplo 20 personas que se conozcan entre sí dos a dos, o 15 personas que no se conozcan mutuamente. Para cualquier par de números, existirá un número mínimo R(m,n;2) por encima del cual, un conjunto de personas tendrá en su seno m personas que se conozcan todas ellas dos a dos, y n personas que no se conozcan. R(3,3;2) = 6, como acabamos de ver. En general, los valores de los números de Ramsey son desconocidos; pero hablaremos de ello en próximos días. Volvemos a poner el enunciado para animarles a releerlo. Seguramente ya no parece tan extraño como hace unos días...   Acabo de ver por la red aquí y aquí que hay gente que encuentra en las recientes fotos mandadas por las sondas robot Spirit y Opportunity , todo tipo de huesos, fósiles, huellas e incluso artefactos en el suelo marciano. La tendencia humana a encontrar pautas y organizaciones donde no las hay es un asunto interesante, pero de componente psicológica que trasciende por mucho el contenido de este blog. No obstante, a veces el orden, la estructura aparecen realmente. El autoengaño supone entonces pensar que este orden se debe a una causa extravagante; en nuestro caso, la existencia real de un dispositivo, o de un hueso en el suelo marciano. Todo esto me sirve de excusa para comentar lo siguiente. El orden y la estructura pueden aparecer en la naturaleza por varios motivos ajenos a la inteligencia; humana, animal o divina. Uno de ellos es el imperativo termodinámico. Los cristales exhiben pautas ordenadas debido a consideraciones de equilibrio entre niveles de energía. Otras veces las pautas aparecen por simple casualidad. Y otras, por simple y pura necesidad matemática. Es de este tipo de orden matemáticamente necesario, que hace que el caos completo no pueda existir, del que vamos a hablar. Iniciamos una serie de post sobre un tema difícil, que cae dentro de la combinatoria: el surgimiento de orden y pautas en conjuntos suficientemente grandes. Algunas de las más interesantes ( y más recientes) contribuciones de la combinatoria son los denominados Teoremas de existencia. Estos extraordinarios y difíciles teoremas aseguran la existencia de ciertos objetos matemáticos. En concreto aseguran la existencia de conjuntos en los cuales se cumplen determinadas relaciones o propiedades. El Teorema de Ramsey en concreto afirma que siempre aparecerá algo ordenado y con estructura en el seno de un conjunto, a condición de que dicho conjunto sea lo suficientemente grande. Tras el enunciado (que veremos en post próximos), aparente ininteligible, como si de una cadena de símbolos sin sentido se tratara, se esconde el orden de una gran idea. En una mágica recursividad éste es precisamente el mensaje del Teorema de Ramsey: el orden surge necesariamente en conjuntos suficientemente grandes. Nuestro teorema lo asegura, aunque por desgracia no nos dice lo grandes que deben ser dichos conjuntos. Las implicaciones de todo tipo de este teorema son enormes en nuestra vida cotidiana, y explica ciertas regularidades que observamos en la naturaleza, que no tienen otra explicación: en virtud del teorema de Ramsey encontramos aparentes pautas en sucesos absolutamente aleatorios. Este tema es importante, porque no estamos hablando de teoría de probabilidades, sino de combinatoria. ¿Qué pretendo decir con esto último? Muy sencillo. Al estar totalmente desligado del cálculo de probabilidades, el teorema de Ramsey nos habla de necesidad de cumplimiento de determinados patrones extraños, no de la probabilidad de existencia de los mismos. La extrañeza de los mismos no es, por supuesto, una característica intrínseca de dichos patrones, sino una medida de nuestra incapacidad para percibir su presencia como necesaria, incapacidad que nos incita a engañarnos. El engaño consiste en imaginar motivos o incluso voluntades inteligentes detrás de las pautas observadas. La amplitud de campos en los que el teorema se aplicable es infinito, desde estrellas que parecen adoptar configuraciones animales o humanas en la bóveda celeste hasta grupos de personas que se reúnen en torno a una mesa, ... Lo primero que haremos es hablar de su descubridor: un extraordinario ser humano que se llamó Frank Plumpton Ramsey , y que murió a la tempranísima edad de 26 años. Espero contar con su atención en los próximos días...el paseo que les propongo me parece bastante más interesante que intentar encontrar cosas raras en las fotos del suelo marciano. Las propiedades de un número en principio no son atributos que dicho número exhibe con independencia de las que puedan exhibir otros números: prácticamente todas las propiedades de un número lo son por la relación con otros números. Por ejemplo: la primalidad de un número está establecida por la ausencia de división entera con otros números menores que él. Por lo tanto, tenemos un mundo de relaciones entre números, relaciones entre parejas, o en general entre n-tuplas de números. La relación binaria entre enteros más común es la de primalidad mutua: dos números son primos entre sí cuando no tienen divisores comunes, además de la unidad. Vamos a hablar hoy de una relación entre números que trasciende la relación binaria, y que puede englobar, en principio a cualquier cantidad finita de enteros: la sociabilidad . Para ello introduciremos en concepto la función aritmética suma de divisores . Una función aritmética es una función que toma valores reales o complejos, cuyo campo de difinición es el conjunto N. Muchas de las funciones aritméticas dependen mucho más de la descomposición en factores primos del argumento que que valor numérico del mismo. Esto hace que su comportamiento sea muy errático y difícil de estudiar. La función S(n) se define como la suma de los divisores de n. Como pueden ver, nada misterioso ni difícil de entender. Como los divisores de ocho son el propio ocho, el cuatro, el dos y el uno, S(8)=8+4+2+1=15. Como un primo no tiene más divisores que el propio número y la unidad, S(p)=p+1, para p primo. En lo que sigue, vamos a referirnos siempre a la suma de divisores propios: exceptuado el propio número. Para evitar confusiones denotaremos S (mayúscula) a la suma de todos los divisores, y s (minúscula) a la suma de los divisores propios.. Con n = 20: Los divisores propios de 20 son 1, 2, 4, 5 y 10. s(20) = 1 + 2 + 4 + 5 + 10 = 22. Como el resultado es mayor que el número inical, se dice que 20 es un número abundante . Si hacemos lo propio con el 22, resultado de la operación anterior, obtenemos: s(22) = 1 + 2 + 11 = 14, la suma es menor que el número escogido; se dice que 22 es un número defectivo . Continuando, si seguimos calculando la s(n) para cada suma obtenida, tenemos: s(14) = 1 + 2 + 7 = 10; s(10) = 1 + 2 + 5 = 8; s(8) = 1 + 2 + 4 = 7; s(7) = 1 porque 7 es primo, y s(1) = 0 porque 1 no tiene divisor propio. Se ha obtenido así una sucesión finita: 20 , 22 , 14 , 10 ,8 , 7 , 1 , 0. Otra sucesión es : 24 , 36 , 55 , 17 , 1 ,0. Nada obliga a que la sucesión sea finita, pues pudiera ocurrir que fuera periódica. Si el período fuera uno( el mismo número se repite siempre), estaremos en el caso de que s(n)=n. Todo número que cumple dicha ecuación se denomina número perfecto. Número perfecto es aquel igual a la suma de sus divisores propios De ellos, y de la caracterización para los perfectos pares hablamos en su momento aquí. De los números perfectos impares nada se sabe, ni siquiera su existencia o inexistencia. Cuando el período de la sucesión anterior es igual a dos, tenemos el caso de números amigos : Dos números son amigos cuando cada uno es igual a la suma de divisores del otro La pareja (220, 284) es una pareja de números amigos, como podemos comprobar: s(220) = 1 + 2 + 4 + 5 + 10 + 11 + 20 + 22 + 44 + 55 + 110 = 284 y s(284) = 1 + 2 + 4 + 71 + 142 = 220. Luego la sucesión que comenzara con uno de ellos sería: 220, 284, 220, 284, 220, 284, 220, 284... de período dos. Leo por la red que “En la Edad Media, existió la creencia de que si se daba de comer a dos personas (al mismo tiempo pero no en el mismo lugar) sendos alimentos que contenían una inscripción 220 para uno y de 286 para el otro, entonces se volvían amigos por arte de magia.” Otras parejas de números amigos son (1184; 1210), (2620; 2924), (5020; 5564) y (6232; 6368), (17296; 18416) y (9363584; 9437056). En general, se llaman números sociables a las n-tuplas de números de una sucesión así formada de período n. He podido encontrar por ahí los siguientes: (12.496, 14.288 , 15.472 , 14.536 , 14.264 ) Cinco enteros, cada uno es igual a la suma de los divisores propios del anterior, y el primero respecto al primero. En esta dirección teneis un programa en Mapple para generar secuencias de sumas de divisores propios, así como la información que he utilizado de base para elaborar este post. Por lo demás, poca información parece que hay, al menos fácil de encontrar sobre esta generalización de los números amigos. A lo largo de los tres post anteriores hemos visto cómo los matemáticos del siglo XX intentaron buscar los fundamentos de su disciplina con la máxima economía de conceptos, hasta llegar al paroxismo: el conjunto vacío se revelaba como la piedra angular de todo el edificio numérico. Nos quedaba definir el conjunto N. Pero eso ahora es cosa trivial: el conjunto N es el único conjunto que contiene al conjunto vacío y a todos sus sucesores; y sólo a ellos. La formulación de los enteros sobre el esquema aquí esbozado de los naturales; la de los racionales sobre los enteros y la de los números reales como clases de equivalencia de sucesiones de Cauchy de racionales nos da un panorama completo de la construcción numérica hoy aceptada por la comunidad matemática. Este es un buen momento para ver desde otro punto de vista la aritmética transinfinita de Cantor, tema que tocamos en los artículos sobre el Aleph y sobre las sucesiones de Goodstein. En efecto, hemos visto que un número natural se define como el conjunto de todos sus anteriores: n={0,1,2,3,...,(n-1)}Nada nos impide considerar el conjunto N como un infinito actual y hacerle corresponder un número infinito (el menor número infinito) que sería: w={0,1,2,3,...}=NDigo que nada nos impide efectuar esta consideración porque ya tenemos perfectamente definido el conjunto N, y por lo tanto estamos legitimados para usarlo como un objeto actual, en su totalidad. Pero ahora nada nos impide continuar: w+1={0,1,2,3,...,w}=N U {w}w+2={0,1,2,3,...,w,w+1}=N U {w,w+1} ... Tenemos así las bases de los ordinales transinfinitos de Cantor, que surgen con la mayor naturalidad de la teoría de conjuntos mientras que vistos "a pelo", como los habíamos visto en los post anteriores, parecen un poco extraños. Dejaremos por ahora este apartado tan elemental (1)de la matemática para adentrarlos en otros paisajes a partir del lunes. Con su compañía, por supuesto. (1): En matemáticas, la palabra "elemental" y la palabra "básico" son dos palabras con acepciones diferentes a las del lenguaje ordinario. Indican que el tema tratado se refiere a las bases y/o fundamentos de la matemática, no a su poca dificultad. De hecho, los temas elementales y básicos suelen ser de gran dificultad. Continuamos con lo prometido. Tenemos definido el conjunto vacío, lo cual pueda parecernos poca cosa, pero eso es todo con lo que tenemos que trabajar si no queremos introducir axiomas adicionales. Miren los dos teoremas de la ilustración, y no se asusten: es mucho más fácil de lo que parece a primera vista. Tenemos dos teoremas, que no es lo mismo que dos axiomas. Los teoremas se demuestran; aunque demostrar estos es una tontería, de puro fácil. El primero es el teorema del par no ordenado . Nos dice que dados dos conjuntos (¡Qué lujo!, les recuerdo que de momento sólo estamos legitimados para usar un conjunto: el vacío: el único que hemos definido), decía que dados dos conjuntos, existe un conjunto de dos elementos, que son precisamente los dos conjuntos anteriores. Cómo podemos demostrar esto? Pues usando el axioma de formación. Dado que la descripción que utiliza el enunciado del teorema es una descripción precisa, el axioma nos asegura que existe tal conjunto; y el axioma de igualdad nos asegura que dicho conjunto es único, luego ya tenemos demostrado el teorema. Es importante entender que el nuevo conjunto tiene a los dos iniciales como elementos, de forma que tiene DOS elementos, independientemente de los elementos de los dos conjuntos iniciales. Lo mismo vale para el teorema de la unión: dados dos conjuntos existe un conjunto cuyos elementos son los de los dos conjuntos (los de uno, los del otro o los de los dos). Es importante comprender que utilizando estos dos teoremas no estamos utilizando nada nuevo, que no salga de los dos axiomas iniciales. Dado que de momento sólo tenemos el conjunto vacío, podemos utilizar el teorema 1 haciendo los dos conjuntos iniciales sean el mismo. Dada la generalidad del teorema (empieza por “para todo z , u”, verdad?), esto no supone violación alguna del teorema. Qué obtenemos? Pues el teorema ahora nos dice que si existe un conjunto A, entonces existe un conjunto {A}, con un único elemento, que es precisamente el conjunto A. Es crucial ver que los conjuntos A y {A} son radicalmente diferentes: si A={a,b,c,d,e}, por poner un ejemplo, A tendría cinco elementos, que son a,b,c,d y e. Sin embargo {A} tiene un único elemento, que es A, o que es {a,b,c,d,e}. Este nuevo conjunto lo llamaremos unitario del conjunto A . De modo que ahora no sólo tenemos el conjunto vacío, sino también el conjunto {vacío}, que ahora tiene un elemento. Estamos en condiciones de definir el sucesor de un conjunto A , como la unión de dicho conjunto con su unitario: suc (A)= A U {A}. El teorema de la unión nos asegura su existencia, y el axioma de igualdad su unicidad, de modo que está bien definido. Supongo que mis lectores habrán adivinado la estrategia a seguir: Definimos el cero como el conjunto vacío. No hay circularidad alguna en ello, ya que hemos definido el conjunto vacío en el post anterior sin hacer para nada uso del concepto cero. Una vez definido el cero, definimos el sucesor de un número como el sucesor del conjunto con el cual hemos identificado dicho número. Lo vemos en la ilustración siguiente:  Hemos sido capaces de definir los números naturales sin hacer uso previo de ningún concepto numérico, y sin usar los axiomas de Peano, que ahora admiten demostración: vemos que todo número es sucesor de alguno, excepto el cero, que no lo es de nadie. Podemos demostrar que dos números diferentes tienen sucesores diferentes... Hemos construido las bases de la matemático desde el vacío más absoluto. Cualquier adepto al zen estaría muy contento: belleza y armonía en su máxima simplicidad; minimalismo conceptual y elegancia absoluta. A partir de este momento, deberíamos decir, con permiso de Kronecker: “Dios creo el conjunto vacío; el resto es obra del hombre” . Hemos dicho que ahora ya podemos demostrar los axiomas de Peano desde esta nueva teoría. Esto no es exactamente así: hemos definido los números naturales, pero nos falta definir correctamente el conjunto N. No obstante, la tarea está ya casi terminada.  No parece que exista disciplina científica cuyo objeto sea tan difícil de precisar como la matemática. Precisamente por ello es doblemente importante establecer un buen punto de partida: unas bases desde las que edificar el edificio entero. Históricamente las bases iniciales fueron geométricas. La matemática griega era básicamente la ciencia de las figuras geométricas. En el siglo III antes de nuestra era Euclides propuso un sistema riguroso basado en unos pocos postulados (cinco axiomas), desde los cuales edificar toda la teoría geométrica con el auxilio de las leyes de la lógica de primer orden. Las afirmaciones cuya veracidad se probaba a partir de los axiomas eran teoremas. Estas bases permanecieron firmes hasta el siglo XVII, en el que Newton y Leibniz desarrollan el cálculo, atendiendo a demandas concretas de la física del momento. Las nociones de límite en las que se basaban suponía una “desgeometrización” de la teoría matemática, aunque aún las derivadas eran concebidas como pendientes y las integrales como áreas: se notaba la influencia geométrica de antaño. Cuando Cauchy y Weierstass, hacia 1.870 reformulan las definiciones de límite sin el auxilio de las incómodas cantidades que “tienden a cero”; cuestión que nadie entendía en realidad, y consiguen la definición épsilon-delta que usamos actualmente, el cálculo llega a su mayoría de edad, y el concepto geométrico queda sustituido por el concepto de número (número real, concretamente). Pero la cosa no paró ahí: las verdaderas bases debían ser más generales que los números reales. Existe una maravillosa historia que cuenta cómo los números reales son construidos desde los racionales, utilizando sucesiones de racionales (sucesiones de Cauchy); los racionales desde los enteros, y los enteros desde los naturales. Kronecker diría, resumiendo la situación: Dios creó los números naturales, el resto es obra del hombre Estos números naturales surgían como entidades radiantes, primigenias de un puñado de axiomas: los cinco axiomas de Peano :
1.- 0 es un número 2.- El siguiente de todo número es un número 3.- Números distintos tienen siguientes distintos 4.- 0 no es el siguiente de ningún número 5.- Si una determinada propiedad es cumplida por el 0, y si es cumplida por un número también es cumplida por el siguiente, entonces es cumplida por todo número. Parecería que estos cinco axiomas concentran la totalidad de la matemática, dado que desde ellos se puede construir todo... y sin embargo no es así. Volvieron a cambiar las bases, y así como de los objetas geométricos pasaron a los números reales y de estos a los naturales, ahora las bases se trasladaban a una teoría nueva que surgía de la mente de George Cantor : la teoría de conjuntos. Esto supone que los números naturales; el cero, el uno, el dos, etc deben ser definidos en base a conceptos aún más generales. Sin embargo, esto no parece cuestión fácil: ¿cómo definir el cero sin caer en una peligrosa circularidad introduciendo el concepto a definir en la definición? No parece fácil. Decir que el cuatro es el conjunto de todos los conjuntos de cuatro elementos no es serio, por motivos que saltan a la vista. Cómo podemos definir un número natural desde la teoría de conjuntos de forma que no caigamos en una circularidad inaceptable? Lo vemos próximamente... PRECISANDO LA NOCION DE DISTANCIA Este es un buen momento para introducir el concepto de distancia, de forma tan general que sea aplicable tanto a distancias ordinarias entre puntos del espacio como a distancias entre notas musicales, o entre diferentes apuestas de un sistema de quinielas. Previo a la necesidad de tal concepto, tenemos un conjunto X de objetos entre los cuales queremos difinir algo que pueda llamarse distancia. El producto cartesiano X x X no es sino el conjunto de todos los pares de objetos de X de la forma (a,b). Pues bien; una distancia es una aplicación de X x X en R (conjunto de los reales), d: X x X -------- R que cumpla cuatro propiedades: 1.- d(a,b) mayor o igual que 0 2.- d(a,b)=0 si y solo si a=b 3.- d(a,b)=d(b,a) 4.- d(a,b) menor o igual que d(a,c)+d(c,b) Por lo demás, tenemos plena libertad para elegir la función d. A partir de ahora consideraremos que las letras que representan notas en realidad representan las frecuencias en herzios de dichas notas. Para medir las distancias entre notas musicales, la función d(a,b)=b-a no es interesante. Hemos visto que es la relación de frecuencias la importante, no su diferencia. Dos notas con relación doble- mitad tienen la misma distancia según nuestra percepción (una octava), sin importar los valores absolutos de frecuencia de ninguna de ellas. Por lo tanto la distancia que nos interesa debe ser de la forma d(a,b)=b/a. Como para el caso de que a y b sean iguales la distancia debe ser cero (primera propiedad). Dado que el logaritmo de 1 es precisamente 0, y dado que las leyes logarítmicas son las que mejor se adaptan a la sensibilidad de nuestros sensores, tomaremos como función distancia: D(a,b)=K. Abs( Log (b/a)) La K no es sino una constante de escala, sin la menor importancia teórica, aunque sí práctica como veremos. He tomado el valor absoluto del logaritmo para que se cumpla la propiedad 1. Como sabemos (ahora lo sabemos, porque ya hemos leído los dos post anteriores, verdaaaaaaad?) que una octava tiene 12 semitonos, si tomo K=1200/log(2), entonces un Do estará del Do inmediatamente superior a una distancia de: (1200/log(2)) . log(2)=1200 unidades, que llamaremos cents , y por lo tanto un semitono de la escala temperada, que era la que dividía la octava en doce intervalos idénticos, tendrá 100 cents. Un tono temperado 200, etc, etc. Quede claro que los cents no son una unidad de frecuencia, de tono ni nada parecido: son una unidad de separación entre tonos. Podemos calcular ahora cuántos cents tiene un intervalo de quinta justa, que es el que hemos utilizado para construir nuestra escala de posts anteriores. quinta justa = log 3/2 x 1200/log2 = 701,955 cents Recordemos que, por definición: octava justa= 1200 cents. Habíamos visto que doce quintas justas no eran idénticas a siete octavas. Efectivamente: 12 quintas= 12 x 701,955 = 8.423,46 cents 7 octavas = 7 x 1200 = 8.400 cents La diferencia es exactamente el déficit de la quinta del lobo del post anterior, y se denomina coma pitagórica . 1 coma pitagórica= 23,46 cents Así pues, todo el misterio está en repartir estos casi 23 cents y medio entre las doce quintas, en función de qué es lo que queramos conseguir. Si queremos facilidad en la afinación de instrumentos, y no somos muy exigentes (eso es exactamente lo que pasa con la música actual), repartimos equitativamente: 23,5/12= 1,95 cents por quinta; valor que aproximaremos a 2 cents por quinta. De esta manera, ninguno de los intervalos entre notas será perfecto (expresable por una de esas fracciones de pequeños números, que producían un gran equilibrio entre las ondas senoidales de ambas notas). Un oído entrenado lo notará. Las otras posibles soluciones? Pues pasan por el compromiso de “destrozar” cierto número de quintas justas y dejar perfectas las demás. Una solución es la de Valotti, que consiste en elegir seis de las doce quintas y distribuir en ellas una coma pitagórica (4 cents por quinta elegida)  Otro sistema, llamado Werckmeister III lo hace tomando cuatro quintas y restando seis cents a cada una de ellas:  Por último, el sistema Kirnberger reparte 11 cents entre dos quintas consecutivas, dejando los 2 restantes para otra:  Cada uno de ellos tiene una razón de ser, presenta sus ventajas y sus desventajas, pero estas profundidades musicales exceden los límites de Tio Petros (entendiendo por Tio Petros tanto el blog como su autor).  Según veíamos en el post anterior, las escalas musicales occidentales antiguas se construyeron en torno a la idea de producir la máxima consonancia posible; cosa que ocurría cuando la relación de las frecuencias de dos tonos tocados simultáneamente era expresable mediante una fracción lo más simple posible. Dado que un tono base y otro de frecuencia doble dan la sensación del mismo tono pero más agudo, lo natural era considerar esa distancia como la total que había que subdividir; independientemente de que pudiera adjuntarse otra hasta la frecuencia triple, cuádruple, etc... La fracción más simple posible es la de 3/2, que es la que usábamos para crear nuevas frecuencias a partir de la de origen, que llamaremos tónica . Si la tónica es un Do , al multiplicarla por 3/2 obtendremos un Sol . Este intervalo se denomina una quinta justa. (Esta denominación tiene mucho sentido: para llegar del Do al Sol hay que pasar por cinco notas: DO, Re, Mi, Fa, Sol; ambas incluidas. Por supuesto, una vez que tengamos construida la escala!!!) Pues bien, decíamos que a base de quintas justas íbamos construyendo las demás notas de la escala. Cuando obteníamos valores superiores a 2, nos salíamos de la escala ( la nota obtenida era más alta que el Do superior al que queríamos llegar), con lo que simplemente dividíamos por dos, y volvíamos a caer en nuestro dominio a subdividir. Se trata de una operación módulo una octava. Dado que el 2 y el 3 son primos entre sí, no podemos tener esperanza alguna de llegar jamás al Do superior exactamente: iríamos obteniendo infinitas notas por este procedimiento, todas entre ambos Do, de modo que debemos cerrar el círculo de quintas en falso. Efectivamente, alguna vez obtendremos un valor lo suficientemente cerca del Do alto como para asimilarlo. Esto ocurre tras 12 quintas , más sus respectivas correcciones (dividiendo por dos) para no salirse del intervalo. Efectivamente, 12 quintas suponen siete correcciones ( no hay más que ir obteniendo los valores para comprobarlo) 3 12/2 19= 531441/524288=1,0136. Si vemos la figura, tenemos sobre un círculo de quintas marcados los doce intervalos equidistantes (escala temprada) con segmentos azules, mientras que las notas obtenidas por el método aquí indicado están en rojo. Dado que las 12 quintas son algo mayores que las siete octavas, para cerrar el círculo en falso debemos aceptar el último intervalo (marcado en rojo) bastante más pequeño que los demás. Esta quinta irregular es denominada la quinta del lobo . Cada una de las doce notas obtenidas son las de nuestra escala cromática. El problema que tenemos ahora es ver si podemos distribuir de alguna manera esta diferencia notable de la quinta del lobo entre varias. La solución de repartir equitativamente entre todos los intervalos ( que es lo que hacemos nosotros con nuestra escala actual, o escala temperada) no les gustaba nada a los antiguos, que eran más exigentes y estetas que nosotros, por motivos obvios: nos cargamos todas las quintas justas y ya no existen consonancias perfectas. Este es un problema sin solución óptima. Hay que optar entre varias soluciones, llamadas temperamentos . Se trata de dividir el déficit de la quinta del lobo entre algunos intervalos, de forma que se mantenga dentro de lo posible la perfecta armonía de 3/2 entre varias quintas. Para ver cómo lo consiguieron, necesitamos más teoría, que será la semana que viene. Que tengan mis lectores un buen fin de semana. Estarán de acuerdo conmigo en que no hace falta saber matemáticas para disfrutar de la música. De hecho, a simple vista parecen ser dos temas totalmente desligados... pero en realidad muy pocas cosas están desligadas de la matemática. ¿Saben ustedes porqué las notas son siete? No parece un número muy adecuado; al fin y al cabo es primo, y no tiene divisores; parecería que ocho es más “adecuado”. En realidad las siete notas DO, RE MI FA SOL LA SI (escala diatónica) se convierten en doce si intercalamos notas intermedias, obteniendo doce, que constituyen la llamada escala cromática: Do, Do#, Re, Re#, Mi, Fa, Fa#, Sol, Sol#, La, La#, y Si. El símbolo # se llama sostenido, e indica un tono (una frecuencia) intermedio entre la nota que lo nombra y las siguiente. En solfeo se aprende que además existen los bemoles (b), que disminuyen el tono en lugar de aumentarlo, de forma que Re# = Mib y La#=Sib, por poner dos ejemplos. No se trata de una arbitrariedad, ni mucho menos. Existe una base clara que apoya tal “dodecafonismo”. El propósito de este post es intentar explicarlo. Dos sonidos puros simultáneos pueden dar una sensación agradable (consonante) o no tan agradable (disonante). El asunto depende de la relación entre sus frecuencias. La consonancia perfecta, y obvia, si produce cuando ambos tonos tienen la misma frecuencia (unísono). Para el resto de los casos, el resultado será más consonante cuando al relación de frecuencias sea un número racional de denominador pequeño. En el fondo todo el misterio es la suma de funciones senoidales: si una frecuencia es 2/3 de otra, la suma “encaja” mucho mejor que si es 465/422... Es obvio que después del unísono, la mejor consonancia es cuando una frecuencia es el doble de la otra. La sensación percibida es que son ambas la misma nota, pero una más aguda que la otra. Por ello, ambas reciben el mismo nombre (se dice por motivos que veremos que están a una octava de distancia). ¿Cómo dividimos las “distancia entre dos notas del mismo nombre, de frecuencias f y 2f? Pues lo más racional parece seguir con fracciones sencillas. Si tomamos una frecuencia 3f/2, obtenemos una nueva nota, de composición sumamente agradable con f y con 2f. El siguiente paso parece natural: tomar una frecuencia que sea 3/2 de la última; osea 9/4 de la frecuencia base. El problema es que esta fracción es mayor que dos, por lo que nos habremos salido por encima de 2f. Lo corregimos con bajarla una octava ( dividir la frecuencia por dos), que como hemos dicho da la misma sensación de nota musical, si bien más grave), y tenemos 9/8. Repitiendo el proceso, tenemos: · f · 3/2·f · 9/8 ·f.(Después de haber descendido una octava). · 3/2·9/8 ·f=27/16·f · 3/2·27/16 ·f=81/32·f. (Como la frecuencia es más grande que 2f, descendemos una octava y obtenemos 81/64·f) · 3/2·81/64 ·f=243/128·f Si ordenamos de menor a mayor estos seis valores, tenemos: Nota Base f 9/8·f 81/64 ·f Quinta 3/2·f 27/16·f 243/128·f Octava 2·f Tenemos un buen motivo para pararnos con seis valores, y es que si calculamos los cocientes de cada frecuencia con la anterior, nos sale lo siguiente: (9/8):1=9/8__________________1,125 (81/64):(9/8)=9/8____________1,125 (3/2):(81/64)=32/27__________ 1,185(27/16):(3/2)=9/8____________1,125 (243/128):(27/16)=9/8________1,125 2:(243/128)=256/243__________ 1,053 Vemos que, salvo el salto del tercero al cuarto tono, la cosa está muy equilibrada. Curiosamente, en este hueco entre el tercero y el cuarto se encuentra la fracción 4/3. Si lo intercalamos obtenemos la siguiente tabla: Frecuencia___________ Razón nota anterior _____________Nombre Tónica_____f_____________________________________________Do Segunda 9/8·f___________9/8=1,125_________________________Re Tercera 81/64·f__________9/8=1,125_________________________Mi Cuarta 4/3·f_____________256/243=1,053_____________________Fa Quinta 3/2·f_____________9/8=1,125_________________________Sol Sexta 27/16·f___________9/8=1,125__________________________La Séptima 243/128·f________9/8=1,125_________________________Si Octava 2f_______________256/243=1,053_____________________Do Hemos obtenido una división de la octava (de un Do grave a un Do de doble frecuencia) atendiendo a criterios de máxima consonancia, por lo que las combinaciones de sonidos serán lo más agradable posible. Podemos comprobar que las distancias Mi-Fa y Si-Do son menores que el resto (empleamos en este contexto la palabra distancia en una acepción no habitual: como cociente de frecuencias) . De hecho, las distancias Mi-Fa y Si-Do son aproximadamente la mitad, habida cuenta de que 1,053 2 se aproxima bastante bien a 1,125. Llamamos entonces a la distancia entre dos notas consecutivas cuya relación de frecuencias es 1,125 y semitono a la distancia referida a un cociente de frecuencias de 1,053. Con esto presente, entre dos notas consecutivas hay siempre un tono, con la excepción de las distancias Mi-Fa y de Si-DO, intervalos de un semitono. Si bien este estado de cosas parece bastante complicado, la realidad (por una vez) es más sencilla. Actualmente se usa la llamada Escala temperada , que consiste en formar la escala cromática de las doce notas mencionadas más arriba a base de multiplicar la frecuencia de la tónica por la raíz doceava de dos. Obtenemos una escala promediada que vuelve a la tónica una octava más alta, con doble frecuencia tras pasar por las doce de la escala. En la escala temperada , los múltiplos perfectos de frecuencias se pierden, y las armonías no son tan redondas, pero se simplifica enormemente la tarea de afinación de instrumentos musicales. Simplificación ramplona a juicio de los amantes de la música antigua. En la siguiente imagen podeis comparar la escala temperada, completamente fría y perfecta con otras escalas: Escala temperada  Shree (india)  Hirajoshi (Japón)  Diatónica o pitagórica   Las respuestas dadas a la paradoja del post anterior por Eratóstenes y Tute son muy satisfactorias, y completamente correctas. Vamos a verlo en este post desde otro punto de vista que nos ayudará a tomar contacto con algunas nociones que necesitaremos para hablar algún día de los Espacios de Hilbert . Cuando queremos definir un punto de un espacio de n dimensiones, debemos dar n valores, que son las n coordenadas que se necesitan para ubicar dicho punto en el espacio. La distancia euclídea de dicho punto al origen nos viene dada por el teorema de Pitágoras: será la raíz cuadrada de la suma de los cuadrados las n componentes. De esta forma, podemos establecer una aplicación entre el conjunto de puntos del espacio y el conjuntos de números reales, de forma que a cada punto le corresponde el valor numérico de su distancia al centro. Si consideramos cada punto como un vector que nace en el origen y llega a dicho punto, dicho número se denomina norma del vector, y la aplicación se denomina norma del espacio, que ahora se dirá espacio normado. Existen otras normas que no son la euclídea, pero deberán cumplir una buenas propiedades para merecer tal nombre. Otro día hablaremos de ellas. Un subconjunto del espacio se dice acotado si cabe dentro de una esfera maciza de radio suficientemente grande. Dicho de otra manera: si todos sus puntos están a una distancia no infinita del origen. (aquí el origen es arbitrario: podríamos decir si todos sus puntos están a una distancia no infinita de un punto dado). Podeis observar que en el espacio de infinitas dimensiones tenemos una interpretación muy intuitiva de qué es cada “punto”: es una sucesión de infinitos números reales, sus coordenadas. Llegamos a la conclusión de que para que un punto esté a distancia no infinita del centro debe cumplirse que la suma de los cuadrados de sus coordenadas sea finita, pues sólo en este caso será finita la raíz cuadrada de dicha suma, y por tanto la distancia al origen. Esto ocurre por ejemplo para aquellos puntos que tengan todas las coordenadas igual a cero salvo un número finito de ellas, pero también puede ser que todas ellas sean diferentes de cero: debemos poner pues la restricción de que la serie que surge del sumatorio de los cuadrados de sus coordenadas sea convergente. Esta restricción es muy importante en los llamados Espacios de Hilbert , por ejemplo. Si veis la definición de cubo macizo en este espacio, veremos que los puntos interiores tienen la restricción de que cada una de sus coordenadas es menor o igual a un número dado en valor absoluto. Los puntos que tengan todas el valor absoluto de sus coordenadas iguales a dicho valor son precisamente los vértices del cubo, si tenemos n dimensiones, como cada vértice puede tener cada una de sus coordenadas positivas o negativas, tenemos 2 n posibilidades, que nos da el número de vértices de dicho cubo. En infinitas dimensiones, y pensando en el cubo de arista dada, infinitos son los vértices, pero en todos ellos el cuadrado de cada coordenada vale una cantidad no nula y mayor que cero ( al elevar al cuadrado (+z) ó (-z) obtenemos siempre una cantidad positiva); y la suma de todos estos cuadrados es infinita, luego cada uno de los vértices está a infinita distancia del origen. Poco importa que el tamaño de la arista: siempre que sea mayor que cero, obtenemos un objeto no acotado que no puede caben en esfera alguna. Esto no ocurre para ningún valor del número de dimensiones del espacio, por grande que sea mientras sea finito; sólo ocurre para los espacios infinitodimensionales. Por lo tanto, el error estaba en dar por buena la existencia de un cubo inscrito en la esfera.  Nos es imposible visualizar un espacio de más de tres dimensiones, y sin embargo no tenemos ningún problema para trabajar con espacios de más dimensiones. Muchas veces, la extrapolación a mayor número de dimensiones es tan trivial, que en los libros de texto se omiten los detalles... La cosa cambia sin embargo de forma drástica cuando el número de dimensiones es infinito. Vamos a comentar una aspeto curioso y sorprendente de dos cuerpos infinitodimensionales: la esfera y el cubo. No nuestra esfera ni nuestro cubo (hexaedro), ciertamente, sino el equivalente en espacios de dimensiones cada vez mayores, hasta llegar al infinito numerable. Una esfera se define en cualquier espacio como el conjunto de puntos que equidistan de otro dado. Pasaremos por alto el "detalle" de que debemos tener definida una distancia entre cada pareja de puntos, y supondremos que estamos hablando de la distancia euclídea normal; esa que todos conocemos. En dos dimensiones tenemos círculo, que es una superficie plana. En tres, tenemos la esfera de toda la vida; una superficie cerrada en forma de balón. Para treinta y cinco dimensiones, la definición es la misma; a pesar de que seamos incapaces de visualizar el objeto. Un cubo unidad lo podemos definir como el conjunto de puntos generados por vectores unitarios de una base ortonormal del espacio, mediante combinaciones lineales en las que los coeficientes van de cero a uno. Este galimatías no quiere decir otra cosa que lo que todos ustedes saben: dado un punto de origen, que será uno de los vértices del cubo, dibujamos tantas flechitas perpendiculares entre sí como dimensiones tengamos, y ya tenemos las aristas del cubo que convergen en ese vértice... lo demás es dibujo lineal. Pues bien: ¿Cuál es la longitud del mayor segmento que cabe dentro de un cubo y dentro de una esfera? Para una esfera, es evidente que el mayor segmento pasa por el centro, y tendrá una longitud de dos veces el radio. Eso sucede con la esfera de en un espacio de dos dimensiones(círculo), y con la esfera en un espacio de tres (nuestra esfera de toda la vida). Por la propia definición de esfera, no importa la dimensión del espacio, del centro a cualquiera de sus puntos la distancia es constante e igual al radio, y el mayor segmento que cabe en el interior es un diámetro, de longitud doble al radio. ¿Y qué sucede con el cubo? Pues la sorpresa es que el cuadrado, el cubo y las demás figuras correspondientes a máyores dimensiones tienen diagonales, cuyas longitudes son mayores que los lados. Para el cuadrado, la diagonal vale raiz de dos, y para el cubo vale raíz de tres. Una diagonal en un hipercubo n-dimensional mide raíz de n, que es una función creciente de n, y por lo tanto, en un espacio de infinitas dimensiones dentro de un cubo cerrado CABE UNA RECTA INFINITA.   Un lector me pregunta por la equivalencia topológica entre la esfera y el plano. Intuitivamente, parece ser que ambas superficies no son equivalentes. Después de todo, la esfera es una superficie muy diferente a un plano; no sólo por su forma (cosa poco importante en topología) sino por propiedades globales, como acotamiento. En efecto, ambas superficies son distintas a nivel topológico. Lo que ocurre es que basta con eliminar un punto a la esfera para que dejen de serlo. Supongamos una esfera descansando sobre un plano. Llamaremos punto S (sur) al único punto de contacto entre ambos, y punto N (norte) a la antípoda del punto S. Haremos corresponder cada punto P de la esfera con cada punto P’ del plano de la siguiente forma: unimos el punto N de la esfera con el punto P, y prolongamos la recta de unión hasta que corte al plano. Ese punto de corte es el punto P’, imagen de la proyección. Es fácil darse cuenta de que cada punto de la esfera tiene su fiel reflejo en el plano, y viceversa; si exceptuamos el propio punto N, que no tiene correspondencia. Esta proyección se denomina proyección estereográfica de la esfera en el plano, o proyección de Riemann . Los círculos de la esfera paralelos al ecuador se convierten en círculos en el plano con centro en el punto S, pero no se respetan las distancias (después de todo, la topología es lo que queda de la geometría cuando hemos suprimido la noción de distancia! ): cuanto mayor latitud norte tenga el paralelo, mayor es el radio del círculo proyectado en el plano. Un minúsculo paralelo muy cercano al punto N tendrá como reflejo un enorme círculo en el plano. Un meridiano ( círculo máximo de la esfera que pasa por los puntos N y S, y es perpendicular al ecuador) se reflejará como una circunferencia degenerada en una recta que pasa por el punto S, y cualquier círculo máximo en la esfera intermedio se reflejará como una elipse más o menos excéntrica. Ahora sí lo podemos decir: una esfera menos un miserable punto es topológicamente equivalente a un plano. También podemos hacer que la esfera y el plano sean equivalentes de otra forma: en vez de eliminar un punto de la esfera, añadimos un punto al plano. Parece una estupidez añadir un punto a un plano (¿Dónde lo ponemos?) Sin embargo, no lo es. Se puede definir perfectamente un "punto en el infinito" que será el reflejo (a estas alturas espero que lo hayan adivinado) del puñetero punto N de la esfera; el único que quedaba sin emparejar. Esta construcción se denomina compactificación del plano mediante la adición de un punto en el infinito. Prosigamos según el esquema que nos hemos marcado en los dos post anteriores. Vamos a investigar si puede existir un poliedro tridimensional con un agujero( topológicamente similar a una rosquilla o a un toro) que tenga la propiedad tetraedral consistente en que todo par de sus caras se encuentra en una arista. Ahora el fórmula del ”Teorema de Euler” nos dice que C – V + A = 2 – 2h Como h es el número de agujeros, y ahora tenemos uno, la cosa queda así: C – V + A = 0 Diremos que la característica de Poincaré de los poliedros con un agujero vale cero. Las otras dos ecuaciones que ligaban aristas , vértices y caras permanecen invariables, pues surgían naturalmente de la imposición de que cara par de caras compartieran una arista común. Si introducimos aquellas dos ecuaciones, que eran: A = C ( C – 1 ) / 2 V = 2 A / 3 Obtenemos: C2-7C=0 , que es lo mismo que: C ( C – 7 ) = 0 Que tiene dos soluciones; C=0 y C=7. La primera no nos interesa, porque con cero caras poco podemos hacer, y la segunda es la gran sorpresa: Con siete caras, tenemos A=(7x6)/2=21 aristas y V=21x2/3=14 vértices. Así pues, parece existir un extraordinario poliedro con tan sólo siete caras, con 21 aristas y 14 vértices, que es topológicamente similar a una rosquilla por tener un agujero, y que además cada par de caras se encuentran en una arista. Podemos saber además que todas las caras son hexagonales, pues cada una de las siete debe tener una arusta común con las seis restantes. Sabemos también que de cada vértice salen exactamente tres aristas Lajos Szilassi presentó en sociedad tal joya geométrica en el año 1.977: el heptaedro toroidal , o poliedro de Szilassi.   Tiene exactamente las propiedades que hemos predicho: tiene un agujero, siete caras hexagonales, 21 aristas y 14 vértices. Pueden admirarlo en la figura. Si alguien tiene el interés de construirlo, tiene también el desarrollo del mismo. Espero que les parezca, como me parece a mi, maravilloso que podamos saber todas las características importantes de un objeto mucho antes de que sea descubierto. Con la única fuerza del razonamiento matemático. ¿Se acuerdan del teorema de los cuatro colores? Cuatro colores bastan para colorear cualquier mapa sobre un plano o sobre una esfera de forma que dos países que comparten frontera común sean de distinto color. El teorema era topológico, de forma que nada nos afirma del número de colores necesarios para un mapa sobre un toro, por ejemplo. ¿Qué relación tiene esto con el poliedro de Szilassi? De ello hablaremos en el siguiente post.
 Centrémonos en nuestra pregunta: ¿puede existir algún poliedro, además del tetraedro (regular o no) tal que cualquier par de caras tenga una arista en común?Sabemos que, si no tiene agujeros, debe cumplir la relación: (1) C – A + V = 2 Además, podemos establecer una relación entre las caras y las aristas. Efectivamente, habrá tantas aristas como parejas de caras. Si tenemos C caras, tendremos C(C-1)/2 aristas. ¿Porqué? Pues muy sencillo: Dada una cara cualquiera, tiene (C-1) caras más con las que formar una arista, luego tendremos C(C-1)/2 posibilidades. Dividimos por 2 porque cada arista ha sido contada dos veces: cuando tomábamos una de las caras, y cuando tomábamos la otra. Dicho de otra forma: el número de aristas es igual al número de parejas de caras, que es la combinación de C elementos tomados de dos en dos. Así pues, tenemos: (2) A=C ( C – 1 ) / 2 Respecto a los vértices, ¿podemos decir algo? Pues sí, podemos: en un vértice deberán unirse exactamente tres aristas. Menos de tres es imposible si queremos tener un sólido con volumen; y si fueran cuatro o más, tendríamos dos caras que sólo comparten un vértice, y queremos que toda pareja de caras comparta una arista. También sabemos que una arista corresponde por definición a dos vértices, luego podríamos contar el número de aristas contando el número de vértices, multiplicándolo por tres y dividiendo entre dos. Por lo tanto: (3) A = 3 V / 2 => V = 2 A / 3 Tenemos tres ecuaciones contres incógnitas: sustituyendo la segunda y la tercera en la primera, obtenemos lo siguiente: C2 - 7C –12 =0 Que tiene dos soluciones: C=3 y C=4. Con tres caras no tenemos poliedro alguno, y con cuatro tenemos lo que ya sabíamos: EL TETRAEDRO . Por lo tanto, no existen más poliedros, al menos sin agujeros, que cumplan la propiedad del tetradero. Hemos demostrado un teorema de inexistencia, y eso es más fuerte de lo que en principio parece: no existe, ni existirá ni ha existido jamás un poliedro tridimensional sin agujeros con la propiedad de que toda pareja de caras se encuentra en una arista, salvo en tetraedro (regular o no, eso no importa ahora). Debemos pues buscar entre objetos más exóticos: vayamos a los poliedros con un agujero; topológicamente equivalentes a un toro o una rosquilla. Dentro de esa fauna encontraremos lo que queremos. Será en el siguiente post.  Una de las posibilidades más increíbles de la matemática es que permite demostrar la existencia o inexistencia de objetos (incluso geométricos, que podamos construir o tallar en un trozo de madera) de los que poco sabemos: un puñado de propiedades tal vez, pero no su aspecto. Tengan presente que estoy hablando de existencia matemática, de forma platónica. Esa posibilidad es tan potente que la matemática la exporta al resto de las disciplinas científicas. Cuando leemos que un científico postuló la existencia de una partícula años antes de que fuera descubierta, estamos asistiendo a este aspecto de la ciencia del que hoy les quiero hablar. La matemática ocupa un estatus muy especial dentro de la ciencia: no estudia el mundo, sino los modelos abstractos que los científicos construyen para entender el mundo. Si los modelos son adecuados y la matemática subyacente a ellos postula la existencia de un determinado objeto, tiene mucho sentido buscarlo y encontrarlo. Con la matemática pura, no aplicada, pasa algo parecido, si bien el símil no es completo: no nos referiremos a la existencia física de un objeto, sino a la existencia matemática. No partiremos de un modelo del mundo que quizás, después de todo, sea falso, sino que trabajaremos sin hipótesis adicional alguna. Y si conseguimos demostrar nuestra afirmación, así quedará hasta el fin de los tiempos. Quiero invitarles a un paseo quizás un poco más empinado que en otras ocasiones, pero que intentaré hacerlo fácil. Me gustaría llegar con ustedes a la convicción de que existe un cuerpo tridimensional muy especial del que a priori nada sabemos, y hacerlo pasito a pasito. Nos adentraremos un poco en aspectos topológicos y geométricos en general. En el fondo, si yo pudiera demostrar tales cosas por mí mismo, seguramente no estaría haciendo un blog, sino escribiendo en revistas especializadas, de manera que les confesaré desde el principio que hay una trampa: el objeto YA fue descubierto en 1.977. Es un poliedro muy especial, como verán. Espero que el viaje les sea ligero, aunque quizás en algún momento requiera un poco de concentración. Para hacerlo más liviano, partiremos el asunto en varios post. Comenzar por los llamados sólidos platónicos me parece lo más apropiado. Como sabrán, los poliedros regulares son aquellos cuerpos sólidos cuyas caras son polígonos regulares, todas ellas iguales. Existen cinco (ni uno más ni uno menos), que son: el tetraedro, el hexaedro o cubo, el octaedro, el dodecaedro y el icosaedro. Los pueden ver en la figura. Cada uno de los cinco es una pequeña maravilla, que queda empequeñecida ante la magnificencia de la demostración de que estos son todos los poliedros regulares. Esta demostración es (según mi humilde entender) una de las más bonitas cosas que los matemáticos hayan realizado nunca. No en vano, el propio Carl Sagan no pudo resistirse, y en las últimas páginas de su best seller Cosmos incluyó la demostración . Hizo bien. Incluyó también la demostración de que la raíz cuadrada de dos es un número irracional, algo de importancia imposible de calibrar si uno no sabe previamente el horror que tal hecho causaba a los griegos, pero esa es otra historia. La demostración que explica Sagan de que cinco son los sólidos platónicos, o regulares, se basa en una propiedad muy importante de todo poliedro, que los niños aprenden en los colegios con el nombre de Teorema de Euler , como si el bueno de Euler hubiera demostrado un único teorema en su vida. Este teorema se expresa mediante la siguiente fórmula: C – A + V = 2 Siendo C el número de caras, A el de aristas y V el de vértices. Lo que los niños no saben es que esto sólo es cierto para poliedros sin agujeros. Un prisma hexagonal con un agujero hexagonal en el centro por ejemplo no lo cumple. La fórmula generalizada para todo tipo de poliedros es: C – A + V = 2 - 2h donde h es el número de agujeros. Estamos en terrenos topológicos, donde lo que estudiamos son las propiedades más escondidas de los cuerpos geométricos: aquellas que permanecen invariantes por mucho que los deformemos mientras la demormación sea continua. El número entero C – A + V se llama característica de Poincaré de dicho cuerpo, por buenos motivos que veremos en su día. Llevo cierto tiempo queriendo hablar de esta fórmula, engañosamente simple y de los secretos que encierra, pero lo dejaremos para mejor ocasión, y si les parece la daremos por buena. Cuando un cuerpo no está formado por caras planas, podemos hacer mediante deformaciones contínuas que sí lo sean, por lo que podemos hablar de su característica de Poincaré del mismo modo. Así, una esfera podemos convertirla en un cubo a martillazos, por lo que su característica de Poincaré será igual a 2, igual que cualquier sólido platónico. De entre los cinco sólidos platónicos, sólo uno cumple la propiedad de que dado un par de caras, tienen frontera común: una arista. Para los otros cuatro, siempre podemos encontrar dos caras que no se toquen, y por lo tanto no compartan ninguna arista. Nuestra pregunta es doble: ¿existen más poliedros (regulares o no) que exhiban esta propiedad del tetraedro? ¿Caso de existir, qué podemos saber de ellos? La reflexión sobre esta pregunta nos llevará bastante lejos, y descubriremos que la respuesta es positiva, y que aún sin saber cómo demonios pueden ser dichos cuerpos, podemos afirmar de una forma aparentemente mágica pero perfectamente rigurosa muchas de sus propiedades. Posteriormente, presentaremos tal cuerpo: el poliedro de Szilassi . Espero que el asunto tenga el suficiente misterio como para que me quieran acompañar en este paseo. En el post anterior no hay trampa alguna. Las variables aleatorias X1 y X2, que indicaban el sexo del primer y del segundo hijo son realmente independientes. El sexo de cualquiera de ellos no influye para nada en el sexo del otro. Lo que ocurre es que cuando decimos que “al menos uno de ambos es chica” erróneamente pensamos que estamos hablando de alguna de estas dos variables aleatorias independientes, y eso no es así. Comprender esto es básico para entender lo que sigue.
Vamos a verlo pausadamente. Definimos una variable aleatoria nueva, que llamaremos Y definida así:
Y= X1+ X2
Los valores de Y que podemos encontrar en nuestro matrimonio son 0,1 y 2. (Recordemos que cualquiera de las X valía 0 si el correspondiente hijo era varón y 1 si era hembra. Y no es más que el número de hembras que tiene la pareja.
El suceso {alguno de los hijos es chica} es exactamente el suceso {Y es mayor o igual que 1}. El suceso {la otra también es chica} es exactamente el suceso {Y=2}.Tan sólo ver la definición de Y , y comprobar que las dos variables X están presentes en dicha definición, vemos claro que no es independiente de las mismas. Repetimos una vez más: las variables X1 y X2 son independientes entre sí, pero la Y depende de ambas.
Cuando tenemos un conocimiento parcial de qué es lo que ocurre, como en nuestro caso (sabemos que al menos una es chica), las probabilidades se reajustan a dicho conocimiento, siempre que el suceso estudiado no sea independiente de esa nueva información. Hablaremos entonces de probabilidades condicionadas, porque están condicionadas a un conocimiento parcial que poseemos, o que suponemos conocido. Lo expresamos matemáticamente mediante una barra vertical que por misterios informáticos no puedo poner aquí, de forma que usaré la barra(/), que no deberemos confundir con una división.
Diremos entonces:
P( x1/ x2)= P( x1) P( x2 / x1)= P( x2)
¿Qué quiere decir esto? Pues muy sencillo: las probabilidades de x2 conocidos los valores de x1 son las mismas que sin tener en cuenta a x1 para nada. Eso ya lo sabíamos: que el primer hijo sea chico o chica no condiciona para nada el sexo del segundo.
Diremos que dos variables aleatorias A y B son independientes si y solo si
P(A/B)=P(A) P(B/A)=P(B)
¿Y en nuestro problema, qué es lo que ocurre? Pues ocurre que nos estamos preguntando por la probabilidad del suceso {Y=2} condicionado a que ocurre el suceso {Y es mayor o igual que 1}. Nadie podría esperar independencia de una variable respecto a un conocimiento parcial de la misma variable, ¿verdad? Veamos cómo afecta este conocimiento:
Los valores posibles de Y (número de chicas) era 0,1, ó 2, con las siguientes probabilidades:
P(Y=0) = 0.25 (una posibilidad entre cuatro: primer hijo chico y segundo también) P(Y=1) = 0.5 (dos posibilidades entre cuatro: primer hijo chico y segundo chica y viceversa) P(Y=2) = 0.25 (una posibilidad entre cuatro: primer hijo chica y segundo también).
Al saber que una al menos es chica, sabemos que Y no puede valer cero, luego la probablidad total se debe redistribuir entre los dos sucesos restantes, {Y=1} y {Y=2}. Antes de dicho conocimiento, estos dos sucesos sumaban el 75% de la probabilidad total, ahora suman el 100%, pues hemos descartado la posibilidad {Y=0}. Técnicamente diremos que el conocimiento parcial del asunto nos ha disminuido el espacio muestral, y debemos reasignar probabilidades a los sucesos.
Si la suma que antes era el 75%, ahora se ha ampliado hasta el 100%, por una simple regla de tres podemos comprobar que las probabilidades para los sucesos {Y=1} y {Y=2} quedan del 66,66% y del 33,33% respectivamente.
Volvemos a obtener que es el doble de probable que el otro hermano sea chico (suceso {Y=1}) que chica (suceso {Y=2})si sabemos que uno de ellos al menos es chica. Como sabíamos por el post anterior.
Ya ven, al final todo se entiende (¡espero!), pero para nosotros los humanos es mucho más fácil reconocer incluso por teléfono la voz de un amigo que no hemos oído hace años que estimar intuitivamente de forma correcta las probabilidades de un suceso tan simple como éste. Sin embargo, la correcta estimación de probabilidades, como decía en el post anterior, tiene evidentes ventajas para la supervivencia. ¿Porqué no hemos sido mejor dotados para ello? No tengo ni idea. Es una desgracia que tenemos los humanos: nos es muy difícil estimar probabilidades. Somos capaces de habilidades casi milagrosas, que compartimos con el resto de los mamíferos en mayor o menor grado: podemos “calcular” la velocidad y dirección en la que debe salir un proyectil de nuestra mano para alcanzar un blanco móvil, cuestión no sólo no trivial, sino muy complicada. Y lo hacemos instintivamente. Podemos reconocer los tonos de voz de múltiples personas, para lo cual hemos tenido que realizar previamente un análisis de Fourier complicadísimo de las ondas sonoras, extrayendo la información relevante no sólo del contenido de los mensajes, sino de las características propias que nos hacen identificar cada voz con su dueño. Esto es una proeza casi inconcebible, y la realizamos sin esfuerzo alguno.
Sin embargo, por alguna razón la evolución no nos ha dotado de la capacidad para estimar probabilidades de forma automática, y debemos recurrir al esfuerzo, la concentración en el problema y la metodología matemática. Sin duda es una pena: el tema no es en absoluto baladí, sino que presenta una interés evidente con enorme implicación en la vida real.
La teoría de la probabilidad hunde sus cimientos en la teoría de la medida, que es el estudio de unas funciones de conjunto con unas determinadas buenas propiedades, pero es mucho más que teoría de la medida. Uno de los conceptos que la enriquecen es el de independencia, concepto ausente en teoría de la medida.
Para andar por casa, diremos que una variable aleatoria es la materialización numérica de un suceso debido al azar. Por ejemplo: el número de puntos conseguidos al lanzar un dado, el número de hijos de cualquier pareja, el número de coches de color verde que me cruzo cada vez que vuelvo a casa desde el trabajo.
Dos variables aleatorias son independientes cuando la realización de una no influye en la de la otra. En dicho caso, las probabilidades se pueden multilicar sin ningún problema. Si la probabilidad de un suceso es p y la de otro indepeniente es q, la probabilidad de que se den los dos es pq.
Vamos a proponer un ejemplo enormemente sencillo para ver lo que nos cuesta estimar probabilidades:
En un matrimonio con dos hijos, si uno de ellos es chica, ¿qué probabilidad hay de que el otro también sea chica?
Es un buen ejemplo de dos sucesos independientes: el sexo de uno de los hijos no influye para nada en el sexo del otro. En un razonamiento ingenuo diríamos que no hay duda: el otro puede ser tanto chico como chica con igual probabilidad, luego la respuesta es el 50%.
Veámoslo un poco más en profundidad.
Sea X1 el sexo del primer hijo, y X2 el del segundo, que daremos arbitrariamente el valor de 0 para varón y 1 para hembra. Las probabilidades de ocurrencia de ambas variables aleatorias son:
P(X1=0)=P(X1=1)=0,5 P(X2=0)=P(X2=1)=0,5
Como ambos sucesos son independientes, tenemos que las probabilidades de ambos sucesos se pueden multiplicar, obteniendo:
P(X1=0,X2=0)=P(X1=0,X2=1)=P(X2=1,X2=0)=P(X2=1,X2=1)=0,25
Tenemos cuatro posibilidades equiprobables: chico-chico (0,0); chico-chica (0,1),chica-chico(1,0) y chica-chica(1,1); cada una con una probabilidad del 25%. Hasta aquí ningún problema, ¿verdad?
Ahora el enunciado del problema nos indica que de las cuatro posibilidades a priori, sólo tenemos tres, dado que al menos una hembra hay.
Podemos tener chico-chica, chica-chico y chica-chica, con igual probabilidad. Tres posibilidades, de las cuales sólo una cumple que la otra también es chica, luego la probabilidad pedida es 1/3, o el 33,33%.
Hemos demostrado que en un matrimonio con dos hijos en el que al menos uno de los cuales es chica, es el doble de probable que el otro sea chico (2/3 frente a 1/3). Dada la simetría de sexos, podemos generalizar:
Si sabemos que al menos uno de los dos hermanos es de un sexo dado, es el doble de probable que el otro sea de sexo contrario .
¿Cómo es posible que ocurra esto, y que sigamos defendiendo que el sexo del primero y del segundo son independientes?
La comprensión de este asunto es de importancia capital para entender la independencia entre variables aleatorias, y queda pendiente para otro post. Como siempre, si ustedes quieren. En cierto modo, vamos a cerrar un ciclo. Hemos visto y demostrado que el conjunto de los números racionales es numerable. Hemos visto y demostrado que el conjunto de los números reales o de los puntos de la recta no lo es. También hemos dicho que la potencia de R es tal que cualquier segmento, por pequeño que sea tiene tantos puntos como el universo entero. Pero no lo hemos demostrado. Dado que algún lector me ha manifestado estar de acuerdo conmigo en que lo importante no es sólo el resultado, sino también el camino, y dado que la demostración de esta increíble afirmación está al alcance de cualquiera, paso a exponerla. Como siempre en estos casos, se debe a Cantor, y consta de dos pasos: demostraremos primero que existen tantos puntos en un segmento cualquiera como en toda la recta, y veremos luego que existen tantos en una recta como en un plano. La extrapolación del plano al espacio tridimensional, tetradimensional o n-dimensional es inmediata, como veréis, siempre que n sea finito. El fabuloso método de correspondencia que veíamos en el post anterior no se puede aplicar tan sólo en los conjuntos finitos, sino que vale también a los infinitos, como sabéis si me habéis leído. Ocurren entonces cosas extrañas, como que un conjunto es comparable a una parte suya. La extrañeza que esto nos produce se debe a que en nuestra vida cotidiana manejamos objetos finitos, en los que la parte es inferior al todo, pero sirve de hecho para definir a los conjuntos infinitos como aquellos que son de la misma potencia que alguna de sus partes. No nos preocuparemos por ello.  En la primera foto podéis ver el método que usó Cantor para crear una biyección entre los puntos de un segmento AB cualquiera y toda una recta. Basta mirar el dibujo para convencerse sin necesidad de mayor explicación que podemos encontrar para cada punto x del segmento un f(x) de la recta, y viceversa, luego ambos tienen el mismo número de elementos: aleph_uno.  En la segundo foto veis la forma de biyectar el segmento [0,1] con el cuadrado de lado unidad. Dado que todo real entre cero y uno es de la forma 0,x 1x 2x 3x 4,... podemos “fabricar” dos reales, uno con los decimales en puesto par y otro con los decimales en puesto impar, que serían las coordenadas X e Y del punto f(x) del cuadrado que le corresponde a nuestro x original. Viceversa, cada un punto del cuadrado tiene dos coordenadas; intercalando los decimales de ambas podemos obtener un único número real que pertenezca al segmento. Ambas operaciones son unívocas e inversibles, luego la biyección está demostrada. Pasar del cuadrado unidad a todo el plano es tarea bien sencilla, e incluso a un espacio de cualquier número finito de dimensiones: en el espacio tridimensional tenemos tres coordenadas para cada punto: intercalaríamos los decimales de tres en tres: primero el de la coordenada X, luego el de la Y, luego el de la Z, y el siguiente sería el correspondiente de la X otra vez... Podemos comprobar que dos simples gráficas nos explican por sí solas la veracidad de una proposición que en principio es absolutamente increíble. En algún momento afirmé que no me parece cierto que una imagen vale siempre más que mil palabras; pero si la imagen está bien elegida puede ciertamente en algunos casos valer más que cualquier explicación...  Hemos comentado varias veces que la palabra “elemental” en matemáticas es un arma de doble filo. Las demostraciones elementales de teoremas en teoría de números, por ejemplo son el paradigma de la extrema dificultad, mientras que utilizando el arsenal sofisticado del análisis complejo, las demostraciones muchas veces se realizan en dos renglones. Así mismo hay conceptos elementales que son difíciles de aprehender, y tan sólo son elementales porque no surgen de generalizar otros conceptos preexistentes. No va a ser así en este caso: vamos a hablar de algo fundamental en la matemática, algo elemental y a la vez muy sencillo. Se trata de las condiciones suficientes, las condiciones necesarias y las condiciones suficientes y necesarias (caracterizaciones). Estos sencillos conceptos impregnan la matemática toda, y nada es posible hacer sin ellos. Dado que en los últimos post hemos estado hablando de los números racionales, vamos a servirnos de ellos para hablar de estos conceptos. La definición formal de lo que es un número racional es un poco más complicada de la que vamos a ver aquí, porque implica el manejo de clases de equivalencia (otro de los conceptos capitales en matemáticas), pero daremos por buena la siguiente definición: “ Un número racional es un número expresable por el cociente de dos enteros”. Un número de este tipo tiene una expresión decimal formada por una parte entera, una coma y una serie infinita de decimales. Digo infinita, porque considero que para aquellos racionales que “sólo tienen cierto número de decimales”, existe una secuencia infinita de ceros tras ellos. Los números reales irracionales también son expresables de la misma manera. ¿Son diferentes unos de otros en su expresión decimal? Lo son. Esta diferencia desgraciadamente no siempre sirve para saber si un número es racional o no, por causas que luego veremos y que ahora no importan. Lo importante ahora es que esa diferencia existe, y sirve EN PRINCIPIO para diferenciarlos. Vamos a demostrar los siguiente: Si un número es racional, entonces a partir de un momento, sus decimales se repiten periódicamente. Basta ver el algoritmo usual de la división (ver figura): Cada nuevo decimal que hallamos se obtiene operando con el resto que nos queda del anterior, ¿verdad? Dado que el resto debe ser un entero menor que el divisor, sólo existen un número finito de restos posibles distintos. Eso quiere decir que antes o después nos encontraremos con un resto que ya teníamos, y a partir de ese momento, todo se volverá a repetir irremisiblemente. ¿Hemos demostrado ya la diferencia entre los racionales e irracionales? En absoluto. Lo único que hemos demostrado es que > Si un número es racional, entonces a partir de un momento, sus decimales se repiten periódicamente. Nada sabemos de momento al respecto de la posibilidad de periodicidad en los decimales de los irracionales. Lo que tenemos es una condición necesaria para tener un racional. ¿Porqué necesaria? Pues muy sencillo, porque al demostrar que todo racional cumple la periodicidad en sus decimales, sabemos automáticamente que todo incumplimiento de esta circunstancia implica que el número no es racional. Es necesario que se cumpla la condición para tener un racional. Aún no sabemos si es suficiente. Demostremos ahora lo siguiente: Si a partir de un momento, los decimales de un número se repiten periódicamente, entonces el número es racional. Esto es también muy fácil. La parte periódica del número (que tendrá, n cifras, puede expresarse como el cociente de dichas cifras entre el número formado por tantos nueves como cifras tiene, por ejemplo 0.123123123123123...= 123/999 , luego es racional. Si dicha parte empieza en el n-ésimo decimal, basta añadir (n-1) ceros en el denominador: 0.0000123123123123123...= 123/9990000. La parte que queda del número (sus primeros decimales hasta llegar a la parte periódica) siempre será racional, pues bastará dividir sus cifras por la potencia de 10 necesaria. ( 0,765123123123123...= 0,765+0.000123123123...=( 765/1000 )+ ( 123/999000) ) Y como la suma de dos racionales es siempre otro racional, ya está demostrado. Esta última demostración es inversa a la anterior: ahora sabemos que si hay periodicidad, entonces el número es racional; antes sabíamos que si el número era racional, había periodicidad. Antes teníamos una condición necesaria para la racionalidad , ahora tenemos una condición suficiente. Dado que en ambos casos la condición es la misma, tenemos una condición suficiente y necesaria , que en matemáticas es lo más guay que se puede tener. ¿Porqué? Pues porque si se cumple la condición, estamos con un racional, y si no se cumple, no. Este tipo de condiciones resume la esencia del problema completamente. Tanto es así, que a partir de ese momento, podemos sustituir la definición primitiva que teníamos, por el cumplimiento de la condición sin ningún problema. Eso es una caracterización. Siempre que encontréis una frase matemática en la que figure la coletilla si y solo si , estaréis ante una caracterización, que sustituye a una definición. Será siempre una condición suficiente y necesaria para que se cumpla algo, y recogerá en una frase la esencia del problema. Concisión y economía de pensamiento: parte importante de la belleza matemática, ¿no creen ustedes? Prometimos demostrar que el conjunto de todos los números reales no era numerable, que es lo mismo que decir que no se podían poner en relación biunívoca con los enteros positivos. Otra forma de decirlo es que no podemos hacer un listado en el que figuren todos ellos. Un comentario antes de seguir: tampoco podemos hacer un listado en el que entren todos los enteros naturales, porque son infinitos, pero eso no debe importarnos: se trata de la posibilidad o imposibilidad de idear un procedimiento para listar todos los elementos de un conjunto infinito sin dejarnos ninguno. Dado que son infinitos, la materialización práctica de este procedimiento nunca podríamos realizarla, pero (y esto es lo importante) si tenemos un método de hacerlo, siempre podríamos, ante cualquier elemento del conjunto, preguntarnos qué puesto ocupa en la lista. Eso es lo importante. Por eso decimos que el conjunto de los naturales es numerable, porque lo podemos numerar, no porque podamos exhibir un listado completo de todos ellos. Ante la pregunta de qué puesto ocupa el entero positivo n, la respuesta obvia es: ¡el n-ésimo puesto ! Misión cumplida. Eso es lo que demostraremos imposible para los reales. La demostración, ¡cómo no!, se debe a Cantor, el hombre que amaba las diagonales. Es absolutamente demoledora en su simplicidad, y demuestra por reducción al absurdo que no se puede, ni en principio, idear un método para realizar una lista de todos los números reales comprendidos entre cero y uno. Por ende, más imposible será tener la de todos los reales. Supongamos que sí se puede realizar tal listado exhaustivo; cada número real entre 0 y 1 tiene una expresión decimal que empieza por cero coma ..., por ejemplo 0,363527682329... los decimales son evidentemente infinitos, aunque a partir de un momento puedan ser todos iguales o todos cero (como sucede con algunos racionales, que no por serlo dejan de ser reales). Tenemos de esta forma, aceptando la posibilidad de tal procedimiento, un listado infinito en el que están todos los números reales. Vamos a construir un número real comprendido entre cero y uno ayudados por la lista anterior de la siguiente forma (ver imagen): empezamos con cero coma (0, ) para el primer decimal, nos fijamos en el primer decimal del primer número de la lista. Si es un número distinto de cero, ponemos un cero y si es un cero, ponemos un uno. Seguimos de forma idéntica: para el segundo decimal, nos fijamos en el segundo decimal del segundo número de la lista. Si es un número distinto de cero, ponemos un cero y si es un cero, ponemos un uno. Y así por siempre jamás. Los únicos guarismos en los que nos fijamos son los de la diagonal coloreada de la imagen. Lo interesante del asunto es que hemos construido un número real entre cero y uno que tiene su primer decimal distinto que el primer decimal del primer número de la lista... su n-ésimo decimal distinto del n-ésimo decimal del n-ésimo número de la lista, etc,etc... Es decir: hemos construido un número real diferente a todos los de la lista , lo cual debiera ser imposible, pues hemos partido de la hipótesis de que teníamos una lista infinita pero completa de todos los reales entre cero y uno. Así pues, la hipótesis de partida es la que era falsa: nunca podremos tener tal lista. Dado que los reales son los racionales más los irracionales, y hemos demostrado en el post anterior que los racionales son numerables, los responsables de la no numerabilidad de R tienen que ser los irracionales, esos mismos que en el post anterior los veíamos ingenuamente en pie de igualdad al fijarnos en la densidad de los mismos en R. La realidad es mucho más compleja: casi todos los reales son irracionales, y eso es compatible con el hecho de que en cualquier entorno abierto de R , por pequeño que sea nos encontramos infinitos racionales e irracionales. Hay algo muy misterioso en todo esto: hemos demostrado que no puede haber un listado completo de todos los reales comprendidos entre cero y uno. Y lo hemos hecho dando un método constructivo para expresar un número real que necesariamente no puede estar en el listado de partida, que suponíamos completo. Me van a permitir una pregunta. ¿Porqué no podemos hacer exactamente lo mismo con el conjunto Q?, A partir de un presunto listado exhaustivo de todos los racionales, construir uno nuevo que sea diferente a todos ellos en al menos un decimal. Habríamos demostrado que Q tampoco es numerable, a pesar de que conocemos otra demostración de que sí lo es (la del post anterior).¿Qué es lo que está fallando aquí? ¿Les apetece pensarlo un poquito?Les espero...  Para Reyes, mi paseo más hermoso No estará de más recordar una vez más que esto es un paseo, y que no vamos a descubrir en este blog nada nuevo. Tratamos únicamente de visitar parajes hermosos, y de hacer un viaje compartido por el mundo de las ideas matemáticas. Digo esto porque muchos aspectos matemáticos, no por ser perfectamente establecidos y aclarados dejar nunca de tener su encanto. El conjunto Q es el de los números racionales, o sea: los que se obtienen dividiendo dos enteros, positivos o negativos. Por ejemplo: 0,25 es racional por ser el cociente de 1 y de 4. Aquellos números que no se pueden expresar mediante este sistema, son llamados en un alarde de imaginación irracionales . Tanto unos como otros son números reales, y estos últimos pueden ponerse en relación uno a uno con los puntos de una recta. Uno de los primeros hechos interesantes es que todo irracional ( pi, por ejemplo) puede ser aproximado mediante una división de enteros, tanto como se quiera; aunque nunca se obtenga dicho número exactamente. Por ejemplo 22/7 es una muy buena aproximación a pi, pues nos da su valor con un error relativo de tan sólo 0.04%. A base de numeradores y denominadores más grandes ( y menos elegantes), conseguiríamos precisiones cada vez mayores. Estamos descubriendo una característica importante del conjunto Q: es denso dentro de R. La noción de conjunto denso es topológica, y necesita de conceptos previos (adherencia de un conjunto), pero existe una caracterización que nos viene muy bien. Un subconjunto D de un conjunto C es denso si y solo si todo abierto de C contiene algún elemento de D . En la recta real R los abiertos son los intervalos (a,b), que comprende todos los números reales mayores que a y menores que b, así como uniones de intervalos de este tipo, e intersecciones finitas de ellos. Tomemos el punto origen (cero) de la recta. Imaginamos un entorno abierto centrado en el cero, infinitamente pequeño, pongamos de una billonésima (10 -12) de radio. Es muy fácil encontrar números racionales en el interior de este intervalo abierto, como puede verse en la figura.  Vemos que por muy pequeño que sea el intervalo, existen infinitos racionales dentro de él: en la figura hemos dibujado dos: los correspondientes a una décima y a nueve décimas de billonésima. Eso es lo que quiere decir que Q es denso en R . Podemos percibir que el conjunto Q “invade” todo rincón del total R. De la misma forma, dado cualquier intervalo de R, sería igual de fácil encontrar irracionales en su interior, también en número infinito. Los irracionales invaden igualmente R. Adermás, ambos conjuntos, el Qde los racionales y el de los irracionales son disjuntos (un número o es racional y pertenece a Q, o no lo es, y pertenece al conjunto de los irracionales) y su unión hace todo R. ¿Puede darse mayor situación de empate? Pues sí que puede, dado que ¡el empate es ficticio! De hecho, no hay empate en absoluto. A pesar de ser cierto que podemos aproximarnos cuanto queramos a cualquier irracional por medio de racionales, y viceversa, a pesar de que unos y otros están imbricados en la estructura de R a cualquier escala, por muy microscópica que la imaginemos, resulta que ambos conjuntos son muy diferentes, hasta el punto de que todo el peso de R se lo lleva el complementario de Q( el conjunto de los irracionales), no quedando NADA para Q, que como dijimos en otro post, no es sino humo fractal dentro de R. Veamos esto con más detenimiento, porque aquí tenemos dos sorpresas: 1.- Dado que entre dos números reales cualesquiera, por muy cercanos que estén, existen infinitos racionales, parecería que no fuera comparable el número de racionales y el de naturales. No es así, pues ambos conjuntos tienen el mismo número de elementos. 2.- El tamaño o potencia de los racionales e irracionales aparenta ser igual, vista la “situación de empate” vista más arriba. Esto tampoco es así; la potencia de los irracionales es sipuerior a la de los racionales, como se ha dicho. Para zanjar la sorpresa 1, Cantor demostró con su método diagonal que los racionales son numerables Esto significa que se pueden poner en orden sin saltarse ninguno, de forma 1º, 2º, 3º, ...si lo conseguimos, como cada racional se corresponde con un natural (entero positivo) y viceversa, entonces los tamaños de los dos conjuntos son iguales. La demostración es una tontería... salvo por el hecho de que a nadie se le ocurrió antes. Consiste en colocar todas las fracciones posibles en una tabla rectangular, eliminar las fracciones que representan el valor de una ya considerada, y recorrer la tabla en diagonal, como se indica en la figura. De esta forma no nos dejamos ninguna fracción por numerar, y cada entero se corresponde con una y solo una fracción. Queda demostrado para toda la eternidad que hay tantas fracciones como enteros positivos. Dejaremos para el siguiente post la increíble demostración de que a diferencia de Q , R no es numerable. Entonces podremos apreciar la insoportable levedad de Q, en contra de toda apariencia. Os espero.  El post sobre el teorema de Lucas tendrá que esperar. Lo cierto es que hay algo que merece un apunte adicional a lo dicho anteriormente al respecto de la complejidad algorítmica. Tenemos la idea de que la cantidad de información, que medimos en bits, refleja de alguna manera el interés de aquello que consume esos bits: un mensaje de 1 mega tiene más información que un mensaje de 12 kB. Por otra parte, sabemos por experiencia que la longitud de un mensaje nada tiene que ver con su interés... El concepto de complejidad algorítmica, aunque parece más traído por los pelos, es mucho más natural. Vamos por fases, y comienzo con una anécdota. PRIMERA FASECuando visité Florencia hace años, me planté bajo El David de Miguel Angel, y me asaltaron tres pensamientos. Dos de ellos nada tienen que ver con lo que se trata aquí; eran: 1.- La estremecedora belleza de la escultura. 2.- ¿Si ese era David, cómo sería Goliat? La tercera sí tiene que ver con lo que aquí debatimos: 3.- El David “estaba” en el interior del bloque de mármol antes de que el escultor se limitara a quitar lo que sobraba. Pensemos en la tercera cuestión. La escultura en piedra es una especie de arte inversa, se quita lo que sobra y queda... el resto; que es la obra de arte. SEGUNDA FASEAcabo de leer en un número del Investigación y Ciencia, esa maravillosa y sorprendente revista que un día habla de ciencia y otro de agua imantada una historia muy curiosa. Adaptada al caso sería así: Diseñamos un programa de ordenador que cree todos los textos posibles de n páginas, con n grande. El primer texto tendrá todos los caracteres en blanco y el último todo zetas. Suponemos ilimitada capacidad de cálculo: velocidad de proceso infinita y almacenamiento de datos suficiente. El programa es muy tonto y simple; apenas unos renglones de código. Sin embargo genera todas las joyas literarias, escritas y por escribir de la historia de la humanidad, (además de mucha basura, cierto es). TERCERA FASE: REFLEXIONTenemos un paralelismo entre el bloque de mármol y el conjunto de archivos generados por el programa. Si yo quiero leer el quijote, no tengo más que encontrarlo entre los innumerables pero finitos archivos generados por el programa arriba explicado. Dado que tengo ordenados los archivos lexicográficamente, no tengo más que teclear E , y quedarán eliminados todos los libros que no empiezan por E , sigo con n , luego un espacio en blanco, luego u ,y despues n , otro espacio en blanco y sigo con l , u , g, a r... como el escultor, voy eliminando cada vez parte de los volúmenes que no me interesan. En definitiva: direccionar el archivo que me interesa implica reescribir el quijote, de la misma forma que quitar lo que sobraba era precisamente la genial obra de arte que Miguel Angel creó. El bloque homogéneo no portaba información sustancial, el conjunto de todos los volúmenes tampoco, a pesar de su ingente tamaño. Pero el volumen del Quijote sí porta mucha información sustancial a pesar de ser un subconjunto ínfimo del total de archivos generados. El David es una obra cumbre del arte humano, y el bloque inicial no lo era. CUARTA FASE: CONCLUSIONLa complejidad algorítmica de un conjunto puede ser infinitamente menor que la de un subconjunto suyo. Así expresado parece sorprendente, pero eso sólo es porque tenemos prejuicios: estamos demasiado acostumbrados a manejar teoremas de conservación, y funciones aditivas. A veces la parte es muy superior al todo; a veces el tamaño no importa (JAJAJAJA). Ahora vemos que el concepto de complejidad algorítmica es más natural de lo que parecía a primera vista. Todos sabemos que diez minutos de radio con Javier Armentia o con Félix Arestienen mucha mayor complejidad algorítmica, y son mucho más interesantes que dos horas de sesión en el congreso. Por eso digo que esto no es más que un paseo, porque aquí no vamos a descubrir nada que no estuviera inventado...  Continuamos con lo prometido en el post anterior. Decíamos ayer que la omega de Chaitin (Chaitin es el de la foto)pertenecía a una clase de números reales verdaderamente “malvados”. Veamos porqué es esto así. Una de las características más importantes de este número es que es algorítmicamente aleatorio. Esto es decir bastante más de lo que parece a simple vista. Supone que no puede comprimirse en un programa más breve que él mismo. En otro post hablábamos de la aleatoriedad de pi, y de los posibles (seguros, más bien) mensajes en su interior. Decíamos allí que dado que en pi existía todo, incluso la codificación en bantú de “Lo que el viento se llevó”, en realidad no existía casi nada. No hay información, ni sustancia especial. Y explicábamos que Kolmogorov había ideado el concepto de complejidad (cantidad de información) de un objeto como el número de bits del programa más conciso capaz de generarlo. Existen programas muy cortitos que generan pi con sus infinitos decimales, luego la complejidad interior de pi es pequeña; no es algorítmicamente aleatorio. El conjunto de Mandelbrot, con sus recovecos infinitos y volutas bellísimas es generable también por programas muy cortitos, por lo tanto posee muy poca complejidad en el sentido de Kolmogorov. Chaitin definió un objeto es algorítmicamente aleatorio como aquel imposible de generar por un programa más corto que sí mismo en la década de los 60 del siglo pasado, prácticamente a la vez que Kolmogorov. Demostró que todo número algorítmicamente aleatorio era normal (sus dígitos aparecían con igual frecuencia en el desarrollo decimal, y en cualquier base). Decididamente, este tipo de números es bastante “peor” que un trascendente como pi. El trabajo de Chaitin es muy técnico, y tedioso. De hecho, si repasan la definición de omega, verán que la suma de las probabilidades extendida a todo n no tiene ni porqué ser convergente, se hacía necesaria una normalización para que el propio omega fuera una probabilidad, comprendida entre 0 y 1. Este “detalle” le costó diez años de trabajo. Vemos por tanto que desde aquí no podemos sino hacernos eco de las propias declaraciones del autor referentes al asunto. Esto no es más que un paseo, recuerden... A pesar de que este número está perfectamente definido y acotado entre cero y uno, en palabras de Chaitin, referidas a la expansión decimal binaria de omega: “No solamente no se puede calcular este número, sino que nunca se pueden saber cuáles son sus bits, porque esa información es matemáticamente incompresible... es incompresible e incomprensible; las palabras son muy semejantes.” “Para obtener los n primeros bits de omega necesito una teoria de n bits, de complejidad igual al fenómeno que quiero estudiar. Eso significa que no gano nada razonando.”Nuestro omega no tiene estructura: es puro azar a pesar de estar perfectamente definido. Queda claro que nuestro diablo encierra muchos secretos, y digo bien al decir “encierra”: nunca los desenterraremos. La única forma de seguir a delante es incorporar como axiomas los sucesivos valores de los bits de omega, pero incorporando axiomas, podemos demostrar cualquier cosa... No obstante, el trabajo de Chaitin es bastante más preocupante de lo explicado hasta aquí. En matemáticas es posible trasladar la formulación de un problema a otro ámbito, si se es capaz de demostrar que existe un isomorfismo que posibilita tal traslado. En teoría de la complejidad es práctica habitual hacerlo, reformulando problemas complejos en términos de otros problemas complejos. Chaitin consiguió traducir el problema del enésimo bit de omega en una ecuación diofántica (de coeficientes enteros). que ocupaba 200 páginas, tenía 20.000 variables y un parámetro. Demostró que ambos problemas eran isomorfos, y que la pregunta ¿Es cero o uno el enésimo bit de la expansión decimal binaria de omega? en el primer problema correspondía a la pregunta ¿Tiene un número finito de soluciones la ecuación cuando hago el parámetro igual a n? Entiendan bien esto, que es importante: Tenemos dos problemas, A y B que se han demostrado isomorfos. Tenemos la demostración de que el problema A es no computable, algorítmicamente aleatorio, caótico e irresoluble. Para nada ayuda el planteamiento B a encontrar solución en el A; pero hemos demostrado que B es igualmente aleatorio, y ESO es lo terrible. El azar está incrustado en el seno mismo de la aritmética, dominio de las ecuaciones diofánticas. Todo esto viene a ser una tercera formulación de la maldición de Gödel. La pregunta la hizo Hilbert, la contestó Gödel , la replanteó Turing y ahora la vuelve a responder Chaitin. Aquí teneis una página personal de Chaitin con acceso a sus documentos más importantes, de los que he sacado esta información. Y aquí teneis una entrevista en castellano a Chaitin en la que se habla del número omega. PD. Por cierto, revisando documentación para este post me he encontrado con que Chaitin utilizó el Teorema de Lucas para desarrollar su ecuación diofántica. Este bonito teorema habla de la paridad los coeficientes del triángulo de Tartaglia. Sobre este tema será el próximo post, por poner algo fresquito y alegre :)  A Einstein no le habría gustado este post. Uno de los padres de la mecánica cuántica renegaba de la criatura con la frase “Dios no juega a los dados”. Churchil era un buen creador de frases de complejidad irreductible: pensamiento condensado en pocas palabras, y nuestro bienamado Albert no le iba a la zaga. A Einstein no le gustaba el azar, y creía en la existencia de variables ocultas, que es otra forma de decir que lo que parece azar no es sino falta de información por nuestra parte. En el fondo, me parece a mi que la cuestión es muy poco científica: nos gusta o no nos gusta que el azar y el caos esté formando parte de la substancia misma de las cosas en función de nuestras apetencias, criterios, opiniones e ideología. Pero una de las pocas propiedades del universo de la que podamos estar seguros es la nula atención que presta a nuestros gustos particulares. En una visión superficial del asunto, alguien podría decir que la matemática acepta desde siempre el azar; al fin y al cabo tenemos la teoría de probabilidades aceptada y bien establecida desde hace mucho tiempo. Pero la cosa no es tan sencilla. La teoría de la probabilidad actual parte de la axiomatización de Kolmogorov, auxiliada por la teoría de la medida, y es un edificio muy bien construido; eso es cierto. Sin embargo, nada dice de el origen del azar, ni de la posibilidad de que tal azar sea desconocimiento por nuestra parte, existencia de variables ocultas, o que por el contrario sea parte integrante de la estructura de las cosas. Aunque no lo parezca, el origen de esta historia está en el “Entseidungsproblem” de Hilbert. Cuando Hilbert puso los deberes para el nuevo siglo XX, una de la cuestiones planteadas era la siguiente: ¿Todo problema matemático tiene una solución algorítmica? O en otras palabras, a todo problema especificable formalmente, ¿se le podrá dar una solución mecánica en una cantidad finita de pasos?En 1931, el matemático austríaco-alemán Kurt Gödel dio un paso fundamental para dar una respuesta cuando demuestra el celebrado Teorema de Incompletitud , ya hemos hablado de ello en este blog. Y fue Alan Turing en 1936 quien consigue dar la respuesta definitiva a la pregunta de Hilbert: No todo problema matemático tiene solución algorítmica. Para demostrarlo inventó la noción matemática de computadora de propósito general. Básicamente, Turing define la computadora y plantea un problema sobre ella para el cual demuestra que no hay ningún algoritmo que lo resuelva. Es el problema de la detención (en Inglés se llama “Halting problem”); informalmente ya lo conocen: es el problema de saber si un programa “se cuelga” cuando corre en la computadora. El problema de la detención es indecidible, como demostró Turing. Así pues, debemos hacer un alto para recordar una verdad que muchas veces se olvida. Haré algo de cosmética para resaltar la siguiente frase lo suficiente: ********************************************************************* *********************************************************************
Las computadoras no se idearon para meter videojuegos, ni para chatear con los amigos: se inventaron para responder a una importante pregunta filosófica
********************************************************************* *********************************************************************
Un matemático norteamericano de ascendencia argentina, Gregory Chaitin, pensó en este asunto en términos de azar. ¿Dónde entra el azar en todo esto? Pues muy fácil. De la imposibilidad dada por el teorema de Turing de resolver el problema de la detención, pasamos a preguntarnos por la probabilidad de parada de un algoritmo. Cada algoritmo es en definitiva una lista finita de ceros y unos. Con unos programas (los bien constituidos), la máquina se detendrá convenientemente, y con otros se quedará colgada. Supongamos que escribimos un programa a base de n ceros y unos tirando una moneda al aire n veces, existen 2 n programas posibles. Por lo tanto la probabilidad de obtener un programa concreto de n bits es 2 -n. De todos estos programas, una parte muy pequeña acabarán en la instrucción “FIN DE PROGRAMA” correctamente. Sea A n el número de programas correctos desde este punto de vista, de n bits. La probabilidad de generar aleatoriamente un programa de n bits que detenga la máquina será: P n= A n· 2 -n. Y si extendemos a todos los programas posibles finitos obtenemos la constante Omega de Chaitin que cabeza este artículo. En matemáticas, a diferencia de la física, las constantes fundamentales son pocas. Tenemos el número e, tenemos pi, la constante de Euler, la de Feigenbaum y ahora tenemos la constante de Chaitin. Existe toda una jerarquía de números en cuanto a la “maldad” que exhiben (permítanme el antropomorfismo, estamos en el post cuarentaytantos, y ya habrán aprendido a leerme entre líneas... ) Algunos números exhiben poca maldad, como los enteros. Los irracionales son bastante traviesos, y entre ellos los trascendentes son los peores. Pues bien: la omega de Chaitin es el demonio en persona. La constante de Chaitin nos introducirá en el caos, y nos hará volver a considerar el papel del azar en el centro mismo de la matemática, terminaremos afirmando que si Dios no juega a los dados es porque está muy ocupado con la ruleta y las cartas, pero eso será en el siguiente post. Como siempre, si ustedes quieren.  Recuerdo que cuando aprendí lo que era un anillo y lo que era un cuerpo,allá por el bachiller, no supe entender la diferencia. Era evidente que había por ahí una propiedad que cumplían los cuerpos y no los anillos, pero aquello no parecía ser interesante, ni divertido. Como todo cuerpo era un anillo, parecía que los cuerpos eran más completos, y los anillos eran meros aspirantes a cuerpos. Restringiéndonos a conjuntos de números, y simplificando un poco un cuerpo es un conjunto de números en los que podemos sumar, restar, multiplicar y dividir los elementos sin salirnos del conjunto (salvo dividir por cero, que es cosa prohibida y muy castigada). Un anillo es lo mismo, pero falla la división. Tan sólo a veces podemos dividir dos elementos del anillo sin salirnos del mismo. Al menos debiéran haberme dicho que esa diferencia era maravillosa, y que no tenía aún capacidad de apreciarla. No me lo dijeron. Sucede que con los anillos ocurren cosas ideales que con los cuerpos se trivializan. En cierta ocasión, un buen amigo me regaló un libro de apariencia inocente y contenido terrible. Su título era algo intimidatorio: Algebra homológica, cohomología de grupos y K-teoría algebraica clásica Dado que el álgebra no es mi especialidad, pude saborear aún más la diferencia entre los anillos y los cuerpos. Aprendí que un tal Alexander Grothendieck hizo cosas maravillosas antes de abandonar repentinamente y para siempre las matemáticas por asuntos políticos. Muchas de las cosas que hizo partían de la idea de imaginar anillos donde otros habían imaginado cuerpos. Conseguía tender así puentes entre áreas dispares de la matemática: al álgebra, la geometría y especialmente la topología. Parte del secreto del asunto está en el hecho de que la estructura de anillo es la natural de los números enteros. Y todos sabemos que si dividimos dos números enteros, a veces el resultado no lo es, ¿verdad? A pesar de todo, no tengo nada en contra de los cuerpos. Sobre todo de algunos cuerpos. Kurt Gödel entra en escena La demostración que hemos visto es realmente sorprendente, pero no deja (a mí al menos) una sensación de plenitud. Hemos demostrado, efectivamente que cualquier sucesión de Goodstein termina por converger a cero, pero no nos da ninguna indicación de cuándo alcanza dicho valor, ni de cómo hallarlo. Lo primero que debemos notar es que tratándose de sucesiones de números enteros finitos todos ellos (enormes, pero finitos), hemos demostrado su convergencia a cero utilizando la noción de infinito actual (el omega w). De alguna manera; nos hemos salido del tiesto. Esto es una constante en la matemática y no debe sorprendernos: vimos en el artículo sobre Erdös que el teorema de los números primos fue demostrado en primer lugar por De la Vallee-Poussin y Hadamard utilizando poderosas herramientas de análisis complejo que en principio nada tienen que ver con la aritmética de los enteros. Luego Erdös consiguió una demostración elemental, en el sentido de que utilizaba nada más que herramientas propias de la aritmética de los enteros, sin salirse del tiesto. ¿Ocurrirá lo mismo con las sucesiones de Goodstein? Dicho de otra forma: ¿será posible demostrar la convergencia a cero sin apelar al infinito? Al fin y al cabo, dicho infinito no se alcanza en ningún momento en el problema original... La respuesta, rotunda como una bofetada, la dieron los matemáticos Paris y Kirby ...: NOEstos dos matemáticos demostraron en 1.981 (Kirby, L. and Paris, J. Accessible independence results for Peano arithemtic. Bull. London. Math. Soc., 14 (1982), 285-93. ) que es imposible demostrar la convergencia a cero de nuestra sucesión sin apelar al infinito actual (la omega de los cálculos del post anterior). Ahora tenemos un teorema que demuestra la imposibilidad de demostración de otro teorema sin apelar al infinito actual. Esto es lo mismo que afirmar que lo que afirma el teorema de Goodstein es cierto pero indemostrable dentro de la aritmética de los enteros finitos, a pesar de que no compete más que a números enteros finitos. Es una de las poquísimas situaciones concretas en las que se ve la potencia de la maldición de Gödel.Kurt Gödel demostró en los años 30 del siglo pasado que para todo sistema axiomático suficientemente potente como para albergar la aritmética de los enteros existen proposiciones (afirmaciones) que son ciertas pero indemostrables dentro del mismo. Esto se llama el Teorema de incompletitud de Gödel . Dicho teorema afirma que toda teoría aritmética recursiva consistente es incompleta , y un teorema hermano dice que si una teoría aritmética es consistente, no existe en su seno demostración alguna de que efectivamente lo es . La completitud es, por tanto, la posibilidad de demostrar toda afirmación cierta. La consistencia es la ausencia de contradicción. Una teoría es contradictoria cuando se puede demostrar en su seno una afirmación y también su contraria. Sobre el mismo se han dicho muchas cosas ciertas y muchas chorradas, y éstas últimas parece que han sido las que más éxito han tenido. El propio Roger Penrose (el gran Penrose, amigo de Stephen Hawking) hace lecturas ilícitas del mismo para arrimar el ascua a su sardina en La mente del emperador, pero este es otro tema. Gödel demostró lo anterior de una forma demoledora: construyendo efectivamente una proposición que era a la vez verdadera e indemostrable dentro del sistema axiomático. Uno de los problemas de Hilbert quedaba zanjado de forma negativa. Pues bien: la convergencia de nuestra serie de Goodstein es el segundo ejemplo práctico de proposiciones de Gödel en la historia de la matemática. La primera fue en 1.978, y la demostración de Kirby y Paris coloca al Teorema de Goodstein en segundo lugar. ¿Implica esto que somos impotentes para acceder a ciertas demostraciones? En principio no. De hecho, la demostración de Goodstein la tenéis en el post anterior. Sólo hacía falta añadir un axioma más a la aritmética de Peano de los enteros: el que postula la existencia de w con la aritmética ordinaria de los conocidos enteros finitos. Tenemos ahora un sistema más potente, que a su vez tendrá sus afirmaciones de Gödel ciertas e indemostrables. ¿Qué haremos entonces? Pues ampliar otra vez el sistema axiomático y vuelta a empezar. El teorema de Gödel supone una limitación a lo que podemos esperar de todo sistema axiomático, pero no impide el quehacer matemático; podemos estar tranquilos. (Bueno, supongo que muy nerviosos tampoco se habían puesto al leer esto, verdad?)___________________________________________________________________________ Bibliografía: Lo que he encontrado en la web sobre este tema es muy repetitivo, y creo que lo mejor está condensado aquí. De todas formas, teneis también información en los siguientes lugares: Algo introductorio se encuentra aquí. Teorema de Goodstein de convergencia a cero: aquí; aquí y aquí. En este sitio se explica que la sucesión de Goodstein de semilla 4 tiene los primeros términos 4,26,41,60,83,109,139, ...; y demuestra de forma muy sencilla que alcanza el cero en el término k = 3 x 2 402653211 -1 , aproximadamente k= 10 121210695 . ¿Cómo hizo Goodstein para demostrar su teorema? Vamos a ver el asunto, si os parece. (Se habrá hecho algo parecido en algún blog? Miedo me da a mi aburrir al personal...) . Para ello necesitamos un concepto adicional: las superdilataciones . Simplifiquemos la nomenclatura, y llamemos d a la dilatación u operador salto visto en el artículo anterior, reservando D para la superdilatación. Una dilatación, como vimos ,era un cambio de p por p+1 en la expresión normal de Cantor del número, ¿verdad? Pues una superdilatación no es más que un cambio de p por w en la expresión normal de Cantor del número; donde w (omega) es el primer ordinal infinito. Nos zambullimos así en la aritmética transinfinita de Cantor. En ésta aritmética, ajena a los axiomas de Peano sobre los que se basa la aritmética de toda la vida, w simboliza el primer (menor) ordinal mayor que cualquier número natural(y por lo tanto infinito). Lo tenemos en la imagen siguiente:  Los ordinales se ordenan de la misma manera que los enteros ordinarios, de forma que tenemos una ordenación a su vez infinita de ordinales w, w+1,...w+w=2w, 2w+1,... Varias cosas debemos notar a estas alturas: 1.- (Esta es paradójica a tope): Si comenzamos en un ordinal infinito cualquiera, toda sucesión estrictamente decreciente llega al cero en un número finito de pasos. ¡Esto es extrañísimo! Lo que estamos afirmando es que comenzando con un ordinal infinito, llegamos al cero en un número de pasos finito necesariamente. Esto es así por la propia definición de w. Al ser el menor ordinal mayor que cualquier número natural, cuando lleguemos a w, para seguir teniendo una sucesión decreciente, el siguiente debe ser un natural finito a la fuerza, y de éste al cero, siempre habrá un número finito de términos!! 2.- (Esta no es menos atómica). Efectuar una superdilatación, por ejemplo D 2 es lo mismo que hacer una dilatación normal d 2, seguido de una superdilatación D 3. El motivo es claro, la dilatación cambia cada p de la forma normal de un número por p+1 , y la superdilatación D 3 cambia p+1 por w . En definitiva lo único que hemos cambiado es p por w, que es precisamente el operador D 2. Dicho de otra manera: la superdilatación de un número es igual a la superdilatación de la dilatación normal de un número .Sin embargo, si en vez de dilatarlo previamente, le restamos una simpleunidad, las superdilataciones no son iguales: con una unidad menos, tenemos una superdilatación menor que antes. El motivo es claro: el 1 que restamos “pasa” al resultado, sin transformarse ni en w ni en nada!!! Miren ahora la figura de abajo:  . Tenemos dos sucesiones: la de Goodstein normal, y al superdilatada, cuyos miembros son los correspondientes a la anterior por el operador D. Tenemos que la segunda es estrictamente decreciente , y en virtud del punto 1, llega a cero en un número finito de pasos. Pero resulta que el cero ¡no puede sino ser la superdilatación de otro cero!, luego acabamos de demostrar que la sucesión de Goodstein inicial converge a cero.Basta por hoy. En el siguiente post veremos las implicaciones filosóficas de todo esto, como siempre si ustedes quieren seguirme. Son más interesantes aún que la propia demostración... y entonces será cuando el bueno de Kurt Gödel entrará en escena. Este artículo intenta explicar algo muy difícil de creer. Quizás requiera un poco más de esfuerzo que el resto de los artículos hasta ahora publicados en este blog; pero intentaré hacerlo ameno. Sé (y estoy encantado por ello) que entran en este blog lectores a los que la matemática les atrae pero les asusta un poco. No quisiera que la presencia de unas cuantas ecuaciones les espante. No será esta la tónica general del blog, pero es necesario comprender que la belleza está precisamente ahí, y lo que yo hago aquí no es sino un torpe intento de expresar lo mismo en palabras. El “aroma” de lo que ahora quiero explicar se puede percibir sin las ecuaciones, de modo que si alguien se siente cohibido, que pase de ellas y lea el resto. Antes de enfrentarnos a la maravilla, debemos repasar varios conceptos previos: Una sucesión numérica es una secuencia infinita de números uno detrás de otro. Para tener definida la sucesión, debemos conocer la regla de generación de los sucesivos elementos de la misma. Esta definición puede darse mediante el término general , que es una fórmula en función del puesto que ocupa cada número. Sustituyendo la variable que indica el puesto por cada valor n , obtenemos el enésimo miembro de la sucesión. También puede darse recursivamente: utilizando los valores anteriores de la misma para generar los nuevos. Ejemplo el primer caso: An= 4n Estamos ante la sucesión de los múltiplos de 4. Efectivamente, si sustituimos n por 7 obtenemos el séptimo miembro de la sucesión, que es 7 x 4 = 28. Ejemplo del segundo caso: A1=1; A2=1; An=A(n-2)+A(n-1)En este caso, estamos explicando que los dos primeros miembros valen la unidad, y que cada uno de los demás es igual a la suma de los dos anteriores. Estamos ante la famosísima sucesión de Fibonacci {1,1,2,3,5,8,13,...}. Para generar la sucesión de Goodstein necesitamos varios conceptos más: 1.- Forma normal de Cantor en base 2 de un número entero.De la misma forma en que cualquier número lo podemos expresar como potencias de diez (Por ejemplo: 266= 2x10 2+ 6x10 1+ 6x10 0), podemos hacerlo en cualquier base. Hagámoslo en base 2, obteniendo: 266= 1x2 8+ 1x2 3+ 1x2 1. (Esto no es sino otra forma de decir que en base dos, 266 se escribe 100001010 . Pues bien, la cosa es expresar como potencias de dos tanto las bases como los sucesivos exponentes, obteniendo una “torre” de exponentes. Para nuestro número 266 tendríamos: . =  Esto es precisamente la Forma normal de Cantor en base 2 del número 266. 2.- Operador salto de base.B[b](n), u operador “dilatación”. Dado un número expresado Forma normal de Cantor en base b , el operador salto de base sustituye cada b por (b+1). No hace falta insistir mucho para comprender que esto es una barbaridad de cambio. Operando con el 266 obtenemos: .  y estamos frente a un número ciertamente monstruoso. Si aplicamos a este último el operador, tendríamos un cuatro en lugar de cada tres, y la cifra obtenida simplemente escapa de nuestra comprensión de puro grande. Con este bagaje podemos acometer las sucesiones de Goodstein. Comienzan con una “semilla”, un número natural de cualquiera de partida que en nuestro caso podría ser 266. Este sería el primer término de la sucesión, que denotaremos G 0(266)=266. El segundo término (G 1(266))se obtiene mediante el operador cambio de base B[2] sobre el primer término, y restando uno al resultado. Esto es: en su forma normal de Cantor, sustituimos cada dos por un tres, y al resultado le restamos una unidad. Así habríamos obtenido la sucesión de Goodstein de semilla igual a 266. Para cada entero tendríamos una sucesión de Goodstein diferente. Veamos una recopilación de todo esto en la siguiente imagen:  Es difícil imaginar una sucesión que crezca más rápido que ésta, verdad? Pues bien, el Teorema de Goodstein dice (y demuestra) que para cualquier valor de la semilla, toda sucesión de Goodstein alcanza... ¡¡EL CERO!! La explicación de esta alucinante verdad es que el responsable este comportamiento es la unidad que le vamos restando a cada paso . El número de pasos necesario para que, después de un crecimiento abrumador, la sucesión vaya declinando hasta el cero es de tal magnitud que no existe forma de escribirlo, ni de calcularlo. Salvo para semillas muy pequeñas, no hay humano que lo haga, pero tampoco hay ordenador que lo pueda hacer... y sin embargo ahí está el resultado demostrado. ¿Cómo consiguió Goodstein demostrar esta cuestión? La forma en que lo hizo hace que las sucesiones de Goodstein sean más que una simple curiosidad. De hecho, es la demostración lo importante, y lo que tiene consecuencias incluso filosóficas. Todo esto tiene relación con los infinitos de Cantor, con el teorema de Gödel y con nuestra concepción de la matemática en general. Ni más ni menos. De todo ello hablaremos en el próximo artículo. ¿Podrán esperar? ____________________________________________________________________________________________ * La dirección de este artículo es: http://www.infoaragon.net/servicios/blogs/tiopetrus/index.php?idarticulo=200310211 * Ver esta historia solaAlgunas civilizaciones tuvieron una verdadera fascinación por los números grandes. La civilización india fue el mejor exponente de este amor por lo desmesuradamente grande, hasta el punto de tener nombres propios para números tan inmensos que rayan en el absurdo. Estos números enormes estaban más allá de toda aplicación práctica, como Asankhyeya , que es 10 elevado a 140.
Esta cifra es inconmensurablemente mayor que el número de átomos del universo entero. El simbolismo de estos números es normalmente religioso, indicando un acercamiento a la noción de infinito; pero también estaban presentes en tratados cosmológicos. Los tratados cosmológicos de los jaina , como el Anuyogadvarasutra por ejemplo manejan potencias de diez con exponentes de 190 o incluso 250, si bien no he encontrado referencias de nombres propios para ellas.
Para los curiosos, aquí tenéis un pequeño listado de los nombres propios de algunos de estos monstruos:
Pundarika: 10 elevado a 27. Viskhamba: 10 elevado a 47. Sarvajña: 10 elevado a 49. Dhavajagravati: 10 elevado a 99. Mahakathana: 10 elevado a 126 Asankhyeya: 10 elevado a 140.
Esta obsesión por las grandes cifras contrasta con la pobreza en nomenclatura numérica de otras culturas, que no tienen nombres para designar más de unos pocos números, dejando el vago “muchos” para los más grandes. Parece ser que los matemáticos indios estaban decididos a ganar una batalla contra sí mismos en una especie de ”a ver quién la tiene más grande” , en versión numérica. Y parece ser que lo consiguieron. Nunca es fácil asegurar una cosa de estas, pero parece ser que el Asankhyeya es el mayor número que ha recibido nombre propio en la historia de la humanidad.
__________________________________________________________________________________________
Parece ser que ha ocurrido algún problema y se han borrado las estadísticas. Afortunadamente se han podido recuperar todos los artículos y vuestros comentarios. Lo cual es una suerte, porque los comentarios son parte importante de este vuestro blog.  ¿Se puede obtener algo a base de sumar cantidades nulas? La pregunta parece ridícula... Vayamos aproximándonos a la respuesta. Para empezar, si sumamos un número muy grande de cantidades muy pequeñas, podemos obtener cualquier cosa. Si el número de cantidades que sumamos tiende a infinito y el valor de cada cosa tiende a cero, estamos en la misma situación. Es lo que en el cole repetíamos; aquellos de cero por infinito es indeterminación . Lo que queríamos decir con aquella frase no es sino algo obvio: cantidades muy pequeñas pueden dar como resultado cualquier cosa a condición de sumar las suficientes de ellas.Nada que viole la intuición ni las buenas costumbres. Ya saben ustedes: tacita a tacita... No es eso de lo que quiero hablar ahora. Quiero que las cantidades no sean despreciablemente pequeñas; quiero que sean estrictamente nulas. Cero patatero. Ahora la cosa cambia, verdad? En una primera aproximacion admitiremos que por mucho que añadamos nada a la nada que tenemos, seguiremos teniendo nada; y sin embargo, esto no es así. Todo depende de cuántas cantidades nulas estamos sumando. Si la cantidad es finita; no hay nada que hablar: el resultado es cero. Si la cantidad es infinita, pues también. Puedo estar eternamente añadiendo ceros, que el resultado será siempre nulo. ¿O no? Pues siento si rompo algún esquema, pero depende. Recordarán si leyeron el artículo anterior, que había infinitos e infinitos. Si añadimos una cantidad infinita pero numerable (aleph-cero) de ceros, nuestra intuición sigue siendo correcta: resultado nulo. Pero si la suma se extiende a una cantidad no numerable de elementos (aleph-uno), la verdad es que podemos obtener un número tan grande como queramos, aunque cada uno de ellos sea estrictamente cero.Tal es la potencia del primer infinito no numerable. ¿Les parece mentira? Fíjense en la figura. Tenemos un segmento de recta comprendido entre los puntos 0 y 1. Existe una noción muy concreta de medida para los conjuntos de elementos, que se llama medida de Lebesgue . Para nuestros propósitos actuales esta medida es idéntica a la longitud del segmento. Estaremos todos de acuerdo en que el segmento mide 1, y en que está formado por puntos. También estaremos de acuerdo en que la longitud de cada punto es EXACTAMENTE CERO. Pues eso, que la suma de todos esos ceros da uno. Como vimos en el artículo anterior, el número de puntos de un segmento no sólo es infinito, sino que es un infinito no numerable, y ese es el quid de la cuestión. ______________________________________________________________________________________ PD. En una ocasión intenté convencer a un contertulio de esto que acabo de comentar, y no sólo no se lo creyó, sino que encima se enfadó conmigo. Espero que eso no me pase con ustedes... Miren un momento el símbolo que encabeza este artículo. Se trata de la primera letra del alfabeto hebreo; aleph . Detrás de este símbolo está el concepto más abismal de toda la matemática: el infinito, y un hombre: Georg Cantor. Los números grandes nos abruman: el número de estrellas en el universo, la cantidad de granos de arena de todas las playas, el número de mentiras que nos cuentan los políticos, el número de partículas elementales del universo... sin embargo todos estos números son finitos. Alexander Grothendieck decía que muchas de sus grandes ideas eran en realidad cosas muy sencillas; ramplonas incluso. Esas, cuando funcionan, son las grandes ideas que abren nuevos caminos. Georg Cantor tuvo una idea de este estilo, idea que he visto con mis propios ojos emplear a un niño de menos de un año. Si un niño que no sabe contar tiene que elegir entre dos conjuntos de caramelos o de pequeños juguetes, es muy probable que comience a emparejarlos hasta que sobren los de una clase cuando están ocupados todos los de la otra. De esta forma, sabe qué conjunto es el mayor, y se lo queda. Cantor tuvo la idea de hacer lo mismo para comparar el tamaño (la potencia) de conjuntos infinitos. Si se podían poner relación uno-uno, es que eran del mismo tamaño. La cosa no parece muy revolucionaria, pero debéis pensar que a priori, parecería que dos conjuntos, por el hecho de ser infinitos, van a ser igual de grandes . Plantear siquiera el método de Cantor supone no aceptar esta intuición. Uno de los primeros resultados de este método de conteo es que un conjunto infinito puede ponerse en relación uno-uno (biunívoca) con una parte de sí mismo. En efecto, tomemos el conjunto N de los naturales, y el conjunto M de los múltiplos de un millón. Es del todo evidente que a cada natural le corresponde un número de millones igual al valor de dicho natural, luego ambos son de mismo tamaño. De hecho, esta será a partir de ahora la caracterización de un conjunto infinito: un conjunto es infinito si y solo si puede establecerse una aplicación biunívoca entre él y un subconjunto de sí mismo. Si esto les parece extraño, agárrense, porque lo peor está por llegar. El resultado anterior en el fondo nos tranquiliza. Si N es del mismo tamaño que M, parece apoyar la idea de que dos conjuntos, siendo infinitos ambos, son del mismo tamaño, aunque M tenga un elemento por cada millón de elementos de N. Pero Cantor demostró que hay infinitos más insondables que el conjunto de todos los infinitos números enteros. Demostró que el conjunto de los números reales R es tan grande que su potencia es incomparable con la de N. No se puede numerar el conjunto R. De hecho, un minúsculo intervalo de R [0,e], donde e es positivo tan pequeño como queramos tiene un número insondablemente mayor de elementos que el infinito, inacabable, abrumador, inmenso conjunto N. La demostración por el método diagonal original de Cantor la podeis encontrar sin dificultad en la red; por ejemplo aquí. pero una bonita demostración alternativa la teneis aquí. La intuición se nos rompe cuando nos enteramos con Cantor de que el conjunto de los racionales, a pesar de ser tan denso, es de igual tamaño que N , y por lo tanto numerable; al igual que el conjunto de los números algebraicos de los que hemos hablado en otro post. El monstruoso tamaño de R se debe pues a los irracionales trascendentes ( no algebraicos). El infinito de toda la vida es una mierdecilla al lado de este nuevo infinito, como podéis ver. Cantor había demostrado que hay infinitos e infinitos. Puesto que unos eran mayores que otros, se podían ordenar. Llamó Aleph-cero a la potencia de N y Aleph-uno a la potencia de R . Conjeturó además que entre ambos no había ningún numero transinfinito. (Hipótesis del continuo). Si no han notado aún un escalofrío en la espalda al enfrentarse con Aleph-uno lean lo que sigue. Cantor demostró que podía ponerse en relación biunívoca el conjunto de los puntos de una recta y el conjunto de los punto de todo el plano. “Lo veo y no lo creo” exclamó. Había demostrado que la potencia de R era idéntica a la de RxR , lo cual nos indicaba ciertamente que el espacio tridimensional euclídeo tenía la misma potencia. Esto es alucinante, y si no se sorprenden, es porque ya lo sabían, o porque no lo han entendido. Dado que es muy fácil comprobar que un insignificante segmento tiene tantos puntos como la recta entera, resulta que el número de puntos de un segmentillo es igual al número de puntos del universo entero, considerado este como un espacio infinito tridimensional (o tetradimensional, no importa!!!). ¿Comprenden ahora la inmensidad de Aleph-uno ? Parece ahora que nada pueda ser estrictamente mayor... pues bien: existe Aleph-dos; y hace que Aleph-uno palidezca como una damisela avergonzada. La jerarquía de monstruos transinfinitos es a su vez infinita. Cantor intentó concebir el infinito de todos los infinitos, pero su mente se quebró. Yo no creo que fuera por esto, sino que el pobre andaba con muchos problemas mentales, pero la leyenda alimenta la idea de que se acercó demasiado a la verdad, como una polilla a la luz, y se quemó. Una bonita leyenda, sin más. Cantor murió loco, escribiendo tratados religiosos y sin ser reconocido por la comunidad matemática. Hoy es uno de los pilares de la matemática moderna, hasta el punto que Hilbert exclamó en una ocasión: “Nadie nos expulsará del paraíso que Cantor ha creado para nosotros” pero esa es otra historia que me da para otro post. Si ustedes quieren, claro está.  Una constante en este blog será la insistencia en que la intuición por sí sola no es una buena guía en matemáticas. Afortunadamente, tenemos una herramienta que nos sirve de brújula: el razonamiento riguroso. Lo que sigue es una muestra de los errores de la intuición, que son siempre debidos a dar por sentado cosas que no son ciertas; quizás porque tenemos una tendencia mental a extrapolar nuestras vivencias diarias a lugares en los que las cosas son ligeramente más complicadas. Miren ustedes la figura 1. Tenemos una recta que une los puntos A y B, cuya longitud es raíz de 2, en virtud del teorema de Pitágoras. Imaginen una banda de espesor e centrada en la recta AB. Consideremos todos los posibles caminos de A a B, completamente en el interior de la banda, que no tengan retrocesos. Unos serán más largos que otros, y el camino recto será, lógicamente el más corto. El que aparece en rojo en la figura es uno de los posibles. Razonemos con “sentido común”: Si vamos disminuyendo el espesor e de la banda, vamos obteniendo caminos cada vez más cercanos a la recta. Si el espesor de la banda tiende a cero, los caminos tenderán a la recta, y la longitud de los mismos tenderá a raíz de 2. Podemos entonces enunciar la siguiente conjetura: La longitud del camino más largo de A a B en el interior de una banda de espesor e centrada en la recta AB tiende a la longitud AB cuando el espesor de la banda tiende a cero. ¿Existe algo más lógico, coherente con nuestra experiencia cotidiana y racionalmente satisfactorio? Pues bien, todo es mentira. Lo anterior es una llamada a la buena voluntad y al sentido común del futuro creyente en la conjetura, no una demostración. Y en matemáticas esto no sirve. De hecho, existen caminos de longitud exactamente 2, mucho mayor que la distancia AB para cualquier espesor de la banda. Esto parece una afirmación extraordinaria, y en parte lo es pues parece contradecir el sentido común. Afirmaciones extraordinarias requieren pruebas extraordinarias . ¿Con qué tipo de prueba podría un matemático avalar esta afirmación? Demostrar la falsedad de una conjetura admite dos estrategias: demostrar desde la generalidad que si fuera cierta, se caería en una contradicción (reducción al absurdo) o poner un contraejemplo. Haremos lo segundo. Fíjense en la figura 2. Tenemos una camino de A a B que va en horizontal hasta el origen y sube verticalmente hasta B, de longitud 2. Podemos complicar este camino añadiendo escalones intermedios, como se ve en color rojo , verde y blanco. Si repetimos este proceso, obtenemos caminos de A a B, todos ellos de la misma longitud 2. Por pequeño que sea el espesor de la banda, siempre podremos hacer que todo el camino esté dentro de ella. En el límite, a pesar de tener un camino infinitamente próximo a la recta AB, no es cierto que este camino comparta las propiedades de la recta: sigue siendo de longitud 2. Es una “curva” con infinitos puntos de no derivabilidad que nada tiene que ver con una recta, a pesar de su infinita proximidad. La existencia de estas funciones "patológicas" tiene un puesto de honor en la historia de la matemática, y da paso al tópico por excelencia de la última década en matemáticas: los fractales. _________________________________________________________________________________________________ El estudio de las funciones entre dos puntos dados que cumplen determinadas propiedades dio paso a la revolucionaria idea de espacios matemáticos en los que sus “puntos” no son los puntos del espacio, sino las propias funciones. Así nació el cálculo funcional, en el que se manejan espacios de infinitas dimensiones, fecundo campo de investigación matemático a lo largo de todo el siglo XX, cuyo origen podemos datar en los mismos nacimientos del análisis. Banach y Hilbert sentaron las bases modernas de los espacios normados y métricos generales, y hoy en día plantean multitud de problemas analíticos y sobre todo topológicos pendientes de resolver.  Una de las formas más inconvenientes de buscar información fidedigna es buscarlo en internet. En otra historia comentábamos que dado que en el desarrollo decimal de pi está TODO, es lo mismo que decir que no hay nada. Nuestra querida web, en la que tantas horas metemos pone a nuestra disposición una parte importante de totalidad del saber humano, así como una gran parte de la imbecilidad humana. Al faltar un criterio de decisión fidedigno, estamos perdidos. Me gustaría poder decir que lo que ustedes lean aquí es básicamente correcto y honradamente escrito, pero al fin y al cabo, ustedes me encontraron en la calle. No se crean nada de lo que pone aquí, ni en ningún otro ciberlugar. Al menos, mantengan activa la hipótesis nula de que la web no es un buen lugar para buscar la verdad, sobre todo si no saben quién la ha escrito. Estaría bien recordar que hace muy pocos años; allá por la prehistoria, los escritos no firmados eran simplemente ignorados... Todo esto viene a cuento de una frase que leí una vez en mi impulsivo navegar, y no he sido capaz de contrastar, ni de volver a encontrar. Esta frase me da pie a un artículo para el blog, así que lo contaré igual. No importa que sea cierta o no porque mil veces ocurren anumerismos similares, y lo importante es la reflexión subsiguiente, no la veracidad de la anécdota. Por lo tanto no mencionaré el país, ni el presidente concreto al que se atribuía la frase, que era más o menos esta: El presidente se ha mostrado muy consternado al comprobar el resultado de una estadística fiable, según la cual la mitad de los ciudadanos tiene una inteligencia por debajo de la media. No soy capaz de recordar si era inteligencia, nivel cultural u otra cosa similar, en todo caso era una cualidad positiva la que se estaba midiendo. El resto de la noticia era una mofa hacia el compungido presidente, que se podía resumir así: ¡Qué burro el presidente, no sabe que por definición de la media, eso debe ocurrir necesariamente! Es una confusión muy común. Además socialmente es muy excusable. Hoy en día es incluso de buen tono exhibir ignorancia en cuestión de números, y no digamos de estadísticas. En sin embargo ahí donde nos engañan todos los días. El anumerismo (de los demás, claro está) es una de las mejores herramientas de manipulación. En el caso que nos ocupa, a mi no me queda claro que la estulticia presidencial estuviera por encima de la media, ni que la del comentarista estuviera por debajo. Para empezar, debiera comentar que la intuición no es una herramienta de fiar en matemáticas. Es tan importante como la inspiración en los poetas, pero no más. No creo que con inspiración se pueda componer una gran obra, sino con mucho trabajo y sudor. Posiblemente el presidente caía en un error, pero el comentarista caía en otro con total certeza. Vamos a explicarlo. Debido a una cosa muy interesante y muy profunda de la que me gustaría hablar otro día y que se llama el Teorema central del límite , estamos acostumbrados a las distribuciones simétricas, como la de la figura A. En ellas coincide la media ( que todo el mundo sabe lo que es), la moda (que es el valor con mayor frecuencia observado) y la mediana, que es el valor que deja tantas observaciones por arriba como por debajo. Si la distribución no es simétrica, tenemos situaciones como la de la figura B. La media está desplazada respecto a las demás medidas centrales, y es claro que en este segundo caso más de la mitad de la población está por debajo de la media. Siempre será la mediana, por su propia definición la que estará centrada respecto al número de observaciones a ambos lados, no la media. ¿Tenía nuestro hipotético presidente motivos de pesar? Pues según se mire, sí. Si la distribución hubiera sido asimétrica en sentido contrario a la de la figura B, más de la mitad de la población hubiera tenido una inteligencia, cultura o educación superior a la media, puesto que la mediana sería de valor superior a la media. Esto supone un desplazamiento de la masa total hacia valores más altos, y es claramente positivo para la población, si el parámetro que se mide es una cualidad positiva para la misma. Eso no se producía, pues la noticia implicaba una distribución simétrica. ¿Se refería a eso el presidente? Lo dudo. ¿Tenía motivos de mofa el comentarista? Pues realmente, si los tenía no era por lo que él creía...  Los matemáticos se parecen a los niños en muchos aspectos. No hay nada que impulse tanto al trabajo como una pregunta sin responder. ¿Y eso porqué? parece ser la pregunta preferida. Algo así es lo que debió sentir el bueno de Simon Newcomb allá por 1.881 cuando observando distraídamente su libro de tablas de logaritmos, se dio cuenta de que estaba mucho más desgastada por las primeras páginas que por las últimas. Newcomb era astrónomo y matemático, y por aquella época, las tablas de logaritmos eran el libro de cabecera de cualquier manipulador de cifras que se preciara. El desgaste diferencial del libro sólo podía tener una explicación: a lo largo de los años había consultado mucho más el logaritmo de los números que comenzaban por 1 que de los que comenzaban por números más altos. Aquello parecía una hipótesis extraña: ¿porqué iban a ser más abundantes los números cuya primera cifra es 1, ó 2 que aquellos que empezaban por 8 ´0 9? Nuestro astrónomo no pudo dar con razón alguna: sus números provenían de la observación de los astros principalmente: eran números sacados del espacio físico, y no debían tener ningún sesgo en su primera cifra. Se limitó a constatar que “la ley de probabilidad de ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables”. El asunto no avanzó mucho hasta 1.938; año en el que el físico Frank Benford estudió 20.229 números provenientes de 20 muestras variopintas: constantes y magnitudes físicas, longitudes de ríos, direcciones de personas... incluso cifras sacadas de portadas de revistas. A partir de los datos extraídos del mundo real, postuló la llamada “ley de los números anómalos de Benford”expresable por la fórmula que abre este artículo. Podemos ver en una gráfica las probabilidades de ocurrencia de cada dígito en primera posición, y veremos que la unidad ocurre casi un tercio de las ocasiones, y el 9 no llega al 5%.  Los números obtenidos del mundo real suelen ser dimensionales: podemos estar hablando de la renta per cápita de los nepalíes medida en rublos, de la superficie de los cráteres lunares en pies cuadrados o de la edad de los árboles de un bosque en quincenas. Si la distribución de Beford aparece en todas ellas, es evidente que debe ser invariante por cambio de escala. Si multiplicamos todos los datos por una constante, no se modifica la ley de aparición de la primera cifra. Por eso, son indiferentes las unidades de medida utilizadas. Esto es menos trivial de lo que parece: si multiplicamos por dos, todos los unos de primera cifra, que serán el 30% se nos van al garete; pero la cosa se compensa pues los cincos, seises, sietes, ochos y nueves...¡se convierten en unos! Está claro que no siempre aparece esta ley: si tomamos los teléfonos de una provincia, no la encontraremos; y si medimos la longitud de las calles de una ciudad racionalmente urbanizada de cabo a rabo, tampoco: es donde más azar existe donde más fácil la encontramos. ¿Porqué funciona la ley de Benford en el mundo real¿Se me ocurre un ejemplo para ver una explicación, sacado de la vida real: Supongamos que en correos hacen una estadística sobre los números de portal de los destinatarios de las cartas a nivel nacional. Si todas las calles tuvieran 99 portales, 11 de ellos empiezan por 1 ( el portal 1 y los portales del 11 al 19) lo mismo podríamos decir de todos los demás números. Pero es que las calles tienen cada una un número de portales distinto; si la calle tuviera 19 portales, de ellos 11 empiezan por 1!!! Vemos pues que salvo calles excepcionales de 9, 99, 999 portales, todas las demás favorecen los primeros dígitos pequeños, algunas extraordinariamente. Por ello, el fenómeno observado tiene su origen en la contribución de todos los casos posibles... y es la ley logarítmica de Benford. En una ciudad artificial, que se hubiera construído racionalmente, con calles idénticas de 99 portales esto no ocurriría, pero la realidad es más compleja, y esta complejidad favorece a la ley de Benford. Hay otro motivo matemático, pero es de bastante alto nivel. Sucede que la distribución de tiene una propiedad curiosísima: si un determinado fenómeno tiene n causas aleatorias y una de ellas sigue la distribución de Benford, la general también. La distribución de Benford es una especie de distribución que contamina a las demás. Así pues, cuanto más batiburrillo haya en la generación del fenómeno y más complejo e intratable sea, más fácil es que aparezca el 1 en primer lugar de los resultados obtenidos. De hecho, existe una técnica de detección de fraude en declaraciones de renta basada en esto: si donde debiera aparecer Benford no aparece es un síntoma (que no una demostración categórica) de que los datos han sido amañados. Para saber más podeis consultar aquíen castellano y aquí en inglés.  Un número trascendente es un número real que no es raíz de ningún polinomio. Los que sí lo son se denominan algebraicos, y pueden ser tanto racionales como irracionales. Es curioso que siendo tan grande el número de polinomios posibles (de cualquier grado), casi todos los reales son trascendentes. Esta último frase parece vaga y fuera del rigor matemático (“ casi todos”), pero no lo es en absoluto. Cuando decimos que “ casi todos” los reales cumplen una propiedad, cuando decimos que una propiedad se cumple casi por doquier, o cuando decimos que un suceso se producirá casi seguro estamos afirmando que tal cosa se cumple, o se produce para todo número, en todo punto o en todo caso excepto en un conjunto de medida cero. Y es que una vez más, la teoría de la medida está detrás de este asunto. El motivo por el que casi todo número real es trascendente es que el conjunto de todos los polinomios es numerable, y como cada polinomio tiene una cantidad numerable de raíces, el conjunto de éstas también lo es. Dado que el conjunto de los reales NO es numerable, la potencia de los trascendentes es mayor, y de hecho, copa toda la medida de R. Los algebraicos son humo fractal dentro de los reales. Nuestro protagonista, pi; además de trascendente parece ser que es normal, lo que quiere decir que en su expansión decimal, los diez dígitos aparecen con igual frecuencia. Esto es una conjetura pendiente de demostrar. Demostrar la normalidad de un número no es cuestión sencilla. No obstante, el número de decimales conocido demuestra que la truncación de pi a esos decimales es normal. La verdadera sorpresa sería la demostración futura de la no normalidad de pi. Pues bien; toda esta introducción viene a propósito de la existencia de mensajes en el interior de pi. Que yo sepa, la popularización de esta idea viene de la novela CONTACT, de Carl Sagan, pasada al cine con relativo éxito con la cara amable de Jodie Foster. Actualmente existe gente buscando mensajes extraterrestres en el interior de pi, o incluso mensajes de Dios.Lo curioso es que estos mensajes realmente existen dentro de pi. Vamos a explicar porqué. Admitamos la conjetura de normalidad en pi. La infinita ristra de dígitos de la expansión decimal es aleatoria, en el sentido de que tiene las mismas propiedades que una ristra conseguida al azar. Imaginemos que estamos buscando una secuencia concreta de n dígitos en pi. Tomada una secuencia cualquiera de n dígitos, la probabilidad de que coincida con la que buscamos es de una entre 10 elevado a n. Probabilidad pequeña para n grande, pero mayor que cero. Es muy fácil demostrar que un suceso de probabilidad mayor que cero llega a producirse si se efectúan suficientes pruebas, de hecho, se produce infinitas veces si las pruebas son infinitas . Así pues, podemos asegurar que tal secuencia existe realmente en algún sitio dentro de pi. Lo extraordinario sería que no existiera, suponiendo la normalidad de pi. Así pues, la codificación completa de “ Lo que el viento se llevó” en estéreo y en idioma bantú está dentro de pi, además está infinitas veces, incluso con finales espurios en los que los protagonistas se quedan juntos. También está el número de la lotería de la semana que viene, la historia universal del siglo XXII, y este mismo artículo que estoy escribiendo ahora. Así como todas las historias, novelas y poemas producidos por la humanidad, que no son sino ristras de n dígitos en algún código. El gran Kolmogorov postuló como definición de complejidad de un objeto matemático la longitud de mínimo algoritmo necesario para producirlo. Pi puede generarse con programas muy cortitos, luego encierra muy poca complejidad, y por tanto poca información. ¿Cómo podemos conjugar ambas visiones tan contrapuestas en apariencia.? Se me ocurre una forma muy sencilla de verlo. Hace poco ví en la red un archivo con el primer millón de cifras de pi. Busqué en su interior mi número de teléfono(sin prefijo) usando Edición/buscar con el word de Microsoft, y ¡allí estaba! Puedo dar mi teléfono de dos formas: comunicando las seis cifras del mismo, o diciendo el puesto del primer dígito del mismo en el desarrollo de pi. Pero para ambas cosas necesito el mismo número de cifras, puesto que mi teléfono se encontraba hacia la mitad del primer millón de dígitos, luego no ahorro información. La codificación de la película mencionada más arriba comenzará en un puesto tal que necesitaré aproximadamente la misma cantidad de dígitos para decirlo que para tener la película codificada por otro medio. Ahora es más fácil comprender que pi no encierra mucha información. Al estar TODO en pi, no hay nada en pi. Decididamente, pi es fascinante, pero no es en la posible existencia de mensajes ocultos donde reside la fascinación. Lo preocupante es que algún día alguien encontrará el puesto en el que comienza alguna codificación de la frase “Yo soy el camino, la verdad y la vida” en hebreo, y entonces, a ver quien es el guapo que consigue convencer a la gente que nosotros ya sabíamos que esa frase estaba dentro de pi, pero que no significa nada.  Para un servidor una de las mayores incógnitas del concepto de entropía es el motivo por el que tantas veces se emplea como comodín para las más peregrinas explicaciones. El concepto tiene un feeling indiscutible, pero lo malo es que transciende al mundo coloquial sin rigor alguno. Es de “buen tono” introducir la palabra entropía, aunque no se sepa muy bien a qué nos estamos refiriendo. Así, pude oír hace algunos años al escritor Fernando Sánchez Dragó manifestarse contra las corridas de toros porque añadían sufrimiento a la entropía del universo. El concepto al que hacía referencia de forma inadecuada, pueril y sin rubor alguno era evidentemente el concepto físico. En este ámbito, si un tertuliano quiere destacar no tiene más que unir el vocablo ciertamente eufónico de entropía al vocablo universo para obtener ...una frase redonda sin sentido alguno. (Me temo que este comentario es un poco off topic en Tio Petros). Tenemos también el concepto de entropía en la Teoría de la información de Claude E. Shannon. Es una extrapolación del concepto a otro ámbito, y tampoco de esta entropía queremos hablar ahora. Cuando Shannon publicó sus trabajos hacia 1.948, a los matemáticos en general les pareció algo excesivamente orientado a la tecnología como para tener interés en matemática pura. El gran Andrei Nikolaievich Kolmogorov fué la excepción, escribiendo en una ocasión: “La importancia del trabajo de Shannon para los matemáticos puros no fue totalmente apreciada desde el comienzo. Recuerdo cuando, en el Congreso Internacional de Matemáticos celebrado en Ámsterdam en 1.954, mis colegas norteamericanos, especialistas en probabilidades, creían que mi interés por los trabajos de Shannon eran algo exagerado ya que esto era más tecnología que matemática. Ahora, tales opiniones ni siquiera necesitan ser refutadas” De esta forma, y dada la inmensa y merecida reputación de Kolmogorov, le fue posible extender las nociones de Shannon a la matemática más abstracta. Concretamente estableció la definición de entropía en el interior de un conjunto. Dado un conjunto, es necesario utilizar cierta cantidad de información para delimitar sin ambigüedad cualquiera de sus subconjuntos propios. Kolmogorov entendió que aquí era donde podía entrar el concepto de entropía. Definió la entropía de un subconjunto en función del hecho anterior, y la llamó e-entropía. (Léase épsilon-entropía). Si C es un conjunto finito, podemos expresar por enumeración la lista de sus subconjuntos. A cada subconjunto le corresponderá simplemente su número de orden en la lista. El tamaño de la lista es de 2 elevado a N subconjuntos. Lo que expresado en sistema binario nos ocupa precisamente N bits. (Otra forma de verlo es teniendo en cuenta que podemos hacer corresponder un bit a cada posible elemento de los N en C , y para un subconjunto concreto, el j-ésimo bit vale 1 si está presente en el subconjunto, y 0 en caso contrario). Kolmorogov definió la entropía de un subconjunto como H(C)= log (N) donde el logaritmo está en base 2. Para conjuntos no numerables su táctica fue el uso de e-recubrimientos de radio e (épsilon) arbitrario. La epsilon-entropía del subconjunto era al igual que en el caso numerable, el logaritmo en base 2 del número de elementos del e-recubrimiento mínimo para cubrir totalmente al conjunto. Un e-recubrimiento del conjunto C es un recubrimiento por conjuntos de diámetro menor o igual a 2e. En el caso se un segmento de recta, el número de elementos de un e-recubrimiento es precisamente (L/2e), de donde su e-entropía será: H(C)=log (L/2e) , fórmula que adorna la foto que encabeza este artículo, en la que aparece el gran Kolmogorov, de quien nos ocuparemos en un artículo futuro. De esta manera, Kolmogorov hecha un puente entre la teoría de la información y la abstracta teoría de conjuntos.  Las paradojas no existen. Existen resultados que nos parecen paradójicos por que habíamos supuesto erróneamente que el resultado iba a ser otro. Y es que a partir de cierta hondura matemática, la intuición suele ser mala consejera. La llamada paradoja de Tarski-Banach dice la siguiente barbaridad: “Es posible partir una esfera maciza en seis trozos disjuntos de forma que recomponiéndolos mediante movimientos rígidos obtengamos dos esferas macizas de las mismas dimensiones que la original”.Este enunciado y su demostración fue presentado en 1.924 por los matemáticos Alfred Tarski y Stephan Banach. En 1.944 el número de piezas fue reducido a cinco por R.M.Robinson, y en la actualidad bastan cuatro a condición de olvidarse tan sólo del punto central de las esferas. ¿Dónde está el truco? Bueno, en realidad las demostraciones son rigurosas y habría que decir que no hay truco; sin embargo el asunto va contra todas las intuiciones que uno pueda tener. Para empezar, si las esferas son materiales, y no ideales, estamos ante una violación del principio de conservación de la materia. Dado que no es probable que el proceso de partición implique reacciones nucleares, la materia debería conservarse... Olvidémonos por un momento de esferas materiales y pensemos tan solo en subconjuntos del espacio ordinario tridimensional en forma de esfera. Aunque no lo mencionemos, estamos en terrenos de la Teoría de la medida. Todo el mundo tiene nociones intuitivas de lo que es una medida: es un número asociado a un objeto que indica la cuantización de alguna de sus propiedades; el volumen en este caso. Toda medida que se precie debe tener tres propiedades de “sentido común”, sin entrar en los formalismos de la Teoría de la medida: 1.- No puede ser negativa. 3.- Debe ser invariante por movimientos rígidos. 2.- Debe ser aditiva. (Esto quiere decir que la medida de la unión de varios objetos sin partes comunes debe ser igual a la suma de las medidas de los objetos por searado). Siendo así, parece una aberración la afirmación de Tarski y Banach. ¿Hay una explicación satisfactoria de este resultado? Bueno, la buena noticia es que hay explicación, y la mala es que no es satisfactoria (al menos para un humilde servidor). La culpa la tiene el axioma de elección, que dice la "obviedad" siguiente: Si tenemos una colección A de conjuntos no vacíos, es posible formar un conjunto tomando exactamente un elemento de cada uno de los conjuntos que forman la colección A.Pues bien, utilizando dicho axioma, cuya consistencia con la Teoría de Conjuntos ha sido probada, es posible demostrar que existen subconjuntos no medibles en la recta R, en el plano y por extensión en el espacio tridimensional. Pero entiendanme bien, por favor: “ no medible no quiere decir de medida cero, como un punto: no medible quiere decir que no se le puede asociar ningún valor a la medida. Además, la demostración de esto último es constructiva: se construye un subconjunto que no puede tener por su propia construcción ninguna medida asociada. Esto se hace utilizando el axioma de elección. Ahora podemos comprender que si podemos partir una esfera en trozos no medibles, la aditividad de la medida de volumen se nos va al traste. ¿Porqué tendrían que cumplirla unos trozos que nada saben de medidas? Lo que consiguen Tarski y Banach sobre el papel y en teoría es trocear una esfera de forma que los trozos no son medibles. Esto no deja de ser un experimento mental, desgraciadamente: las formas deben ser irrealizablemente complejas para ser no medibles; algo tan imposible de realizar en la práctica como esculpir un conjunto realmente fractal... En este direcciónteneis un maravilloso libro de texto sobre Teoría de Conjuntos y lógica matemática. Allá se habla con extensión y enorme rigor de los axiomas de la teoría de conjuntos y sus aplicaciones. Es gratis bajarlo, pero no sale gratis comprenderlo. Si bien no es necesario ningún conocimiento previo, requiere un gran esfuerzo... pero algunos pensamos que merece la pena. Sobre la paradoja de Tarski-Banach no he encontrado en la red nada interesante, más allá de cuatro tópicos. Si algún lector sabe alguna dirección complementaria a lo que aquí se ha dicho, sería de agradecer que la expusiera en los comentarios.  Uno de los problemas básicos en matemática es el de optimización. Encontrar el punto en el que una determinada función alcanza el máximo (maximización) o el mínimo (minimización). Es tan obvio el interés de las técnicas de optimización que no vale la pena insistir en ello. Sin embargo, el problema es muy general, y no admite un tratamiento global. Para empezar, “el punto” que se quiere encontrar puede ser cualquier cosa, dependiendo del problema. Los alumnos de bachiller hallan puntos en los que una función real de variable real tiene un extremo, pero la vida real es mucho más diversa. Vamos a hablar de un problema concreto que es un paradigma de complejidad computacional: el Problema del Agente Viajero, conocido en computación como el problema STP, por sus siglas en inglés. Un agente debe recorren n ciudades, y entre los posibles recorridos, debe elegir el más corto que pase por todas ellas para volver a la primera. Se conoce la matriz de distancias cruzadas entre las n ciudades, obviamente. Es muy fácil hacer un programa que de con la solución óptima: existen n! recorridos, y si no es importante la ciudad de comienzo (n-1)! recorridos diferentes. Basta hallar la distancia de todos los caminos posibles y tomar el mínimo. El problema es que la función factorial crece endiabladamente, y con un puñado de ciudades necesitaríamos años de computación para encontrar el camino más corto. Con sesenta ciudades, el número de caminos es comparable al de partículas atómicas del universo, y procesando un billón de ellas al segundo necesitaríamos más tiempo que la edad del cosmos para computarlas todas. No se conocen algoritmos que den la solución en tiempo polinómico (pero esa es otra historia que contaremos más adelante). Es evidente que necesitamos atajos. Afortunadamente, estos existen, y sin bien no necesariamente nos proporcionan el óptimo, nos devuelven soluciones cercanas en tiempos aceptables. Vamos a hablar de uno de ellos, vistoso a más no poder, y de buenos resultados. Está inspirado en la naturaleza debido a la obviedad de que la evolución biológica lleva miles de millones de años ensayando estrategias para solucionar problemas (perdónenme los lectores la personalización de la evolución como algo capaz de tener intenciones y deseos de solucionar cosas, nada más lejos de mi intención; es sólo una metáfora). Aquí es donde entran las hormigas. Cuando estos himenópteros van de un lugar a otro, podemos comprobar que siguen caminos muy cercanos al óptimo. Si un obstáculo impide el paso normal, tras ciertos titubeos iniciales se termina por rodear el obstáculo por el camino más corto. ¿Cómo lo consiguen? La respuesta es decepcionante de puro simple. No hay inteligencia alguna tras esto: las hormigas siguen el camino de sus predecesoras porque huelen las feromonas que éstas van depositando a su paso. Ante una bifurcación, tienden a elegir el camino de más olor a hormiga. Entre varios caminos alternativos el más corto o más fácil estará más transitado por ser necesario menos tiempo en recorrerlo, y por ello, la exploración de los otros más penosos es un fenómeno transitorio: cada vez más hormigas tenderán a recorrer el más transitado, creando una realimentación positiva que solo cesará cuando los demás caminos sean olvidados. Además, las feromonas son volátiles: en cierto tiempo no quedará rastro de otro camino que el óptimo. ¿Cómo funciona un algoritmo de búsqueda basado en hormigas? Pues se ponen cierto número de “hormigas” a recorrer caminos entre las ciudades. Cada hormiga desde una ciudad elige la próxima de forma probabilística (las ya visitadas están excluidas de la búsqueda en cada ciclo) en función de la distancia entre sus vecinas, premiando las más cercanas ( es evidente que el recorrido óptimo no irá saltando entre ciudades lejanas unas de otras, pero no es claro que debo elegir siempre la más cercana, no mucho menos) y en función de la cantidad de feromona que hay entre ambas ciudades, premiando las rutas más olorosas. El programador debe ejustar la importancia relativa de estos dos aspectos con sendos parámetros. El nivel de olor no es sino un valor asociado a cada par de ciudades, que se ve incrementado cada vez que es elegido por una hormiga, y se ve decrementado en cierto porcentaje para simular la volatilidad. En cada ciclo computacional las hormigas avanzan un paso, y al cabo de n ciclos similares, cada hormiga ha regresado a la ciudad de la que partió. Y vuelta a empezar. Se irán consolidado rutas, se irán olvidando otras, y al final; tras un criterio de parada establecido tendremos una buena aproximación al recorrido mínimo. El criterio de parada puede ser que se llegue al número máximo definido de ciclos completos, o que todas las hormigas sigan el mismo camino. En este último caso queda claro que no vale la pena continuar: la convergencia del algoritmo es clara. Ni siquiera en este caso tenemos asegurado que el recorrido obtenido será el óptimo, pero habremos obtenido una buena aproximación en un tiempo razonable. Este tipo de técnicas nació con la tesis doctoral de Marco Dorigo en 1992 ( Ant colony system). Actualmente existe toda una batería de métodos basados en esta idea, que difieren en la forma de actualizar el nivel de feromonas en cada tramo, principalmente. Dado que cada hormiga actúa con independencia (relativa) de las demás, se trata de computación en paralelo, y existen varias formas de paralelización; síncrona y parcialmente asíncrona. Teneis una buena introducción a estos métodos en esta dirección Es bastante habitual encontrarse con reseñas científicas en las que se explica que se acaba de encontrar el mayor número primo conocido. Se suele tratar de un número expresable como una enorme potencia de dos menos una unidad. ¿Es que todos los primos grandes son de esta forma? Vamos a comentar por encima la fascinante historia de los primos de Mersenne y su asociación con los números perfectos. Un primo de Mersenne es un número primo expresable de la forma arriba citada. Ni todos los primos tienen esa forma ni todos los números de esta forma son primos. ¿Qué importancia tienen entonces son primos de Mersenne? Pues matemáticamente son los protagonistas de una apasionante historia que se mezcla con la de los llamados números perfectos . Pasamos a reseñarla. Un número se denomina perfecto cuando es igual a la suma de sus divisores propios (exceptuando al propio número, que también es divisor de sí mismo). Así, el 28 es perfecto, pues sus divisores propios son 1,2,4,7 y 14; y suman precisamente 28 Después del 28, no aparece ningún número perfecto hasta el 496, el cuarto número perfecto es el 8.128, el quinto perfecto es 33.550.336. Se observa que cada número perfecto es mucho mayor que el anterior.El problema de encontrar estos números fue propuesto por Mersenne en una carta a Descartes. La conexión entre los primos de Mersenne y los números perfectos era conocida desde muy antiguo: Euclides descubrió la fórmula para obtener números perfectos. Se trata de la fórmula que encabeza este artículo. Así pues, el número encerrado entre paréntesis es un primo de Mersenne. Encontrado uno de estos, tenemos irremisiblemente un nuevo número perfecto. Euclides demostró que todos los números proporcionados por esta fórmula eran perfectos si el paréntesis era un primo de Mersenne, pero no se sabía si había números perfectos de otra índole. Dicho de otra manera: no se sabía si podían existir números perfectos que obedecieran a “otras fórmulas”. Esta situación cambió con Euler , que demostró que un número par es perfecto si Y SOLO SI se puede expresar de esta forma, con el paréntesis primo. Una condición suficiente y necesaria es lo más que puede pedir un matemático: es una caracterización. Así pues, en esta fórmula se encontraba todo el misterio de los perfectos, y de los primos de Mersenne. Todo el misterio? Todo no, ni mucho menos. Euler demostró la caracterización de todos los números perfectos pares; pero no pudo conseguir ninguna caracterización de los números perfectos impares. Hoy no se conoce ningún número perfecto impar, pero nadie ha demostrado que no existan. De hecho, se sabe que en caso de existir debieran cumplir ciertas propiedades; propiedades que en todo caso son insuficientes para encontrarlos. Tampoco se sabe si el número de primos de Mersenne es finito o infinito , y por lo tanto el de números perfectos. A la fecha de hoy el mayor primo de Mersenne conocido es dos elevado a 13466917 menos 1. Haría falta un grueso libro para escribirlo, pues tiene 4053946 cifras, y el perfecto asociado tiene 8107892 cifras.Hace falta un volumen de más de dos mil páginas para escribir este último número, a cincuenta renglones por página y 80 dígitos por renglón. La forma utilizada hoy en día para encontrar primos de Mersenne y perfectos es el llamado teste de Lucas- Lehmer que dice que para p impar, el número de Mersenne asociado es primo (es un primo de Mersenne) si y solo si divide a S(p-1), siendo S una función definida recursivamente como sigue: S(n+1) = S(n).S(n) -2, S(1) = 4. Existe un plan para encontrar primos de Mersenne mediante computación distribuida por PC’s particulares, al igual que el proyecto SETI . (The Great Internet Mersenne Prime Search GIMPS) La dirección del proyecto es esta. Y una página muy interesante sobre dichos números está aquí.
|