Criptografía (CCLXVII): Criptoanálisis mediante análisis de frecuencias (II)

Decía en el post anterior que iba a poner más información sobre el criptoanálisis mediante el análisis de frecuencias y que éste consiste, básicamente, en estudiar la frecuencia de aparición en el criptograma de caracteres o símbolos y de grupos de ellos (monogramas: un carácter o símbolo; bigramas o digramas: dos caracteres o símbolos consecutivos; trigramas: secuencias de tres caracteres o símbolos, tetragramas: cuatro caracteres o símbolos consecutivos, etc.) con relación a la frecuencia de las letras y grupos de éstas en el idioma en el que está escrito el texto en claro.

Pues bien, lógicamente, lo primero que tenemos que saber es la frecuencia de las letras y de grupos de éstas (n-gramas) en los idiomas en los que estén escritos los textos en claro correspondientes a los mensajes cifrados que vayamos a criptoanalizar y, tomando como referencia lo indicado en Wikipedia para la frecuencia de aparición de las letras, construyo la siguiente tabla para el español y el inglés:

Tal y como se observa en la tabla anterior las ocho letras más frecuentes en español acumulan una frecuencia de aparición en un texto del 68,560% (del 63,568% en inglés) y conjuntamente las de frecuencia alta y media del 92,430% (del 85,779% en inglés); mientras que las que he catalogado como "raras" sólo acumulan el 1,000% de las apariciones en español y el 0,472% en inglés.

Además, se puede decir que las vocales ocuparán aproximadamente el 45,070% del texto en español y del 38,100% en inglés; y las consonantes más frecuentes en español ("S", "R", "N", "D", "L" y "C") aparecerán aproximadamente un 37,070%, mientras que las más frecuentes en inglés ("T", "N", "S", "H", "R" y "D") lo harán en un 38,466%.

Por tanto, a la hora de atacar un criptograma cifrado por sustitución simple monoalfabética utilizando la técnica de análisis de frecuencias lo primero que haremos será sustituir la letra que más aparece en él por la "E", la segunda con mayor frecuencia relativa por la "A", si el mensaje original está escrito en español, o por la "T", si el texto en claro está escrito en inglés, la tercera por "O", caso de español, o por "A", caso del inglés, y así sucesivamente, con lo que obtendremos una primera aproximación al texto en claro, pero que, o se tiene muchísima suerte, o "se parecerá como un huevo a una castaña" al mensaje secreto. Esto es debido a que sólo la "E" como primera letra con mayor frecuencia en ambos idiomas y la "A" (caso del español) o "T" (caso del inglés) como segunda letra, respectivamente, suelen coincidir en esta primera aproximación, ya que son las letras significativamente más frecuentes, por lo que deberemos ir depurándola poco a poco, para lo que nos pueden resultar de mucha utilidad las estadísticas en lo que se refiere a las frecuencias de aparición de los grupos o secuencias de letras, tanto en español como en inglés.

Para conocer la frecuencia relativa de aparición en español de los monogramas (letras), bigramas (grupos de dos letras), trigramas (grupos de tres letras) y tetragramas (grupos de cuatro letras) he creado un pequeño script en python cuyo código, junto con los resultados completos obtenidos, pondré en otra entrada.

Como paso previo para obtener lo anteriormente indicado, he creado también un pequeño corpus de diez obras de literatura española para intentar evitar el sesgo en los resultados que creo que se acentuaría mucho si utilizara una sola obra (por la época en la que se escribió, género, su temática, etc.):

- "El ingenioso hidalgo don Quijote de la Mancha", de Miguel de Cervantes Saavedra.

- "El camino" de Miguel Delibes.

- "Fortunata y Jacinta" de Benito Pérez Galdós.

- "La Regenta" de Leopoldo Alas Clarín.

- "Crónica de una muerte anunciada" de Gabriel García Márquez.

- "Cien años de soledad" de Gabriel García Márquez.

- "La familia de Pascual Duarte" de Camilo José Cela.

- "La ciudad y los perros" de Mario Vargas Llosa.

- "La vida de Lazarillo de Tormes" (Anónima).

- "Los pazos de Ulloa" de Emilia Pardo Bazán.

Ya sé que no es un método muy científico, porque para hacer un corpus en condiciones en el que basar esta pequeña investigación necesitaría multitud de textos (literarios, científicos, técnicos, divulgativos, periodísticos,...) de muy diversas épocas, géneros y temáticas, e incluso orígenes (países, zonas, etc.), pero me servirá para hacerme una idea, creo que bastante aproximada, y para automatizar el ataque a criptogramas de mensajes cifrados en español.

Después de haber convertido todos los caracteres a mayúsculas y eliminado: espacios, tildes, diéresis, signos de puntuación e interrogación, comillas, etc., es decir, dejando sólo los 27 caracteres en mayúsculas correspondientes al alfabeto español, sobre un total de casi 7.000.000 de caracteres (en concreto, 6.914.870) el resumen de los resultados obtenidos es el siguiente:

- Frecuencia relativa de monogramas (letras): cantidad y porcentaje:

'A': 924.850 13,37%

'E': 909.399 13,15%

'O': 660.032 9,55%

'S': 505.962 7,32%

'N': 451.977 6,54%

'R': 440.962 6,38%

'I': 416.314 6,02%

'L': 399.456 5,78%

'D': 342.915 4,96%

'U': 311.293 4,50%

'T': 271.981 3,93%

'C': 264.558 3,83%

'M': 194.395 2,81%

'P': 166.894 2,41%

'B': 118.666 1,72%

'Q': 100.211 1,45%

'Y': 82.195 1,19%

'V': 75.183 1,09%

'H': 74.690 1,08%

'G': 73.047 1,06%

'J': 39.459 0,57%

'F': 38.594 0,56%

'Z': 28.314 0,41%

'Ñ': 17.577 0,25%

'X': 5.731 0,08%

'K': 138 0,00%

'W': 77 0,00%

6.914.870

- Frecuencia relativa de los 30 bigramas (grupos de 2 letras) más frecuentes: cantidad y porcentaje:

'ES': 148.107 2,14%

'EN': 146.945 2,13%
'DE': 140.552 2,03%
'EL': 127.476 1,84%

'AS': 124.219 1,80%

'OS': 123.782 1,79%
'UE': 123.603 1,79%
'LA': 121.794 1,76%
'ER': 116.327 1,68%
'RA': 106.707 1,54%
'AN': 100.785 1,46%
'QU': 100.205 1,45%
'ON': 92.699 1,34%
'AR': 91.700 1,33%
'AL': 90.582 1,31%
'AD': 90.221 1,30%
'DO': 83.813 1,21%
'RE': 83.000 1,20%
'SE': 82.618 1,19%

'CO': 76.751 1,11%
'NT': 73.498 1,06%
'TA': 72.733 1,05%
'IA': 68.537 0,99%

'OR': 67.245 0,97%
'TE': 62.664 0,91%

'ST': 62.421 0,90%

'LO': 62.019 0,90%
'AB': 61.349 0,89%
'SA': 58.043 0,84%
'AC': 57.453 0,83%

- Frecuencia relativa de los 30 trigramas (grupos de 3 letras) más frecuentes: cantidad y porcentaje:

'QUE': 85.179 1,23%
'ENT': 36.433 0,53%
'DEL': 33.617 0,49%
'CON': 33.405 0,48%
'ADE': 32.282 0,47%
'EST': 32.113 0,46%
'ABA': 30.232 0,44%
'ELA': 29.744 0,43%
'ODE': 27.521 0,40%
'LOS': 27.149 0,39%
'LAS': 25.454 0,37%
'ERA': 25.203 0,36%
'IEN': 25.085 0,36%
'DES': 24.748 0,36%
'SDE': 24.503 0,35%
'ADO': 24.285 0,35%
'AQU': 24.157 0,35%
'NTE': 23.954 0,35%
'NDO': 23.408 0,34%
'STA': 23.111 0,33%
'OQU': 21.987 0,32%
'ALA': 21.396 0,31%
'AND': 21.177 0,31%
'POR': 20.548 0,30%
'OSE': 20.194 0,29%
'UES': 20.058 0,29%
'ESE': 20.017 0,29%
'ARA': 19.819 0,29%
'ERO': 19.810 0,29%
'UEL': 19.129 0,28%

Y todo esto: ¿Para qué sirve? Pues puede servir para automatizar el criptoanálisis, por ejemplo, de los cifrados por sustitución simple monoalfabética, ya que esto nos ayudará a determinar cuánto se parece un texto descifrado a un texto escrito en español, pero esto ya será objeto de otra entrada.

Para finalizar este post, decir que este método de criptoanálisis es el que aparece en el cuento "El escarabajo de oro" ("The Gold Bug"), del escritor norteamericano Edgar Allan Poe, en el que uno de sus protagonistas, William Legrand, utilizando este método logra descifrar un criptograma contenido en un pergamino y así hallar el lugar en el que un famoso pirata, el capitán Kidd, había escondido su tesoro (ver esta entrada donde explico cómo consigue descifrarlo aplicando esta técnica).

Quizás también te interese:

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes" publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema...

El blog de García Larragan y Cía

Buscar este blog

Criptografía (CCLXVII): Criptoanálisis mediante análisis de frecuencias (II)

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Criptografía (XXIII): cifrado de Hill (I)

Criptografía (CLXXXIV): Soluciones Retos criptografía de CyberOlympics 2017