Ir al contenido principal

Criptografía (CCLXII): Ataque mediante análisis de frecuencias al cifrado César en python

Ya puse una entrada con un script en python para cifrar y descifrar textos en claro y criptogramas, respectivamente, utilizando el cifrado César, y otra con un script en python para atacar criptogramas cifrados con este criptosistema sin saber el desplazamiento empleado en el cifrado.

El script que puse en el segundo de los citados posts utilizaba un tipo de ataque denominado ataque de fuerza bruta, que consiste en probar todas las posibles claves (en este caso, desplazamientos) hasta encontrar aquella que se utilizó en el cifrado, es decir, aquella cuya aplicación en el descifrado del criptograma produzca un texto en claro inteligible; lo que en el caso de este criptosistema, recorrer el espacio de claves hasta encontrar la clave correcta, es perfectamente posible realizar con el mínimo esfuerzo, incluso con lápiz y papel, porque el espacio de claves es minúsculo.

Pues bien, en este post pongo un script en python para atacar criptogramas cifrados mediante el cifrado César utilizando el análisis de frecuencias de los caracteres del criptograma.

En un criptosistema de sustitución simple monoalfabética, como lo es el cifrado César, las frecuencias de aparición de las letras en el idioma en que se escribió el texto en claro se trasladan al criptograma, es decir, si la letra más frecuente en el idioma en que se escribió el texto en claro es la "E" (como así ocurre en español, con un porcentaje teórico de aparición en un texto de aproximadamente un 13,68%, y en inglés, con un 12,702%), en un criptograma un poco largo, aunque no es necesario que sea de mucho tamaño, podremos sospechar sin mucho riesgo a equivocarnos que la letra que más aparezca en él sea precisamente la "E", máxime teniendo en cuenta que la letra "E" es significativamente la letra más frecuente en ambos idiomas. Y, si nos equivocamos, porque la estadística del lenguaje nos "juega una mala pasada" en el criptograma concreto, y no obtenemos en el descifrado un texto en claro inteligible, siempre podremos asociar dicha letra a la siguiente letra más frecuente en el idioma en que se escribió el texto en claro (la "A" en español o la "T" en inglés), y así sucesivamente hasta obtener un texto en claro legible.

En el primero de los posts que he citado al principio decía que las funciones de cifrado y descifrado de este criptosistema son:

Ek(mi) = (mk) mod n
Dk(ci) = (ci - k) mod n

Donde:
k: desplazamiento.
E: función de cifrado.
mi: carácter i-ésimo del mensaje o texto en claro a cifrar.
D: función de descifrado.
ci: carácter i-ésimo del criptograma o texto cifrado.
n: tamaño del alfabeto.

Y pongo como ejemplo de criptograma a atacar el siguiente:

ÑWMBRZDYPBKORKÑUMROBKNYMÑCKBDKVLRÑWMYWYMRNYMYVYMROBKNYZYBNÑCZUKJKVRÑWDYMYNRPYNÑMÑCKBYNÑCZUKJKVRÑWDYNÑMÑCKBÑCEWKNÑUKCDÑMWRMKCNÑMROBKNYVKCCRVZUÑCIVKCECKNKCÑCEWDRZYNÑMROBKNYZYBCECDRDEMRYWÑWÑUAEÑEWKUÑDBKÑWÑUDÑHDYYBRPRWKUÑCBÑÑVZUKJKNKZYBYDBKUÑDBKAEÑCÑÑWMEÑWDBKEWWEVÑBYORSYNÑZYCRMRYWÑCVKCKNÑUKWDÑÑWÑUKUOKLÑDY

El criptograma ya nos da alguna pista, el alfabeto empleado en la sustitución es el de letras mayúsculas en español (27 letras), y si contamos la frecuencia de aparición de cada una de las letras en el criptograma podemos ver que la "Ñ" es la que más aparece; un total de 42 veces, lo que supone un porcentaje de aparición del 13,91% sobre el total de las letras del criptograma (302), resultado que está muy cerca del esperado para la letra "E" en español. Por tanto, el desplazamiento (k) sería:

Cifrado: ("E" + k) mod 27 = "Ñ";  (4 + k) mod 27 = 14; k = (14 -4) mod 27 = 10

Y, aplicando la función de descifrado indicada antes, el descifrado se realizaría de la siguiente manera:

(c1 - k) mod n = ("Ñ" - k) mod 27 = (14 -10) mod 27 = 4 = "E".
(c2 - k) mod n = ("W" - k) mod 27 = (23 -10) mod 27 = 13 = "N".
(c3 - k) mod n = ("M" - k) mod 27 = (12 -10) mod 27 = 2 = "C".
(c4 - k) mod n = ("B" - k) mod 27 = (1 -10) mod 27 = 18 = "R".
(c5 - k) mod n = ("R" - k) mod 27 = (18 -10) mod 27 = 8 = "I".
(c6 - k) mod n = ("Z" - k) mod 27 = (26 -10) mod 27 = 16 = "P".
(c7 - k) mod n = ("D" - k) mod 27 = (3 -10) mod 27 = 20 = "T".
(c8 - k) mod n = ("Y" - k) mod 27 = (25 -10) mod 27 = 15 = "O".
(c9 - k) mod n = ("P" - k) mod 27 = (16 -10) mod 27 = 6 = "G".
(c10 - k) mod n = ("B" - k) mod 27 = (1 -10) mod 27 = 18 = "R".
(c11 - k) mod n = ("K" - k) mod 27 = (10 -10) mod 27 = 0 = "A".
(c12 - k) mod n = ("O" - k) mod 27 = (15 -10) mod 27 = 5 = "F".
(c13 - k) mod n = ("R" - k) mod 27 = (18 -10) mod 27 = 8 = "I".
(c14 - k) mod n = ("K" - k) mod 27 = (10 -10) mod 27 = 0 = "A".
...

El script es el siguiente:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# ATAQUE MEDIANTE ANÁLISIS DE FRECUENCIAS AL CIFRADO CÉSAR:
#
# Ataque mediante análisis de frecuencias a un criptograma cifrado
# mediante el cifrado César.
#
# http://mikelgarcialarragan.blogspot.com/

import re
from unicodedata import normalize

# La función de descifrado es: Dk(Ci) = (Ci - K) mod n
def descifrar(alfabeto,criptograma,k):
    texto_claro = ''
    for caracter in criptograma:
        texto_claro = texto_claro + str(alfabeto[(alfabeto.find(caracter) - k) % len(alfabeto)])
    return texto_claro

def main():
# SELECCIÓN DE IDIOMA:
# Se solicita que se indique el idioma en el que se supone que se cifró el texto en claro.
    idioma = ""
    while idioma == "":
        print ("")
        print ("*** SELECCIÓN DE IDIOMA **************************")
        print ('1. Inglés.')
        print ('2. Español.')
        print ("")
        opcion = input("Por favor, seleccione el idioma en el que se supone que se cifró el texto en claro: ")
        if opcion == "1":
            idioma = "Inglés"
        elif  opcion == "2":
            idioma = "Español"
        else:
            print ("*** ERROR: Opción no válida.")
    print ("")
    print ("[+] Idioma:", idioma)

# SELECCIÓN DE ALFABETO:
# Se solicita que se indique el alfabeto a emplear.
    if idioma == "Inglés":
        opcion = "1"
        alfabeto = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
        monogramas = ['E','T','A','O','I','N','S','H','R','D','L','C','U','M','W','F','G','Y','P','B','V','K','J','X','Q','Z']
    else:
        alfabeto = ""
        while alfabeto == "":
            print ("")
            print ("*** SELECCIÓN DE ALFABETO ************************")
            print ('1. Alfabeto de 26 caracteres ("Ñ" excluida).')
            print ('2. Alfabeto de 27 caracteres ("Ñ" incluida).')
            print ("")
            opcion = input("Por favor, seleccione el alfabeto a utilizar: ")
            if opcion == "1":
                alfabeto = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
                monogramas = ['E','A','O','S','R','N','I','D','L','C','T','U','M','P','B','G','Y','V','Q','H','F','Z','J','X','W','K']
            elif opcion == "2":
                alfabeto = "ABCDEFGHIJKLMNÑOPQRSTUVWXYZ"
                monogramas = ['E','A','O','S','R','N','I','D','L','C','T','U','M','P','B','G','Y','V','Q','H','F','Z','J','Ñ','X','W','K']
            else:
                print ("*** ERROR: Opción no válida.")
    print ("")
    alfabeto_seleccionado = opcion
    print ("[+] Alfabeto:", alfabeto)
    print ("[+] Tamaño del alfabeto (n):", len(alfabeto))

# MENÚ:
# Se presenta el menú para que se seleccione una opción.
    salir = False
    while not salir:
        print ("")
        print ("*** MENÚ *****************************************")
        print ("1. Ataque mediante análisis de frecuencias al cifrado César.")
        print ("2. Salir.")
        print ("")
        opcion = input("Por favor, seleccione una opción: ")
        if opcion == "1":
            print ("")
            print ("--- ATAQUE MEDIANTE ANÁLISIS DE FRECUENCIAS:")
            # Se introduce el criptograma. Se convierten los caracteres a mayúsculas y
            # se eliminan los espacios, las tildes, diéresis, etc.
            criptograma = "*"
            while not criptograma.isalpha():
                criptograma = input('Criptograma a atacar: ').upper()
                criptograma = criptograma.replace(' ','')
                criptograma = re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+",
                                      r"\1", normalize("NFD", criptograma), 0, re.I)
                criptograma = normalize("NFC", criptograma)
                if criptograma.isalpha():
                    print ("[+] Criptograma a atacar:", criptograma)
                    print("[+] Tamaño del criptograma:", len(criptograma), "caracteres.")
                    frecuencia_relativa=[]
                    for caracter in alfabeto:
                        frecuencia_relativa.append([caracter,criptograma.count(caracter),criptograma.count(caracter)/len(criptograma)*100])
                        frecuencia_relativa.sort(key=lambda x:x[1], reverse=True)
                    print("[+] Carácter del alfabeto con mayor frecuencia de aparición en el criptograma, frecuencia relativa y porcentaje de aparición:")
                    print(frecuencia_relativa[0][0], frecuencia_relativa[0][1], frecuencia_relativa[0][2],"%")
                    texto_claro = descifrar(alfabeto,criptograma,(alfabeto.find(frecuencia_relativa[0][0])-alfabeto.find(monogramas[0]))%len(alfabeto))
                    print("[+] Texto claro:", texto_claro)
                    ok = "*"
                    caracter_siguiente = 0
                    while ok != "S" and caracter_siguiente <= len(alfabeto) - 1:
                        ok = input('¿Es inteligible el texto claro obtenido (S)í?: ').upper()
                        if ok != "S":
                            caracter_siguiente+=1
                            if caracter_siguiente <= len(alfabeto) - 1:
                                print("[+] Probando con el siguiente carácter del alfabeto más frecuente en", idioma, ":", monogramas[caracter_siguiente])
                                texto_claro = descifrar(alfabeto,criptograma,(alfabeto.find(frecuencia_relativa[0][0])-alfabeto.find(monogramas[caracter_siguiente]))%len(alfabeto))
                                print("[+] Texto claro:", texto_claro)
                            else:
                               print("[+] No quedan más caracteres del alfabeto a probar.")
                else:
                    print ("*** ERROR: El criptograma a atacar sólo debe contener caracteres alfabéticos.")
        elif opcion == "2":
            print ("*** FIN ******************************************")
            salir = True
        else:
            print ("*** ERROR: Opción no válida.")
	
if __name__ == '__main__':
    main()

Lo ejecuto:

Quizás también te interese:

Comentarios

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes"  publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski  para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema de

¿Qué significa el emblema de la profesión informática? (I)

Todas o muchas profesiones tienen un emblema que las representa simbólicamente y en el caso de la  informática: " es el establecido en la resolución de 11 de noviembre de 1977  para las titulaciones universitarias superiores de informática, y  está constituido por una figura representando en su parte central  un  núcleo toroidal de ferrita , atravesado por  hilos de lectura,  escritura e inhibición . El núcleo está rodeado por  dos ramas : una  de  laurel , como símbolo de recompensa, y la otra, de  olivo , como  símbolo de sabiduría. La  corona  será la  de la casa real  española,  y bajo el escudo se inscribirá el acrónimo de la organización. ". Veamos los diferentes elementos tomando como ejemplo el emblema del COIIE/EIIEO (Colegio Oficial de Ingenieros en Informática del País Vasco/ Euskadiko Informatikako Ingeniarien Elkargo Ofiziala ) . Pero no sólo el COIIE/EIIEO adopta el emblema establecido en dicha resolución, sino que éste se adopta también como im

Criptografía (XXIII): cifrado de Hill (I)

En este post me propongo explicar de forma comprensible lo que he entendido sobre el cifrado de Hill , propuesto por el matemático Lester S. Hill , en 1929, y que se basa en emplear una matriz como clave  para cifrar un texto en claro y su inversa para descifrar el criptograma correspondiente . Hay tres cosas que me gustan de la criptografía clásica, además de que considero que ésta es muy didáctica a la hora de comprender los sistemas criptográficos modernos: la primera de ellas es que me "obliga" a repasar conceptos de matemáticas aprendidos hace mucho tiempo y, desgraciadamente, olvidados también hace demasiado tiempo, y, por consiguiente, que, como dice  Dani , amigo y coautor de este blog, me "obliga" a hacer "gimnasia mental"; la segunda es que, en la mayoría de las ocasiones, pueden cifrarse y descifrase los mensajes, e incluso realizarse el criptoanálisis de los criptogramas, sin más que un simple lápiz y papel, es decir, para mi es como un pasat