Criptografía (CCLXII): Ataque mediante análisis de frecuencias al cifrado César en python

Ya puse una entrada con un script en python para cifrar y descifrar textos en claro y criptogramas, respectivamente, utilizando el cifrado César, y otra con un script en python para atacar criptogramas cifrados con este criptosistema sin saber el desplazamiento empleado en el cifrado.

El script que puse en el segundo de los citados posts utilizaba un tipo de ataque denominado ataque de fuerza bruta, que consiste en probar todas las posibles claves (en este caso, desplazamientos) hasta encontrar aquella que se utilizó en el cifrado, es decir, aquella cuya aplicación en el descifrado del criptograma produzca un texto en claro inteligible; lo que en el caso de este criptosistema, recorrer el espacio de claves hasta encontrar la clave correcta, es perfectamente posible realizar con el mínimo esfuerzo, incluso con lápiz y papel, porque el espacio de claves es minúsculo.

Pues bien, en este post pongo un script en python para atacar criptogramas cifrados mediante el cifrado César utilizando el análisis de frecuencias de los caracteres del criptograma.

En un criptosistema de sustitución simple monoalfabética, como lo es el cifrado César, las frecuencias de aparición de las letras en el idioma en que se escribió el texto en claro se trasladan al criptograma, es decir, si la letra más frecuente en el idioma en que se escribió el texto en claro es la "E" (como así ocurre en español, con un porcentaje teórico de aparición en un texto de aproximadamente un 13,68%, y en inglés, con un 12,702%), en un criptograma un poco largo, aunque no es necesario que sea de mucho tamaño, podremos sospechar sin mucho riesgo a equivocarnos que la letra que más aparezca en él sea precisamente la "E", máxime teniendo en cuenta que la letra "E" es significativamente la letra más frecuente en ambos idiomas. Y, si nos equivocamos, porque la estadística del lenguaje nos "juega una mala pasada" en el criptograma concreto, y no obtenemos en el descifrado un texto en claro inteligible, siempre podremos asociar dicha letra a la siguiente letra más frecuente en el idioma en que se escribió el texto en claro (la "A" en español o la "T" en inglés), y así sucesivamente hasta obtener un texto en claro legible.

En el primero de los posts que he citado al principio decía que las funciones de cifrado y descifrado de este criptosistema son:

Ek(mi) = (mi + k) mod n

Dk(ci) = (ci - k) mod n

Donde:
k: desplazamiento.
E: función de cifrado.
mi: carácter i-ésimo del mensaje o texto en claro a cifrar.
D: función de descifrado.
ci: carácter i-ésimo del criptograma o texto cifrado.
n: tamaño del alfabeto.

Y pongo como ejemplo de criptograma a atacar el siguiente:

ÑWMBRZDYPBKORKÑUMROBKNYMÑCKBDKVLRÑWMYWYMRNYMYVYMROBKNYZYBNÑCZUKJKVRÑWDYMYNRPYNÑMÑCKBYNÑCZUKJKVRÑWDYNÑMÑCKBÑCEWKNÑUKCDÑMWRMKCNÑMROBKNYVKCCRVZUÑCIVKCECKNKCÑCEWDRZYNÑMROBKNYZYBCECDRDEMRYWÑWÑUAEÑEWKUÑDBKÑWÑUDÑHDYYBRPRWKUÑCBÑÑVZUKJKNKZYBYDBKUÑDBKAEÑCÑÑWMEÑWDBKEWWEVÑBYORSYNÑZYCRMRYWÑCVKCKNÑUKWDÑÑWÑUKUOKLÑDY

El criptograma ya nos da alguna pista, el alfabeto empleado en la sustitución es el de letras mayúsculas en español (27 letras), y si contamos la frecuencia de aparición de cada una de las letras en el criptograma podemos ver que la "Ñ" es la que más aparece; un total de 42 veces, lo que supone un porcentaje de aparición del 13,91% sobre el total de las letras del criptograma (302), resultado que está muy cerca del esperado para la letra "E" en español. Por tanto, el desplazamiento (k) sería:

Cifrado: ("E" + k) mod 27 = "Ñ"; (4 + k) mod 27 = 14; k = (14 -4) mod 27 = 10

Y, aplicando la función de descifrado indicada antes, el descifrado se realizaría de la siguiente manera:

(c₁ - k) mod n = ("Ñ" - k) mod 27 = (14 -10) mod 27 = 4 = "E".

(c₂ - k) mod n = ("W" - k) mod 27 = (23 -10) mod 27 = 13 = "N".

(c₃ - k) mod n = ("M" - k) mod 27 = (12 -10) mod 27 = 2 = "C".

(c₄ - k) mod n = ("B" - k) mod 27 = (1 -10) mod 27 = 18 = "R".

(c₅ - k) mod n = ("R" - k) mod 27 = (18 -10) mod 27 = 8 = "I".

(c₆ - k) mod n = ("Z" - k) mod 27 = (26 -10) mod 27 = 16 = "P".

(c₇ - k) mod n = ("D" - k) mod 27 = (3 -10) mod 27 = 20 = "T".

(c₈ - k) mod n = ("Y" - k) mod 27 = (25 -10) mod 27 = 15 = "O".

(c₉ - k) mod n = ("P" - k) mod 27 = (16 -10) mod 27 = 6 = "G".

(c₁₀ - k) mod n = ("B" - k) mod 27 = (1 -10) mod 27 = 18 = "R".

(c₁₁ - k) mod n = ("K" - k) mod 27 = (10 -10) mod 27 = 0 = "A".

(c₁₂ - k) mod n = ("O" - k) mod 27 = (15 -10) mod 27 = 5 = "F".

(c₁₃ - k) mod n = ("R" - k) mod 27 = (18 -10) mod 27 = 8 = "I".

(c₁₄ - k) mod n = ("K" - k) mod 27 = (10 -10) mod 27 = 0 = "A".

...

El script es el siguiente:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# ATAQUE MEDIANTE ANÁLISIS DE FRECUENCIAS AL CIFRADO CÉSAR:
#
# Ataque mediante análisis de frecuencias a un criptograma cifrado
# mediante el cifrado César.
#
# http://mikelgarcialarragan.blogspot.com/

import re
from unicodedata import normalize

# La función de descifrado es: Dk(Ci) = (Ci - K) mod n
def descifrar(alfabeto,criptograma,k):
    texto_claro = ''
    for caracter in criptograma:
        texto_claro = texto_claro + str(alfabeto[(alfabeto.find(caracter) - k) % len(alfabeto)])
    return texto_claro

def main():
# SELECCIÓN DE IDIOMA:
# Se solicita que se indique el idioma en el que se supone que se cifró el texto en claro.
    idioma = ""
    while idioma == "":
        print ("")
        print ("*** SELECCIÓN DE IDIOMA **************************")
        print ('1. Inglés.')
        print ('2. Español.')
        print ("")
        opcion = input("Por favor, seleccione el idioma en el que se supone que se cifró el texto en claro: ")
        if opcion == "1":
            idioma = "Inglés"
        elif  opcion == "2":
            idioma = "Español"
        else:
            print ("*** ERROR: Opción no válida.")
    print ("")
    print ("[+] Idioma:", idioma)

# SELECCIÓN DE ALFABETO:
# Se solicita que se indique el alfabeto a emplear.
    if idioma == "Inglés":
        opcion = "1"
        alfabeto = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
        monogramas = ['E','T','A','O','I','N','S','H','R','D','L','C','U','M','W','F','G','Y','P','B','V','K','J','X','Q','Z']
    else:
        alfabeto = ""
        while alfabeto == "":
            print ("")
            print ("*** SELECCIÓN DE ALFABETO ************************")
            print ('1. Alfabeto de 26 caracteres ("Ñ" excluida).')
            print ('2. Alfabeto de 27 caracteres ("Ñ" incluida).')
            print ("")
            opcion = input("Por favor, seleccione el alfabeto a utilizar: ")
            if opcion == "1":
                alfabeto = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
                monogramas = ['E','A','O','S','R','N','I','D','L','C','T','U','M','P','B','G','Y','V','Q','H','F','Z','J','X','W','K']
            elif opcion == "2":
                alfabeto = "ABCDEFGHIJKLMNÑOPQRSTUVWXYZ"
                monogramas = ['E','A','O','S','R','N','I','D','L','C','T','U','M','P','B','G','Y','V','Q','H','F','Z','J','Ñ','X','W','K']
            else:
                print ("*** ERROR: Opción no válida.")
    print ("")
    alfabeto_seleccionado = opcion
    print ("[+] Alfabeto:", alfabeto)
    print ("[+] Tamaño del alfabeto (n):", len(alfabeto))

# MENÚ:
# Se presenta el menú para que se seleccione una opción.
    salir = False
    while not salir:
        print ("")
        print ("*** MENÚ *****************************************")
        print ("1. Ataque mediante análisis de frecuencias al cifrado César.")
        print ("2. Salir.")
        print ("")
        opcion = input("Por favor, seleccione una opción: ")
        if opcion == "1":
            print ("")
            print ("--- ATAQUE MEDIANTE ANÁLISIS DE FRECUENCIAS:")
            # Se introduce el criptograma. Se convierten los caracteres a mayúsculas y
            # se eliminan los espacios, las tildes, diéresis, etc.
            criptograma = "*"
            while not criptograma.isalpha():
                criptograma = input('Criptograma a atacar: ').upper()
                criptograma = criptograma.replace(' ','')
                criptograma = re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+",
                                      r"\1", normalize("NFD", criptograma), 0, re.I)
                criptograma = normalize("NFC", criptograma)
                if criptograma.isalpha():
                    print ("[+] Criptograma a atacar:", criptograma)
                    print("[+] Tamaño del criptograma:", len(criptograma), "caracteres.")
                    frecuencia_relativa=[]
                    for caracter in alfabeto:
                        frecuencia_relativa.append([caracter,criptograma.count(caracter),criptograma.count(caracter)/len(criptograma)*100])
                        frecuencia_relativa.sort(key=lambda x:x[1], reverse=True)
                    print("[+] Carácter del alfabeto con mayor frecuencia de aparición en el criptograma, frecuencia relativa y porcentaje de aparición:")
                    print(frecuencia_relativa[0][0], frecuencia_relativa[0][1], frecuencia_relativa[0][2],"%")
                    texto_claro = descifrar(alfabeto,criptograma,(alfabeto.find(frecuencia_relativa[0][0])-alfabeto.find(monogramas[0]))%len(alfabeto))
                    print("[+] Texto claro:", texto_claro)
                    ok = "*"
                    caracter_siguiente = 0
                    while ok != "S" and caracter_siguiente <= len(alfabeto) - 1:
                        ok = input('¿Es inteligible el texto claro obtenido (S)í?: ').upper()
                        if ok != "S":
                            caracter_siguiente+=1
                            if caracter_siguiente <= len(alfabeto) - 1:
                                print("[+] Probando con el siguiente carácter del alfabeto más frecuente en", idioma, ":", monogramas[caracter_siguiente])
                                texto_claro = descifrar(alfabeto,criptograma,(alfabeto.find(frecuencia_relativa[0][0])-alfabeto.find(monogramas[caracter_siguiente]))%len(alfabeto))
                                print("[+] Texto claro:", texto_claro)
                            else:
                               print("[+] No quedan más caracteres del alfabeto a probar.")
                else:
                    print ("*** ERROR: El criptograma a atacar sólo debe contener caracteres alfabéticos.")
        elif opcion == "2":
            print ("*** FIN ******************************************")
            salir = True
        else:
            print ("*** ERROR: Opción no válida.")
	
if __name__ == '__main__':
    main()

Lo ejecuto:

Quizás también te interese:

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes" publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema...

El blog de García Larragan y Cía

Buscar este blog

Criptografía (CCLXII): Ataque mediante análisis de frecuencias al cifrado César en python

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Criptografía (XXIII): cifrado de Hill (I)

Criptografía (CLXXXIV): Soluciones Retos criptografía de CyberOlympics 2017