Ir al contenido principal

Criptografía (CCLXIX): Calificación de la aptitud ('fitness') de un texto en python

Continúo poniendo scripts de programación en python para automatizar tareas que tengan relación con la criptografía.

En este post incluyo un script en python que implementa la calificación de un texto respecto al español o inglés, es decir para la obtención de una calificación o puntuación de un texto dado con objeto conocer si éste se asemeja más o menos a un texto escrito en uno de los citados idiomas.

Como decía en este post, esto nos puede servir para automatizar el criptoanálisis de cifrados clásicos.

El script que pondré a continuación utiliza estadísticas de tetragramas, es decir, la frecuencia relativa de aparición de grupos de cuatro letras consecutivas en ambos idiomas. De tal forma que se divide el texto que se desea calificar en tetragramas y se suman los logaritmos de las probabilidades de aparición de cada uno de ellos en el idioma correspondiente. Cuanto mayor sea el valor obtenido mayor probabilidad de que el texto sea del idioma al que queremos saber si corresponde.

El archivo con las frecuencias relativas (ocurrencias) de los tetragramas en español, obtenido de la forma que se indica en este post, que utiliza el script es tetragramas_español.txt.

El script es el siguiente:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# CALIFICACIÓN APTITUD ('FITNESS') DE UN TEXTO:
#
# Califica la semejanza de un texto con respecto a un texto escrito en inglés o español.
#
# http://mikelgarcialarragan.blogspot.com/

import re
from unicodedata import normalize
from math import log10

# TEST FITNESS:
def test_fitness(texto,idioma):
    N = 0
    probabilidad_ngramas = {}
    if idioma == "Inglés":
        f_ocurrencias_ngramas = open("english_quadgrams.txt")
    else:
        f_ocurrencias_ngramas = open("tetragramas_español.txt")
    for ngrama in f_ocurrencias_ngramas:
        n_grama, ocurrencias = ngrama.split(' ')
        probabilidad_ngramas[n_grama] = int(ocurrencias)
        N += int(ocurrencias)
    f_ocurrencias_ngramas.close()

    fitness = 0
    for i in range(len(texto)-3):
        n_grama = texto[i:i+4]
        if n_grama in probabilidad_ngramas.keys():
            fitness += log10(float(probabilidad_ngramas[n_grama])/N)
        else:
            fitness += log10(0.01/N)

    return fitness

def main():
# MENÚ:
# SELECCIÓN DE IDIOMA:
# Se solicita que se indique el idioma para el que se va a calificar el texto.
    idioma = ""
    while idioma == "":
        print ("")
        print ("*** SELECCIÓN DE IDIOMA **************************")
        print ('1. Inglés.')
        print ('2. Español.')
        print ("")
        opcion = input("Por favor, seleccione el idioma para el que se va a calificar el texto: ")
        if opcion == "1":
            idioma = "Inglés"
        elif  opcion == "2":
            idioma = "Español"
        else:
            print ("*** ERROR: Opción no válida.")
    print ("")
    print ("[+] Idioma:", idioma)

# Se presenta el menú para que se seleccione una opción.
    salir = False
    while not salir:
        print ("")
        print ("*** MENÚ *****************************************")
        print ("1. Calificar la aptitud ('fitness') de un texto.")
        print ("2. Salir.")
        print ("")
        opcion = input("Por favor, seleccione una opción: ")
        if opcion == "1":
            print ("")
            print ("--- CALIFICAR LA APTITUD ('FITNESS') DE UN TEXTO:")
            # Se introduce el texto del que sea desea calificar su aptitud ('fitness'). Se convierten los caracteres a mayúsculas y
            # se eliminan los espacios, las tildes, diéresis, etc.
            texto = "*"
            while not texto.isalpha():
                texto = input("Texto del que se desea calificar su aptitud ('fitness'): ").upper()
                texto = texto.replace(' ','')
                if idioma == 1:
                    texto = texto.replace('Ñ','')
                texto = re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+",
                            r"\1", normalize("NFD", texto), 0, re.I)
                texto = normalize("NFC", texto)
                if texto.isalpha():
                    print ("[+] Texto del que se desea calificar su aptitud ('fitness'):", texto)
                    fitness = test_fitness(texto,idioma)
                    print ("[+] Puntuación aptitud del texto:", fitness)
                else:
                    print ("*** ERROR: El texto del que sea desea calificar su aptitud ('fitness') sólo debe contener caracteres alfabéticos.")
        elif opcion == "2":
            print ("*** FIN ******************************************")
            salir = True
        else:
            print ("*** ERROR: Opción no válida.")
	
if __name__ == '__main__':
    main()

Pongo un ejemplo:

Supongamos que voy probando claves en el descifrado automático de un criptograma y en un momento dado obtengo como texto en claro lo siguiente: "PUPXBWAÑTQDMOA". Y, también de forma automática, lo someto a la calificación de su aptitud respecto al español:

Como se ve en la figura anterior se obtiene una puntuación de -97.23722764456343.

Supongamos que continúo probando claves de forma automática y tras una serie de pruebas obtengo como texto en claro "EJEMPLOCIFRADO". Lo someto también a la calificación de forma automática:

Ahora la puntuación es de -52.340742500542426, que es mayor que la anterior, lo que nos indicaría que este texto se asemeja más a un texto escrito en español que el primero.

Quizás también te interese:

Comentarios

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes"  publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski  para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema de

Criptografía (XXIII): cifrado de Hill (I)

En este post me propongo explicar de forma comprensible lo que he entendido sobre el cifrado de Hill , propuesto por el matemático Lester S. Hill , en 1929, y que se basa en emplear una matriz como clave  para cifrar un texto en claro y su inversa para descifrar el criptograma correspondiente . Hay tres cosas que me gustan de la criptografía clásica, además de que considero que ésta es muy didáctica a la hora de comprender los sistemas criptográficos modernos: la primera de ellas es que me "obliga" a repasar conceptos de matemáticas aprendidos hace mucho tiempo y, desgraciadamente, olvidados también hace demasiado tiempo, y, por consiguiente, que, como dice  Dani , amigo y coautor de este blog, me "obliga" a hacer "gimnasia mental"; la segunda es que, en la mayoría de las ocasiones, pueden cifrarse y descifrase los mensajes, e incluso realizarse el criptoanálisis de los criptogramas, sin más que un simple lápiz y papel, es decir, para mi es como un pasat

¿Qué significa el emblema de la profesión informática? (I)

Todas o muchas profesiones tienen un emblema que las representa simbólicamente y en el caso de la  informática: " es el establecido en la resolución de 11 de noviembre de 1977  para las titulaciones universitarias superiores de informática, y  está constituido por una figura representando en su parte central  un  núcleo toroidal de ferrita , atravesado por  hilos de lectura,  escritura e inhibición . El núcleo está rodeado por  dos ramas : una  de  laurel , como símbolo de recompensa, y la otra, de  olivo , como  símbolo de sabiduría. La  corona  será la  de la casa real  española,  y bajo el escudo se inscribirá el acrónimo de la organización. ". Veamos los diferentes elementos tomando como ejemplo el emblema del COIIE/EIIEO (Colegio Oficial de Ingenieros en Informática del País Vasco/ Euskadiko Informatikako Ingeniarien Elkargo Ofiziala ) . Pero no sólo el COIIE/EIIEO adopta el emblema establecido en dicha resolución, sino que éste se adopta también como im