En este post incluyo un script en python que implementa la calificación de un texto respecto al español o inglés, es decir para la obtención de una calificación o puntuación de un texto dado con objeto conocer si éste se asemeja más o menos a un texto escrito en uno de los citados idiomas.
Como decía en este post, esto nos puede servir para automatizar el criptoanálisis de cifrados clásicos.
El script que pondré a continuación utiliza estadísticas de tetragramas, es decir, la frecuencia relativa de aparición de grupos de cuatro letras consecutivas en ambos idiomas. De tal forma que se divide el texto que se desea calificar en tetragramas y se suman los logaritmos de las probabilidades de aparición de cada uno de ellos en el idioma correspondiente. Cuanto mayor sea el valor obtenido mayor probabilidad de que el texto sea del idioma al que queremos saber si corresponde.
El archivo con las frecuencias relativas (ocurrencias) de los tetragramas en español, obtenido de la forma que se indica en este post, que utiliza el script es tetragramas_español.txt.
El script es el siguiente:
#!/usr/bin/env python # -*- coding: utf-8 -*- # CALIFICACIÓN APTITUD ('FITNESS') DE UN TEXTO: # # Califica la semejanza de un texto con respecto a un texto escrito en inglés o español. # # http://mikelgarcialarragan.blogspot.com/ import re from unicodedata import normalize from math import log10 # TEST FITNESS: def test_fitness(texto,idioma): N = 0 probabilidad_ngramas = {} if idioma == "Inglés": f_ocurrencias_ngramas = open("english_quadgrams.txt") else: f_ocurrencias_ngramas = open("tetragramas_español.txt") for ngrama in f_ocurrencias_ngramas: n_grama, ocurrencias = ngrama.split(' ') probabilidad_ngramas[n_grama] = int(ocurrencias) N += int(ocurrencias) f_ocurrencias_ngramas.close() fitness = 0 for i in range(len(texto)-3): n_grama = texto[i:i+4] if n_grama in probabilidad_ngramas.keys(): fitness += log10(float(probabilidad_ngramas[n_grama])/N) else: fitness += log10(0.01/N) return fitness def main(): # MENÚ: # SELECCIÓN DE IDIOMA: # Se solicita que se indique el idioma para el que se va a calificar el texto. idioma = "" while idioma == "": print ("") print ("*** SELECCIÓN DE IDIOMA **************************") print ('1. Inglés.') print ('2. Español.') print ("") opcion = input("Por favor, seleccione el idioma para el que se va a calificar el texto: ") if opcion == "1": idioma = "Inglés" elif opcion == "2": idioma = "Español" else: print ("*** ERROR: Opción no válida.") print ("") print ("[+] Idioma:", idioma) # Se presenta el menú para que se seleccione una opción. salir = False while not salir: print ("") print ("*** MENÚ *****************************************") print ("1. Calificar la aptitud ('fitness') de un texto.") print ("2. Salir.") print ("") opcion = input("Por favor, seleccione una opción: ") if opcion == "1": print ("") print ("--- CALIFICAR LA APTITUD ('FITNESS') DE UN TEXTO:") # Se introduce el texto del que sea desea calificar su aptitud ('fitness'). Se convierten los caracteres a mayúsculas y # se eliminan los espacios, las tildes, diéresis, etc. texto = "*" while not texto.isalpha(): texto = input("Texto del que se desea calificar su aptitud ('fitness'): ").upper() texto = texto.replace(' ','') if idioma == 1: texto = texto.replace('Ñ','') texto = re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", normalize("NFD", texto), 0, re.I) texto = normalize("NFC", texto) if texto.isalpha(): print ("[+] Texto del que se desea calificar su aptitud ('fitness'):", texto) fitness = test_fitness(texto,idioma) print ("[+] Puntuación aptitud del texto:", fitness) else: print ("*** ERROR: El texto del que sea desea calificar su aptitud ('fitness') sólo debe contener caracteres alfabéticos.") elif opcion == "2": print ("*** FIN ******************************************") salir = True else: print ("*** ERROR: Opción no válida.") if __name__ == '__main__': main()
Pongo un ejemplo:
Supongamos que voy probando claves en el descifrado automático de un criptograma y en un momento dado obtengo como texto en claro lo siguiente: "PUPXBWAÑTQDMOA". Y, también de forma automática, lo someto a la calificación de su aptitud respecto al español:
Como se ve en la figura anterior se obtiene una puntuación de -97.23722764456343.
Supongamos que continúo probando claves de forma automática y tras una serie de pruebas obtengo como texto en claro "EJEMPLOCIFRADO". Lo someto también a la calificación de forma automática:
Ahora la puntuación es de -52.340742500542426, que es mayor que la anterior, lo que nos indicaría que este texto se asemeja más a un texto escrito en español que el primero.
Quizás también te interese:
Comentarios
Publicar un comentario