Ir al contenido principal

Criptografía (CCXXXVIII): Cálculo del Índice de Coincidencia (IC) en python

Continúo poniendo scripts de programación en python para automatizar tareas que tengan relación con la criptografía.

En este post incluyo y comento un script en python para el cálculo del Índice de Coincidencia (IC)

Antes de poner el script, recordar que en este post expliqué qué es y cómo se utiliza el IC para atacar cifrados de sustitución polialfabética con claves periódicas.

El IC es la probabilidad de que dos letras tomadas al azar de un texto sean iguales y, por tanto, para su cálculo utilizaremos la siguiente fórmula (número de casos favorables / número de casos posibles):

Donde:
fi: frecuencia o número de ocurrencias del carácter i-ésimo del alfabeto (de la "A" a la "Z") en el texto.
N: número de caracteres o tamaño del texto.

En el script este cálculo se implementa de la siguiente manera:

- alfabeto.index(caracter): el método index() devuelve la posición de la primera ocurrencia del valor especificado.

En el script, devuelve la posición de cada carácter del alfabeto.

texto.count(caracter): el método count() devuelve el número de veces que aparece el valor especificado.

En el script, devuelve el número de veces que aparece cada carácter del alfabeto en el texto.

- frecuencia_relativa[alfabeto.index(caracter)]=texto.count(caracter): en el script, calcula la frecuencia relativa de cada carácter del alfabeto en el texto y deja el resultado en la posición que corresponde a cada uno de ellos en la lista frecuencia_relativa.

- append(): este método añade un elemento al final de una lista.

pares_caracteres_iguales.append(frecuencia_relativa[alfabeto.index(caracter)]*(frecuencia_relativa[alfabeto.index(caracter)]-1)/2): mediante el método append() se van añadiendo a la lista 'pares_caracteres_iguales', para cada letra del alfabeto, el número de pares de caracteres iguales de cada una de ellas que es posible obtener del texto tomando dos de ellos al azar.

- Y finalmente, el sumatorio de los elementos de la lista 'pares_caracteres_iguales', uno por cada letra del alfabeto, dividido entre el número de pares de caracteres que es posible obtener del texto da como resultado el IC.

Script python para el cálculo del IC:

El script es el siguiente:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# ÍNDICE DE COINCIDENCIA (IC):
#
# Cálculo del IC de un texto.
#
# http://mikelgarcialarragan.blogspot.com/

import re
from unicodedata import normalize

def main():
    # ALFABETO:
    alfabeto = "ABCDEFGHIJKLMNÑOPQRSTUVWXYZ"
    print ("")
    print ("[+] Alfabeto:", alfabeto)

    # Se introduce el texto del que se desea calcular el Índice de Coincidencia (IC).
    # Se convierten los caracteres a mayúsculas y se eliminan los espacios,
    # las tildes, diéresis, etc.
    texto = "*"
    while not texto.isalpha():
        print ("")
        texto = input('Texto del que se desea hallar el IC: ').upper()
        texto = texto.replace(' ','')
        texto = re.sub(r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+",
                    r"\1", normalize("NFD", texto), 0, re.I)
        texto = normalize("NFC", texto)
        if not texto.isalpha():
            print ("*** ERROR: El texto sólo debe contener caracteres alfabéticos.")

    # CÁLCULO DEL IC:
    # Cálculo de la frecuencia relativa de cada uno de los caracteres del alfabeto en el texto.
    frecuencia_relativa=[0 for caracter in alfabeto]
    for caracter in alfabeto:
        frecuencia_relativa[alfabeto.index(caracter)]=texto.count(caracter)
    # Cálculo del número de pares de caracteres iguales que es posible obtener del texto tomando dos de ellos al azar.
    pares_caracteres_iguales=[]
    for caracter in alfabeto:
        pares_caracteres_iguales.append(frecuencia_relativa[alfabeto.index(caracter)]*(frecuencia_relativa[alfabeto.index(caracter)]-1)/2)
    # Cálculo del número de pares de caracteres que es posible obtener del texto.
    pares_caracteres_posibles = len(texto) *(len(texto)-1)/2
    # Cálculo del IC.
    ic = 0
    for caracter in alfabeto:
        ic = ic + (pares_caracteres_iguales[alfabeto.index(caracter)]/pares_caracteres_posibles)
    print ("")
    print("[+] El Índice de Coincidencia es:", ic)

if __name__ == '__main__':
    main()

Lo ejecuto:

Comentarios

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes"  publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski  para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema...

Criptografía (XXIII): cifrado de Hill (I)

En este post me propongo explicar de forma comprensible lo que he entendido sobre el cifrado de Hill , propuesto por el matemático Lester S. Hill , en 1929, y que se basa en emplear una matriz como clave  para cifrar un texto en claro y su inversa para descifrar el criptograma correspondiente . Hay tres cosas que me gustan de la criptografía clásica, además de que considero que ésta es muy didáctica a la hora de comprender los sistemas criptográficos modernos: la primera de ellas es que me "obliga" a repasar conceptos de matemáticas aprendidos hace mucho tiempo y, desgraciadamente, olvidados también hace demasiado tiempo, y, por consiguiente, que, como dice  Dani , amigo y coautor de este blog, me "obliga" a hacer "gimnasia mental"; la segunda es que, en la mayoría de las ocasiones, pueden cifrarse y descifrase los mensajes, e incluso realizarse el criptoanálisis de los criptogramas, sin más que un simple lápiz y papel, es decir, para mi es como un pasat...

Criptografía (CLXXXIV): Soluciones Retos criptografía de CyberOlympics 2017

En este post pongo las soluciones a los retos de  criptografía que he ido resolviendo de la edición del año 2017 de CyberOlympics , competición en modalidad  'on-line' , estilo  'Capture the Flag'  y formato  'Jeopardy'  dirigida a centros educativos y organizada por el Instituto Nacional de Ciberseguridad (INCIBE) en el marco de la actividad llamada CyberCamp. En esta edición la mayoría de los retos presentaron un  nivel  de dificultad bajo  ( ★ ★ ☆☆☆ ) , lo que entiendo adecuado por el colectivo al que van dirigidos. Las soluciones al resto de desafíos de criptografía de esta edición, cuyos archivos asociados tenga (no me han pasado todos) y que consiga resolver, las pondré en otra entrada. Reto 1 (Criptografía) : Enunciado : Todas las mañanas cuando me despierto, me miro en el espejo y no entiendo lo que veo. Hoy me he levantado dando un salto mortal y no voy a apartarme de mi “otro yo” hasta que no descubra el mensaje. Parece q...