Ir al contenido principal

Binary Exploitation (XXVII): Format string (I)

En esta entrada de la miniserie en la que explico brevemente ciertas vulnerabilidades software y técnicas para explotarlas me centraré en la vulnerabilidad de cadena de formato (en ingles, 'format string').

En primer lugar, como siempre que inicio los posts correspondientes a una vulnerabilidad, un poco de teoría para recordar conceptos fundamentales y ponerla en contexto.

¿Qué es la vulnerabilidad 'format string'?:

Tal y como nos cuenta wikipedia, la vulnerabilidad 'format string' se produce cuando los datos enviados a través de una cadena de entrada de caracteres son evaluados como un comando por la aplicación a la que van dirigidos, pudiéndose filtrar o escribir datos en la memoria.

Para evitar esta vulnerabilidad, los programas deben utilizar correctamente las funciones para dar formato a las cadenas de caracteres.

Si un atacante logra controlar la cadena de formato puede explotar esta vulnerabilidad para filtrar el contenido de la memoria y/o escribir en una posición de la misma, y, por consiguiente, la seguridad y estabilidad del sistema quedarían comprometidas, ya que podría ejecutar código, leer la pila o causar un error de segmentación en la aplicación en ejecución.

Funciones, cadenas y especificadores de formato:

Las funciones de formato (en inglés, 'format functions') toman como primer argumento una cadena de formato seguida de otros argumentos opcionales y generan una secuencia de caracteres con formato para la salida.

Ejemplos de funciones de formato son:

printf (del inglés, 'print formatted'): escribe la secuencia de caracteres con formato en la salida estándar (stdout), habitualmente la pantalla.

fprintf (del inglés, 'file print format'): igual que printf, pero escribe la secuencia de caracteres con formato en un fichero.

sprintf (del inglés, 'string print format'): igual que printf, pero escribe la secuencia de caracteres con formato en una cadena.

snprintf (del inglés, 'string number print format'): igual que sprintf, pero controla el número de caracteres a escribir.

...

Las cadenas de formato pueden contener caracteres literales para la salida, que se copian en ella sin cambios, y especificadores de formato que indican cómo dar formato a un argumento en la salida.

Los especificadores de formato empiezan por el símbolo '%' y van seguidos de forma obligatoria por un campo que indica el tipo. Entre ambos pueden usarse otros campos opcionales para establecer otras características del formato a aplicar a un atributo. Es decir, los especificadores de formato (los campos entre '[' y ']' son opcionales) tienen la siguiente forma:

% [ marcas] [ ancho] [. precisión] [ tamaño] tipo

Campo 'tipo':

%d: formato de salida entero decimal (puede tener signo).

%u: formato de salida entero decimal sin signo.

%o: formato de salida entero octal sin signo.

%x: formato de salida entero hexadecimal sin signo.

%s: formato de salida cadena de caracteres.

%%: escribe el carácter '%' en la salida.

%n: no es es un especificador de formato como tal, almacena la cantidad de bytes escritos en la salida hasta ese momento en una dirección que se le pasa como argumento.

...

Ejemplos de especificadores de formato con los campos 'ancho' y 'tipo':

printf("%3d",10): escribe " 10". Relleno con espacios por la izquierda hasta que la salida tenga una longitud de 3.

printf("%03d",10): escribe "010". Relleno con ceros por la izquierda hasta que la salida tenga una longitud de 3.

printf("%*d",3,10): escribe " 10". Relleno con espacios por la izquierda hasta que la salida tenga una longitud igual al valor que se le pasa como argumento y que precede al argumento al que se va a aplicar el formato.

printf("%0*d",3,10): escribe "010". Relleno con ceros por la izquierda hasta que la salida tenga una longitud igual al valor que se le pasa como argumento y que precede al argumento al que se va a aplicar el formato.

...

Además, en una cadena de formato se puede especificar cuál de los argumentos se debe utilizar en una cierta posición de la misma mediante 'n$', donde 'n' es el número del argumento. Por ejemplo: printf("El segundo argumento de esta función es: %2$s", "Primer argumento", "Segundo argumento", "Tercer argumento") escribe: "El segundo argumento de esta función es: Segundo argumento".

Ver más ejemplos de valores de campos y de especificadores de formato.

Ejemplo:

Para poner un ejemplo de todo lo explicado hasta el momento, poniendo el foco en este primer ejemplo sobre esta vulnerabilidad en la filtración de datos de la pila, voy a utilizar uno de los retos de un CTF del que he puesto recientemente la solución en este blog. Como siempre en este tipo de retos, se trata de obtener una bandera o conjunto de caracteres (en inglés, 'flag') que, en este caso, es la información que quiero conseguir que se filtre de la pila.

En este reto se proporcionan dos archivos: un ejecutable (echo) y otro con el código fuente (echo.c).

Los conceptos básicos: pila (en inglés, 'stack'), registros, etc. necesarios para seguir este ejemplo los expliqué brevemente en este post.

0.- Herramientas utilizadas:

Comando file: identifica o reconoce el tipo de un fichero.

1.- Identificación del tipo de fichero y recopilación de información sobre el binario:

Utilizo el comando 'file' para reconocer el tipo de fichero y, entre otras características del binario, veo que se trata de un archivo ejecutable en formato ELF de 32 bits:

2.- Código: Echo un vistazo al código fuente (echo.c) y veo que la vulnerabilidad radica en main, ya que el programa pasa directamente la entrada del usuario a la función de formato printf, lo que hace que éste sea vulnerable a un ataque 'format string' debido a que un atacante puede controlar la cadena de formato y, por consiguiente, conseguir que se filtren o se escriban datos en la memoria:

De esta forma si, por ejemplo, el usuario introduce '%x' la función de formato printf interpretará la entrada como una cadena de formato, acudirá a la pila y mostrará el valor en hexadecimal del primer elemento de la pila (4 bytes). Además, printf no conoce el número de especificadores de formato que debe imprimir, por lo que si el usuario, por ejemplo, introduce '%x%x%x%x%x%x%x%x%x%x' mostrará el valor en hexadecimal de los diez primeros elementos de la pila (40 bytes), y así sucesivamente.

3.- Contenido de la pila:

En el ejemplo el 'buffer' tiene un tamaño de 64 bytes, por lo que voy a incluir los caracteres '%x' 32 veces de forma consecutiva (2 caracteres x 32 = 64 caracteres o bytes), con lo que se irán filtrando los valores en hexadecimal de los 32 primeros elementos de la pila (4 bytes cada uno e ellos), bueno realmente alguno menos (fgets sólo va a leer 63 bytes de la entrada):
Y, teniendo en cuenta el formato de almacenamiento en memoria 'little-endian', es decir, que los bytes se almacenan en cada grupo de 4 bytes del menos significativo al más significativo, puedo ver el 'buffer' relleno con los caracteres '%x' introducidos y seguidamente el inicio de la información que en este ejemplo quiero obtener (la 'flag'), cuyo principio sería: "picoCTF{foRm4t_stRin".

Para conseguir que se filtre entero el secreto que quiero ver, añado 'n$' entre los caracteres '%' y 'x' para que se filtren los grupos de 4 bytes que yo desee, es decir, '%27$x' filtraría el valor en hexadecimal del vigésimo séptimo grupo de 4 bytes de la pila (primer grupo que contiene caracteres de la 'flag'), y '%27$x%28$x%29$x%30$x%31$x%32$x%33$x %34$x%35$x%36$x%37$x%38$x' filtraría el valor en hexadecimal del vigésimo séptimo al trigésimo octavo grupos de 4 bytes de la pila (4 bytes o caracteres por grupo * 12 grupos = 48 primeros caracteres de la 'flag'):
Y para obtener la información que en este ejemplo deseo que se filtre de la pila, lo único que queda por hacer, tal y como se observa en la figura anterior, es obtener el carácter correspondiente a cada uno de los códigos ASCII en hexadecimal que se muestran e invertir el orden de los caracteres en cada uno de los grupos de 4 caracteres obtenidos (el último grupo tiene sólo 2 caracteres).

En posteriores posts de esta miniserie relativos a la vulnerabilidad 'format string'  pondré algún ejemplo más sobre cómo se puede explotar ésta para, entre otras cosas, escribir datos en memoria.

Comentarios

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes"  publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski  para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema de

Criptografía (XXIII): cifrado de Hill (I)

En este post me propongo explicar de forma comprensible lo que he entendido sobre el cifrado de Hill , propuesto por el matemático Lester S. Hill , en 1929, y que se basa en emplear una matriz como clave  para cifrar un texto en claro y su inversa para descifrar el criptograma correspondiente . Hay tres cosas que me gustan de la criptografía clásica, además de que considero que ésta es muy didáctica a la hora de comprender los sistemas criptográficos modernos: la primera de ellas es que me "obliga" a repasar conceptos de matemáticas aprendidos hace mucho tiempo y, desgraciadamente, olvidados también hace demasiado tiempo, y, por consiguiente, que, como dice  Dani , amigo y coautor de este blog, me "obliga" a hacer "gimnasia mental"; la segunda es que, en la mayoría de las ocasiones, pueden cifrarse y descifrase los mensajes, e incluso realizarse el criptoanálisis de los criptogramas, sin más que un simple lápiz y papel, es decir, para mi es como un pasat

¿Qué significa el emblema de la profesión informática? (I)

Todas o muchas profesiones tienen un emblema que las representa simbólicamente y en el caso de la  informática: " es el establecido en la resolución de 11 de noviembre de 1977  para las titulaciones universitarias superiores de informática, y  está constituido por una figura representando en su parte central  un  núcleo toroidal de ferrita , atravesado por  hilos de lectura,  escritura e inhibición . El núcleo está rodeado por  dos ramas : una  de  laurel , como símbolo de recompensa, y la otra, de  olivo , como  símbolo de sabiduría. La  corona  será la  de la casa real  española,  y bajo el escudo se inscribirá el acrónimo de la organización. ". Veamos los diferentes elementos tomando como ejemplo el emblema del COIIE/EIIEO (Colegio Oficial de Ingenieros en Informática del País Vasco/ Euskadiko Informatikako Ingeniarien Elkargo Ofiziala ) . Pero no sólo el COIIE/EIIEO adopta el emblema establecido en dicha resolución, sino que éste se adopta también como im