Binary Exploitation (XXVII): Format string (I)

En esta entrada de la miniserie en la que explico brevemente ciertas vulnerabilidades software y técnicas para explotarlas me centraré en la vulnerabilidad de cadena de formato (en ingles, 'format string').

En primer lugar, como siempre que inicio los posts correspondientes a una vulnerabilidad, un poco de teoría para recordar conceptos fundamentales y ponerla en contexto.

¿Qué es la vulnerabilidad 'format string'?:

Tal y como nos cuenta wikipedia, la vulnerabilidad 'format string' se produce cuando los datos enviados a través de una cadena de entrada de caracteres son evaluados como un comando por la aplicación a la que van dirigidos, pudiéndose filtrar o escribir datos en la memoria.

Para evitar esta vulnerabilidad, los programas deben utilizar correctamente las funciones para dar formato a las cadenas de caracteres.

Si un atacante logra controlar la cadena de formato puede explotar esta vulnerabilidad para filtrar el contenido de la memoria y/o escribir en una posición de la misma, y, por consiguiente, la seguridad y estabilidad del sistema quedarían comprometidas, ya que podría ejecutar código, leer la pila o causar un error de segmentación en la aplicación en ejecución.

Funciones, cadenas y especificadores de formato:

Las funciones de formato (en inglés, 'format functions') toman como primer argumento una cadena de formato seguida de otros argumentos opcionales y generan una secuencia de caracteres con formato para la salida.

Ejemplos de funciones de formato son:

printf (del inglés, 'print formatted'): escribe la secuencia de caracteres con formato en la salida estándar (stdout), habitualmente la pantalla.

fprintf (del inglés, 'file print format'): igual que printf, pero escribe la secuencia de caracteres con formato en un fichero.

sprintf (del inglés, 'string print format'): igual que printf, pero escribe la secuencia de caracteres con formato en una cadena.

snprintf (del inglés, 'string number print format'): igual que sprintf, pero controla el número de caracteres a escribir.

...

Las cadenas de formato pueden contener caracteres literales para la salida, que se copian en ella sin cambios, y especificadores de formato que indican cómo dar formato a un argumento en la salida.

Los especificadores de formato empiezan por el símbolo '%' y van seguidos de forma obligatoria por un campo que indica el tipo. Entre ambos pueden usarse otros campos opcionales para establecer otras características del formato a aplicar a un atributo. Es decir, los especificadores de formato (los campos entre '[' y ']' son opcionales) tienen la siguiente forma:

% [ marcas] [ ancho] [. precisión] [ tamaño] tipo

Campo 'tipo':

%d: formato de salida entero decimal (puede tener signo).

%u: formato de salida entero decimal sin signo.

%o: formato de salida entero octal sin signo.

%x: formato de salida entero hexadecimal sin signo.

%s: formato de salida cadena de caracteres.

%%: escribe el carácter '%' en la salida.

%n: no es es un especificador de formato como tal, almacena la cantidad de bytes escritos en la salida hasta ese momento en una dirección que se le pasa como argumento.

...

Ejemplos de especificadores de formato con los campos 'ancho' y 'tipo':

printf("%3d",10): escribe " 10". Relleno con espacios por la izquierda hasta que la salida tenga una longitud de 3.

printf("%03d",10): escribe "010". Relleno con ceros por la izquierda hasta que la salida tenga una longitud de 3.

printf("%*d",3,10): escribe " 10". Relleno con espacios por la izquierda hasta que la salida tenga una longitud igual al valor que se le pasa como argumento y que precede al argumento al que se va a aplicar el formato.

printf("%0*d",3,10): escribe "010". Relleno con ceros por la izquierda hasta que la salida tenga una longitud igual al valor que se le pasa como argumento y que precede al argumento al que se va a aplicar el formato.

...

Además, en una cadena de formato se puede especificar cuál de los argumentos se debe utilizar en una cierta posición de la misma mediante 'n$', donde 'n' es el número del argumento. Por ejemplo: printf("El segundo argumento de esta función es: %2$s", "Primer argumento", "Segundo argumento", "Tercer argumento") escribe: "El segundo argumento de esta función es: Segundo argumento".

Ver más ejemplos de valores de campos y de especificadores de formato.

Ejemplo:

Para poner un ejemplo de todo lo explicado hasta el momento, poniendo el foco en este primer ejemplo sobre esta vulnerabilidad en la filtración de datos de la pila, voy a utilizar uno de los retos de un CTF del que he puesto recientemente la solución en este blog. Como siempre en este tipo de retos, se trata de obtener una bandera o conjunto de caracteres (en inglés, 'flag') que, en este caso, es la información que quiero conseguir que se filtre de la pila.

En este reto se proporcionan dos archivos: un ejecutable (echo) y otro con el código fuente (echo.c).

Los conceptos básicos: pila (en inglés, 'stack'), registros, etc. necesarios para seguir este ejemplo los expliqué brevemente en este post.

0.- Herramientas utilizadas:

- Comando file: identifica o reconoce el tipo de un fichero.

1.- Identificación del tipo de fichero y recopilación de información sobre el binario:

Utilizo el comando 'file' para reconocer el tipo de fichero y, entre otras características del binario, veo que se trata de un archivo ejecutable en formato ELF de 32 bits:

2.- Código: Echo un vistazo al código fuente (echo.c) y veo que la vulnerabilidad radica en main, ya que el programa pasa directamente la entrada del usuario a la función de formato printf, lo que hace que éste sea vulnerable a un ataque 'format string' debido a que un atacante puede controlar la cadena de formato y, por consiguiente, conseguir que se filtren o se escriban datos en la memoria:

De esta forma si, por ejemplo, el usuario introduce '%x' la función de formato printf interpretará la entrada como una cadena de formato, acudirá a la pila y mostrará el valor en hexadecimal del primer elemento de la pila (4 bytes). Además, printf no conoce el número de especificadores de formato que debe imprimir, por lo que si el usuario, por ejemplo, introduce '%x%x%x%x%x%x%x%x%x%x' mostrará el valor en hexadecimal de los diez primeros elementos de la pila (40 bytes), y así sucesivamente.

3.- Contenido de la pila:

En el ejemplo el 'buffer' tiene un tamaño de 64 bytes, por lo que voy a incluir los caracteres '%x' 32 veces de forma consecutiva (2 caracteres x 32 = 64 caracteres o bytes), con lo que se irán filtrando los valores en hexadecimal de los 32 primeros elementos de la pila (4 bytes cada uno e ellos), bueno realmente alguno menos (fgets sólo va a leer 63 bytes de la entrada):

Y, teniendo en cuenta el formato de almacenamiento en memoria 'little-endian', es decir, que los bytes se almacenan en cada grupo de 4 bytes del menos significativo al más significativo, puedo ver el 'buffer' relleno con los caracteres '%x' introducidos y seguidamente el inicio de la información que en este ejemplo quiero obtener (la 'flag'), cuyo principio sería: "picoCTF{foRm4t_stRin".

Para conseguir que se filtre entero el secreto que quiero ver, añado 'n$' entre los caracteres '%' y 'x' para que se filtren los grupos de 4 bytes que yo desee, es decir, '%27$x' filtraría el valor en hexadecimal del vigésimo séptimo grupo de 4 bytes de la pila (primer grupo que contiene caracteres de la 'flag'), y '%27$x%28$x%29$x%30$x%31$x%32$x%33$x %34$x%35$x%36$x%37$x%38$x' filtraría el valor en hexadecimal del vigésimo séptimo al trigésimo octavo grupos de 4 bytes de la pila (4 bytes o caracteres por grupo * 12 grupos = 48 primeros caracteres de la 'flag'):

Y para obtener la información que en este ejemplo deseo que se filtre de la pila, lo único que queda por hacer, tal y como se observa en la figura anterior, es obtener el carácter correspondiente a cada uno de los códigos ASCII en hexadecimal que se muestran e invertir el orden de los caracteres en cada uno de los grupos de 4 caracteres obtenidos (el último grupo tiene sólo 2 caracteres).

En posteriores posts de esta miniserie relativos a la vulnerabilidad 'format string' pondré algún ejemplo más sobre cómo se puede explotar ésta para, entre otras cosas, escribir datos en memoria.

Material consultado:

[1] Wikipedia. Format String Attack. Wikipedia. Printf.

[2] Guía de auto-estudio para la escritura de exploits.

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

Hace unos días mi amigo Iñaki Regidor ( @Inaki_Regidor ), a quien dedico esta entrada :), compartió en las redes sociales un post titulado "Criptografía: el arte de esconder mensajes" publicado en uno de los blogs de EiTB . En ese post se explican ciertos métodos clásicos para cifrar mensajes , entre ellos el cifrado de Vigenère , y , al final del mismo, se propone un reto consistente en descifrar un mensaje , lo que me ha animado a escribir este post sobre el método Kasiski para atacar un cifrado polialfabético ( conociendo la clave descifrar el mensaje es muy fácil, pero lo que contaré en este post es la forma de hacerlo sin saberla ). El mensaje a descifrar es el siguiente: LNUDVMUYRMUDVLLPXAFZUEFAIOVWVMUOVMUEVMUEZCUDVSYWCIVCFGUCUNYCGALLGRCYTIJTRNNPJQOPJEMZITYLIAYYKRYEFDUDCAMAVRMZEAMBLEXPJCCQIEHPJTYXVNMLAEZTIMUOFRUFC Como ya he dicho el método de Vigenère es un sistema de sustitución polialfabético , lo que significa que, al contrario que en un sistema...

El blog de García Larragan y Cía

Buscar este blog

Binary Exploitation (XXVII): Format string (I)

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Criptografía (I): cifrado Vigenère y criptoanálisis Kasiski

¿Qué significa el emblema de la profesión informática? (I)

Criptografía (XXIII): cifrado de Hill (I)