Analýza podozrivého súboru "Outstanding Payment.jar" - 1. časť
Je antivírus stopercentnou ochranou proti škodlivým súborom? Aké techniky používajú autori malwaru na to, aby sa vyhli detekcii? Séria článkov popisuje náš postup pri statickej analýze podozrivého Java súboru a odhaľuje zaujímavé zistenia o jeho štruktúre aj o samotnom procese analýzy.
Pred nedávnom sa nám na stôl dostal podozrivý súbor „Outstanding Payment.jar“. Niektoré antivíry tento súbor označili za malware, zaujímali nás ale ďalšie podrobnosti. Predovšetkým nám išlo o to zistiť, aké konkrétne aktivity tento malware na infikovanom stroji vykonáva, a prípadne identifikovať protistrany, s ktorými komunikuje.
Po extrahovaní archívu bolo podľa názvov jednotlivých súborov na prvý pohľad jasné, že ide o obfuskovanú Java aplikáciu. Archív obsahoval:
- triedy p5569.class až p5595.class,
- 3 binárne súbory:
- n720175702
- n1436460589
- n1139827387
Prvým krokom bola prirodzene dekompilácia, pri ktorej poslúžil program Java Decompiler (https://github.com/java-decompiler/jd-gui).
Názvy metód a premenných boli samozrejme tiež obfuskované, vďaka čomu bol kód aplikácie nečitateľný.
Layer I – Strings Obfuscation
Jednou z prvých vecí na ktoré sa v takejto chvíli sústredím sú textové reťazce. Ukázalo sa, že v aplikácii existuje množstvo krátkych metód, ktoré po krátkom aritmetickom výpočte vracajú pravdepodobne dekódovaný reťazec:
Keďže každá metóda používala odlišný spôsob výpočtu (iná množina a poradie operácií), nebolo možné vytvoriť jednotný dekódovací algoritmus. Na druhej strane, zdrojový kód každej dekódujúcej metódy bol k dispozícii, preto stačilo všetky tieto metódy pozbierať, napísať Java kód na ich zavolanie, skompilovať a výsledné reťazce uložiť.
Na tento účel som vytvoril krátky Python skript, ktorý prešiel všetky zdrojové .java súbory a vyhľadal metódy (názov a návratový výraz) podľa jednoduchého regulárneho výrazu:
Z pozbieraných metód potom vygeneroval Java program StringDecoder.java, ktorý pri spustení dekódoval všetky reťazce a vyprodukoval výstup vo formáte „METHOD_NAME [TAB] DECODED_STRING“. Keďže celkový počet reťazcov bol vyše tisíc, narazil som na obmedzenie maximálnej dĺžky metódy v Jave, a musel som preto rozdeliť dekódovacie volania do viacerých pomocných blokov (metódy m0-m11).
Väčšina dekódovaných reťazcov obsahovala názvy tried a metód, dalo sa teda predpokladať, že narazíme na množstvo reflexívnych volaní. Okrem iného išlo aj o kryptografické metódy naznačujúce šifrovanie:
V neposlednom rade zoznam reťazcov obsahoval riadok:
Už v tomto kroku teda bolo jasné (alebo aspoň veľmi pravdepodobné), že ide o variantu Java malwaru jRAT (Remote Administration Tool written in Java).
Keďže názvy dekódovacích metód boli unikátne naprieč celou aplikáciu, pomocou ďalšieho krátkeho Python skriptu bolo možné nahradiť ich volania za dekódované reťazce. To ale nepomohlo z hľadiska analýzy funkcionality – tok programu (control flow) nebol viditeľný najmä kvôli množstvu krátkych niekoľko riadkových metód s nezmyselnými menami.
Layer I – Control Flow Obfuscation
Ďalším krokom bolo teda rozbalenie volaní krátkych metód (proces ktorý bežne vykonáva prekladač pri volaniach inline funkcií). Výhodou bol fakt, že všetky metódy boli statické, opäť teda stačilo použiť niekoľko regulárnych výrazov na extrakciu definícií a nahradenie volaní priamo telom funkcie.
Ukázalo sa, že celé jadro aplikácie je tvorené stavovým automatom:
Na začiatku programu sa stavová premenná nastavila na počiatočnú hodnotu, a potom v každej iterácii cyklu došlo k vykonaniu jedného kroku výpočtu a nastaveniu novej hodnoty stavovej premennej.
Zrejme teda došlo k transformácii pôvodne sekvenčného kódu, a to tak, že jednotlivým príkazom (alebo krátkym blokom kódu) boli priradené unikátne stavy, a ich poradie bolo následne poprehadzované:
Túto techniku bežne používajú niektoré automatizované obfuskátory a pri pohľade na takýto kód je neľahké, až prakticky nemožné sledovať tok programu (postupnosť krokov, vetvenia, cykly...).
Navyše, v tomto prípade tok programu nebol riadený iba jednou stavovou premennou. Okrem nej bol použitý zásobník, do ktorého sa ukladali a neskôr vyberali budúce stavy, manuálna analýza po krokoch by teda bola veľmi náročná.
Našťastie bolo možné operácie, ktoré upravovali stav automatu, izolovať. Išlo konkrétne o 3 typy operácií:
- priradenie číselnej hodnoty do stavovej premennej (p5595.f481768237511843 = ...),
- vloženie novej hodnoty do zásobníka (java.util.LinkedList.getDeclaredMethod(„push“, ...)),
- odobratie hodnoty z vrcholu zásobníka (java.util.LinkedList.getDeclaredMethod(„pop“, ...).
Stačilo teda opäť napísať krátky Python skript, ktorý celý automat načítal, a postupne interpretoval operácie upravujúce aktuálny stav, pričom ostatné príkazy v jednotlivých stavoch vypisoval na výstup. Výsledkom bol už oveľa čitateľnejší sekvenčný kód, vhodný na manuálnu analýzu:
Layer I – Resources Encryption
Ukázalo sa, že aplikácia načíta svoje 3 zdroje, a postupne z nich sofistikovaným spôsobom dekóduje súbory. Každý výsledný súbor je zložený z niekoľkých častí, ktoré sú rozprestreté medzi 3 zdrojmi – na rôznych pozíciách, s rôznou veľkosťou – a zašifrované algoritmom AES. Jednotlivé fragmenty sú definované pomocou reťazcov vo formáte: „size:offset:resId;size:offset:resId...“.
Nazačiatku sú dekódované 3 súbory:
Trieda Loader je potom použitá na dekódovanie ďalších dát, pričom najprv je načítaná a dekódovaná mapa súborov (serializovaný Java objekt typu java.util.Map<String, String>):
Po dekódovaní je možné ju načítať v Jave pomocou triedy ObjectInputStream:
Táto mapa obsahuje popisy fragmentov (size:offset:resId;size:offset:resId...) a názvy súborov a trieda Loader ich všetky postupne načíta a dešifruje. AES kľúč je natvrdo uložený v kóde aplikácie a je rovnaký pre všetky dekódované súbory.
Úspešné dekódovanie a spojenie všetkých fragmentov odhalilo celý rad nových súborov:
Bohužiaľ, pravdepodobne ide o ďalšiu vrstvu obfuskácie – je vidieť množstvo tried s nezmyselnými názvami.
Každopádne, v tejto fáze sa mi podarilo rozlúsknuť prvú vrstvu malwaru. Jej hlavnou úlohou bolo dopraviť škodlivý kód na cieľovú stanicu a vyhnúť sa detekcii.
Samotný škodlivý kód bol zašifrovaný a rozkúskovaný do 3 binárnych súborov, vďaka čomu antivírus nebol schopný rozpoznať akúkoľvek signatúru.
Kód tvoriaci obálku využil na maskovanie samého seba 3 hlavné techniky:
- reflexívne volania
- java.lang.String.getDeclaredMethod("getBytes", new Class[0]).invoke("2173853979931072", new Object[0]);
- obfuskáciu textových reťazcov
- transformáciu toku programu (control flow)
Analýze súborov, ktoré sa mi podarilo získať sa budem venovať v ďalšom pokračovaní tohto článku.