Témakör: Nagy méretű adatmennyiség formátuma; nagy méretű adatállomány feldolgozása, elemzése
Konzultációs kérdés:
Milyen formátumban kérjünk adatokat a SAP-ból illetve adott esetben audit.xml-t is tudó más programból, ha nagy méretű az adatmennyiség?
Milyen elemző program az mellyel kezelni lehet nagyobb állományokat, melyet egy átlagos excel ismeretekkel rendelkező felhasználó is meg tud tanulni?
A könyvvizsgálat során ellenőrizendő, bizonyítékként összegyűjtendő tranzakciók száma folyamatosan nő, sokszorosa lett a korábbi időszakokban felmerült tranzakciószámoknak, ami elsősorban a technikai fejlődésnek tudható be.
Jó hír, hogy nem csak a rögzítési és tárolási technológiák fejlődnek viharos sebességgel, de az adatok feldolgozásához szükséges eszközök köre is folyamatosan bővül.
Sokszor az Excel lehetőségei már nem bizonyulnak elegendőnek (általában elsősorban a tételszám korlát vagy a feldolgozási sebesség miatt), így más eszközök után kell nézni.
Alapvetően két lehetőség közül választhatunk, vagy az úgynevezett CAATT eszközök (számítógéppel támogatott audit eszközök és technikák) közül választjuk valamelyiket, vagy megtanuljuk valamelyik egyszerűbb, adatelemzés fókuszú programozási nyelvet.
Minden eszköz kiválasztása során nagyon fontos előzetesen megvizsgálni a ROI-t (a beruházás várható megtérülését). Azaz például nyerünk-e például annyi időt, vagy javul-e annyit a hatékonyságunk, hogy a fejlesztésünk belátható időn belül megtérüljön. A döntésünkhöz nagyon pontosan fel kell mérni a várható feladatok körét, azok ismétlődnek-e, milyen gyakorisággal fordulnak elő. Illetve arról is pontos információkat kell beszerezni, hogy az ügyfelünk milyen formátumban, milyen minőségű adatot tud adni, illetve mekkora az adatok rekordjainak a számossága.
Ad-hoc, illetve kevésbé gyakori feladatok, illetve a tanulásra viszonylag szűken rendelkezésre álló idő esetén inkább a CAATT eszközöket szoktuk javasolni. A CAATT eszközöknek jellemzően két fajtája van. Az első az ellenőrzések, auditok dokumentálására készült, míg a második az adatok mélyebb megismerését támogatja. (kick-off tesztek, ad-hoc speciális célú elemzések, adattisztítás, adatelőkészítés). Magyarországon létezik egy harmadik, vegyes kategória is, ebbe az olyan szoftverek tartoznak, amelyek mind a dokumentálással, mind az elemzéssel egyidőben foglalkoznak, ezekre egyszerre nyújtanak egy valamiféle optimumot, a két fő kategória legyakrabban használt funkcióiból. Az második kategóriára jó példa lehet például a Magyarországon is támogatással rendelkező Caseware IDEA program, míg a harmadik kategóriában a legismertebbek a hazai fejlesztésű DigitAudit, illetve a Metrum Referencia programok.
A CAATT eszközök nagy előnye az, hogy viszonylag gyorsan, akár néhány nap alatt használatba lehet venni őket, illetve számos előre megírt lekérdezést, elemzést is tartalmaznak, amit egyéb megoldások esetében a felhasználónak magának kell megírnia.
A gyakran visszatérő, rendszeresen ismétlődő adatfeldolgozási feladatokra a nagymennyiségű adatfeldolgozással foglalkozó szakemberek már a Python programozási nyelv egyes egyszerűbb, de nagyon hatékony elemeit használják. Ezen a nyelven úgynevezett scripteket lehet írni, amelyek újra és újra felhasználhatóak. Szemben a CAATT eszközökkel a Python nyelv vonatkozó részeit meg kell tanulni, amihez mindenképpen több hónapig tartó tanulásra lesz szükség, de általában megtérül a befektetett energia.
Nagyobb mennyiségű adat rendszeres ismétlődő feldolgozása során célszerű az elemzésre alkalmazott módszertanokat is áttekinteni. Létezik már erre is adatos ’iparági szabvány’. Ennek az alkalmazásával jelentősen csökkenthető az adatfeldolgozás során előforduló hibák száma.
Amennyiben az adatfeldolgozási feladatokra szükségessé válik külső szakember foglalkoztatása, akkor javasoljuk, hogy legalább data analyst, vagy data scientist tudással rendelkező szakembert foglalkoztassanak (ez nagyon új, magas presztízsű adatfeldolgozás fókuszú szakma), a köznyelvben informatikusnak nevezett szakemberek általában a kiszolgáló rendszerek, hardverek, informatikai biztonsági megoldások üzemeltetésben bizonyulnak jobbnak.
2022. november