User Tools

Site Tools


statnice:vyvoj:otazka11

11. Datové sklady

Základní technologické principy datových skladů, aplikační možnosti datových skladů. Rozdíly mezi datovými sklady a datovými tržišti (data marts).

Úloha

Předpoklady: Pracujete v útvaru informatiky obchodní firmy působící na našem i zahraničním trhu. Váš informační systém je postaven na komplexním integrovaném ASW. Vaše firma má 7 zastoupení v tuzemsku a 5 v zahraničí. Roční obrat firmy se pohybuje kolem 5 mld. Kč. Jste postaven před problém zahájit řešení aplikací datových skladů ve Vašem informačním systému

Zadání:

  • Jaké klíčové otázky si na počátku řešení postavíte a s kým je budete konzultovat ?
  • Jak budete postupovat při výběru dodavatele řešení datových skladů ?
  • Jaké parametry řešení Vás budou nejvíce zajímat ?

Teorie

Datové sklady jsou rozsáhlé databáze postavené na OLAP, resp. ROLAP technologii. Jejich účelem je shromažďování dat z různých oddělených databází v podniku do jednoho celku s tím, že nad nimi lze provádět nejrůznější analýzy. Ukládání dat je zde WORM/ND – nikdy se nemažou, nelze je uživatelsky změnit. Aktualizace probíhá dávkově v pravidelných intervalech a jsou zpracovávána data v objemu několika GB. DWH zajišťují transformaci dat z různých bází, výběr toho podstatného ,příslušné agregace a další poklady pro analýzy časových řad a predikci trendů. Kromě konkrétního datového snímku je vždy ukládána i časová dimenze, proto lze v datových skladech sledovat vývoj v čase. Při využití technologie ROLAP lze nad databázemi provádět i relační dotazy. Datový sklad je řešení na úrovni top managementu – zahrnuje celou firmu a je technicky, datově i finančně poměrně dost náročné.

V databázi je definována určitá n-rozměrná datová krychle, kde 1 rozměr definuje čas a další rozměry jednotlivé atributy. Umožňuje provádět nejrůznější agregační a výpočetní funkce velice rychle nad rozsáhlými daty. V případě ROLAP je tato koncepce implementována na bázi relační databáze, což přináší výhodu použití i standardních SQL dotazů. Z primárních databází se data transformují, extrahují a agregují pomocí tzv. datových pump, což jsou aplikace vytvářené za tímto účelem. Vzhledem k tomu, že je to dost náročné, jsou na to expertní postupy.

Data marts jsou menší datové sklady na úrovních divizí či oddělení. Vznikají proto, že vytvářet data warehouse je poměrně dost náročné a ne vždycky se to podaří rychle zvládnout. Proto se vytvářejí data marts, které mohou být chápány jako mezistupeň. Jádrem datamartu je tzv. repository, které obsahuje metainformace o uložení dat v jednotlivých databázích firmy, má nastaveny parametry jejich zpracování, přístupy k datům, atd. Systém data martu obsahuje databázi repository, která obsahuje veškeré metainformace, agenty pro trasformaci dat, klienta pro admnistraci a manažera nad databází, který vykonává aktualizace. Datamart je vhodný jako mezistupeň při aplikaci data warehouse, ale i samostatně – je to daleko rychlejší řešení, je plně distribuované a dokáže lépe odrážet aktuální potřebu uživatelů, je škálovatelnější, atd.

Dolování dat – specifické metody získávání dosud neznámých dat a vztahů z databází – hledání asociací, hledání shluků, regresní analýza a jiné statistické metody, neuronové sítě, fuzzy logika, asociační pravidla, analýza časových řad, atd.

Praxe

Jak to má dodavatel zmáknuté, komu a jak toto řešení nabízí, jaké má podkladové a nadstavbové databáze, jaká data budeme potřebovat. Zdali má dodavatel dostatek odborníků a zkušeností s vývojem a implementací těchto technologií.

Průzkum trhu, stanovení kritérií, výběrové řízení, referenční instalace. Jestli mají metodiku pro implementaci, zda jsou schopni reagovat na měnící se potřeby.

statnice/vyvoj/otazka11.txt · Last modified: 18.05.2008 10:38 by xvalo07