středa 20. srpna 2014

Co je Open Refine a k čemu je dobrý

Open Refine (dříve Google Refine) je nástroj na čištění dat. Hodně by se s ním vyblbli asi při přechodu na nový registr vozidel. Asi trocha nadsázky, ale je pravda, že právě to je jeden případ, kdy Open Refine využijete. Když totiž získáte data ze různých zdrojů, ne vždycky jsou stejná, byť mohou být všechna správná.

Jednou třeba uvedete váhu v setinách gramu, jinde v desítkách miligramů. Google Refine je připraven vám pomoci. Vůbec zbavte se jednotky v buňce a přesuňte si ji pěkně do záhlaví. Data ať jsou pěkně číselná.

Open Refine není o vzorcích, dynamických tabulkách nebo něčem takovém. Před vámi leží stále vaše data, která zpracováváte. OR je o hromadných úpravách, které provádíte nad vámi vybranou podmnožinou dat. Ty můžete vybírat pomocí Facetů – seskupení podle hodnot v jednom sloupci, nebo podle filtrů, které na daty vyhledávají. Ještě silnější je Cluster, který vám pomůže seskupit podobné hodnoty na základě statistických funkcí. Na pečlivou transformaci hodnot v řádcích použijete nástroj Transform, kdy si můžete polaškovat s hodnotou v programátorském stylu.

Jedno video řekne více než tisíce slov, proto neváhejte navštívit domovskou stránku a na tři videa o Google Refine se tam podívat. Kdo se rozhodne nástroj vyzkoušet, stáhne ho tamtéž. Z toho, že se program spouští jako webový server a k aplikaci se přistupuje přes prohlížeč, nemusíte mít strach, je to intuitivní.