Úvod do integrace dat Talend
Integrace dat Talend znamená kombinovat data z různých zdrojů a kombinovat je do jediného pohledu, aby se získaly nějaké smysluplné údaje z těch, které mohou společnosti nebo organizaci pomoci zlepšit jejich podnikání analýzou těchto dat. Integrace pomáhá získat data, vyčistit data a provést potřebnou transformaci atd. A poté je načíst do datového skladu.
Co je integrace dat Talend?
- Talend je nástroj ETL, který se používá pro integraci dat. Talend poskytuje řešení pro přípravu dat, kvalitu dat, integraci dat a velká data.
- Talend nabízí Open Studio, které je otevřeným zdrojem pro integraci dat a velkých dat.
- Otevřené studio Talend pomáhá při zpracování obrovských dat pomocí velkých datových komponent. Má více než 800+ komponent pro různé integrační účely. Zde budeme diskutovat o některých složkách. Pro usnadnění je vidět níže uvedený příklad
- Provozovatel simu má obrovské údaje o plánech, zákaznících, podrobnostech simu atd. Tato data jsou obrovská, takže velká data se také používají při integraci.
Zákazník Kupující sim pomocí vládního id.
Jmenuje se AB AB
Adresa jako: Chennai, Chennai
Telefonní číslo: 1234567890
Po integraci dat
Křestní jméno: AB
Příjmení: C
Adresa: Chennai, Indie
Telefonní číslo: +911234567890
Zde jsou data očištěna a přeměněna na něco smysluplnějšího.
Výhody integrace dat
Zde budeme diskutovat o výhodách integrace dat.
- Analýza obchodních trendů pomocí datové integrace
- Kombinace dat do jednoho systému
- Úspora času a efektivnější a méně přepracování
- Snadné generování sestav - využívané nástroji BI
- Údržba a vkládání dat do datového skladu a datových serverů
Aplikace integrace dat Talend
Zde budeme diskutovat o aplikaci Talend Data Integration.
1. Práce s Talendem
- Ujistěte se, že máte nainstalovanou Javu a jsou nastaveny proměnné prostředí.
- Stáhněte si open-source z webu Talend a nainstalujte software.
- Vytvořte nový projekt a dokončete nastavení
- Talend se otevře s kartou návrháře.
- Talend je nástroj založený na zatmění a komponenty lze přetáhnout z palety nebo můžete kliknout a zadat název komponenty.
2. První čtení souboru
- Vyhledejte komponent tFileinputdelimited. Tato komponenta se používá pro čtení všech oddělených souborů.
- Umístěte komponentu tFileinputdelimited. Vyhledejte tLogRow a umístěte jej do návrháře úloh.
- Klikněte pravým tlačítkem myši na tFileinputdelimited a vyberte řádek-> main a nakreslete čáru do tLogRow.
- V komponentě karta vybere cestu k souboru, který chcete číst, a oddělí řádek jako \ n. Pokud soubor obsahuje oddělovač, můžete jej uvést.
- Klikněte na schéma a zadejte podrobnosti o typu sloupce nebo celý řádek můžete přečíst jako řetězec s jedním sloupcem a hodnota oddělovače by měla být prázdná.
- Můžete také přeskočit záhlaví a zápatí.
- V komponentě tLogRow vyberte způsob, jakým chcete data zobrazit. Formát tabulky nebo jednořádkový formát.
- tLogRow zobrazuje výstup v konzole pro běh.
- Po připojení tFileinputdelimited a tLogRow spusťte úlohu ze záložky run.
- V konzole můžete vidět obsah souboru.
3. Druhá úloha pomocí Tmapu
- Přečtěte si soubor a filtrujte jej do různých výstupních souborů.
- Přečtěte si soubor v komponentě tFileinputdelimited s jedním sloupcovým schématem jako záznam.
- Komponenta Tmap - Tato komponenta pomáhá při transformaci dat pomocí některých vestavěných funkcí, jako je vyhledávání, připojení atd.
- V tmap vytvořte dva výstupy out1 a out2.
- Do filtru out1 přidejte record.contains („talend“) a nakreslete záznam na out1.
- Nakreslete řádek záznamu na jiné out2.
- Z tmapu vezměte hlavní řádky a připojte se ke dvěma tFileoutputdelimited.
- out1 odkaz na jeden tfileoutputdelimited1 jako file1.txt a out2 na jiný tfileoutputdelimited2 jako file2.txt.
- txt bude mít záznamy, které obsahují talend.
- txt bude mít záznamy, které mají jiné názvy.
4. Vestavěný a úložiště
- Vestavěný znamená, že byste měli nastavit schéma nebo podrobnosti pro připojení k databázi pokaždé.
- Úložiště se hodí k uložení podrobností do metadat, takže můžete znovu použít stejné údaje pokaždé, aniž byste pokaždé ručně museli zadávat podrobnosti. V metadatech můžete ukládat schémata souborů, připojení k databázi, připojení Hadoop, připojení podregistru, připojení s3 a mnoho dalších.
Složky integrace dat Talend
Zde budeme diskutovat o komponentách Talend Data Integration.
1. tFileList: Tato komponenta uvádí soubory v adresáři nebo složce s daným vzorem masky souboru.
2. tMysqlConnection: Tato komponenta se používá pro připojení k databázi MySQL. Komponenty Mysql mohou toto připojení použít pro snadné nastavení připojení k databázi.
3. tMysqlInput: Tato součást pomáhá spouštět dotaz databáze mysql a získat tabulku nebo sloupce. Tato součást se používá k výběru dotazů a získání podrobností.
4. tMysqlOutput: Tato komponenta se používá pro vkládání nebo aktualizaci dat v databázi MySQL.
5. tPrejob: Tato komponenta je první, která se v úloze spustí a může být spojena s dalšími komponenty pomocí funkce Subjob ok.
6. tPostjob: Tato komponenta je poslední, která se v úloze provede. Můžete to spojit pomocí připojení blízkých komponent.
7. tLogcatcher: Tato součást zachycuje varování a chyby v úloze. Toto je nejdůležitější komponenta použitá v technice zpracování chyb. Protokoly chyb lze zapisovat pomocí této komponenty spolu s tfileoutputdelimited. Existuje více než 800+ součástí.
8. Kontextová proměnná: Kontextové proměnné jsou proměnné, které lze v úloze použít kdekoli. Obsahuje hodnoty a může být předán do jiné úlohy také pomocí komponent tRun. Použití kontextových proměnných spočívá v tom, že můžeme změnit hodnotu pro různé účely. Například můžeme mít sadu hodnot pro vývojovou kontextovou skupinu a jinou sadu hodnot kontextu pro výrobu. Tímto způsobem nemusíme měnit úlohu, stačí pouze změna kontextových parametrů.
9. Vytvoření úlohy: Chcete-li vytvořit úlohu, klikněte pravým tlačítkem myši na úlohu a vyberte stavební úlohu. Úlohu sestavení můžete importovat do TAC. V konzole pro správu talentů naplánujete úlohu tak, aby se spustila také závislost sady úloh. Úlohu můžete také importovat z úložiště Nexus pomocí úlohy artefaktu.
10. Vytvořte úlohu v TAC: Otevřete dirigent úlohy v TAC. Klikněte na nové úkoly a vyberte normální nebo artefaktové úkoly. Importujte úlohu sestavení nebo vyberte ze spojení. Vyberte server úloh, na kterém bude Talend spuštěn. Uložte úkol. Nyní můžete úlohu nasadit a spustit.
Závěr
- „Zjednodušte ETL a ELT pomocí předního bezplatného nástroje ETL s otevřeným zdrojovým kódem pro velká data.“ Je slogan pro otevřené studio.
- Talend Bigdata má mnoho komponent pro zpracování obrovských dat.
- Standardní úlohy, úlohy Bigdata a Bigdata pro streamování jsou různé typy úloh dostupných v programu Talend.
- Úlohy Bigdata lze vytvořit v rámci jiskry nebo MapReduce.
Doporučený článek
Toto je průvodce integrací dat Talend. Zde diskutujeme úvod do integrace Talend Data a výhody spolu s aplikacemi a komponenty. Další informace naleznete také v dalších navrhovaných článcích
- Nástroj pro integraci dat | Nejlepší 12 nástrojů
- Talend rozhovor otázky a odpovědi
- Nejlepší nástroje vizualizace dat s jejich typy
- Talend vs Mulesoft - rozdíly
- Co je Data Mart?