Úvod do integrace dat Talend

Integrace dat Talend znamená kombinovat data z různých zdrojů a kombinovat je do jediného pohledu, aby se získaly nějaké smysluplné údaje z těch, které mohou společnosti nebo organizaci pomoci zlepšit jejich podnikání analýzou těchto dat. Integrace pomáhá získat data, vyčistit data a provést potřebnou transformaci atd. A poté je načíst do datového skladu.

Co je integrace dat Talend?

  • Talend je nástroj ETL, který se používá pro integraci dat. Talend poskytuje řešení pro přípravu dat, kvalitu dat, integraci dat a velká data.
  • Talend nabízí Open Studio, které je otevřeným zdrojem pro integraci dat a velkých dat.
  • Otevřené studio Talend pomáhá při zpracování obrovských dat pomocí velkých datových komponent. Má více než 800+ komponent pro různé integrační účely. Zde budeme diskutovat o některých složkách. Pro usnadnění je vidět níže uvedený příklad
  • Provozovatel simu má obrovské údaje o plánech, zákaznících, podrobnostech simu atd. Tato data jsou obrovská, takže velká data se také používají při integraci.

Zákazník Kupující sim pomocí vládního id.
Jmenuje se AB AB
Adresa jako: Chennai, Chennai
Telefonní číslo: 1234567890

Po integraci dat

Křestní jméno: AB
Příjmení: C
Adresa: Chennai, Indie
Telefonní číslo: +911234567890

Zde jsou data očištěna a přeměněna na něco smysluplnějšího.

Výhody integrace dat

Zde budeme diskutovat o výhodách integrace dat.

  1. Analýza obchodních trendů pomocí datové integrace
  2. Kombinace dat do jednoho systému
  3. Úspora času a efektivnější a méně přepracování
  4. Snadné generování sestav - využívané nástroji BI
  5. Údržba a vkládání dat do datového skladu a datových serverů

Aplikace integrace dat Talend

Zde budeme diskutovat o aplikaci Talend Data Integration.

1. Práce s Talendem

  • Ujistěte se, že máte nainstalovanou Javu a jsou nastaveny proměnné prostředí.
  • Stáhněte si open-source z webu Talend a nainstalujte software.
  • Vytvořte nový projekt a dokončete nastavení
  • Talend se otevře s kartou návrháře.
  • Talend je nástroj založený na zatmění a komponenty lze přetáhnout z palety nebo můžete kliknout a zadat název komponenty.

2. První čtení souboru

  • Vyhledejte komponent tFileinputdelimited. Tato komponenta se používá pro čtení všech oddělených souborů.
  • Umístěte komponentu tFileinputdelimited. Vyhledejte tLogRow a umístěte jej do návrháře úloh.
  • Klikněte pravým tlačítkem myši na tFileinputdelimited a vyberte řádek-> main a nakreslete čáru do tLogRow.
  • V komponentě karta vybere cestu k souboru, který chcete číst, a oddělí řádek jako \ n. Pokud soubor obsahuje oddělovač, můžete jej uvést.
  • Klikněte na schéma a zadejte podrobnosti o typu sloupce nebo celý řádek můžete přečíst jako řetězec s jedním sloupcem a hodnota oddělovače by měla být prázdná.
  • Můžete také přeskočit záhlaví a zápatí.
  • V komponentě tLogRow vyberte způsob, jakým chcete data zobrazit. Formát tabulky nebo jednořádkový formát.
  • tLogRow zobrazuje výstup v konzole pro běh.
  • Po připojení tFileinputdelimited a tLogRow spusťte úlohu ze záložky run.
  • V konzole můžete vidět obsah souboru.

3. Druhá úloha pomocí Tmapu

  • Přečtěte si soubor a filtrujte jej do různých výstupních souborů.
  • Přečtěte si soubor v komponentě tFileinputdelimited s jedním sloupcovým schématem jako záznam.
  • Komponenta Tmap - Tato komponenta pomáhá při transformaci dat pomocí některých vestavěných funkcí, jako je vyhledávání, připojení atd.
  • V tmap vytvořte dva výstupy out1 a out2.
  • Do filtru out1 přidejte record.contains („talend“) a nakreslete záznam na out1.
  • Nakreslete řádek záznamu na jiné out2.
  • Z tmapu vezměte hlavní řádky a připojte se ke dvěma tFileoutputdelimited.
  • out1 odkaz na jeden tfileoutputdelimited1 jako file1.txt a out2 na jiný tfileoutputdelimited2 jako file2.txt.
  • txt bude mít záznamy, které obsahují talend.
  • txt bude mít záznamy, které mají jiné názvy.

4. Vestavěný a úložiště

  • Vestavěný znamená, že byste měli nastavit schéma nebo podrobnosti pro připojení k databázi pokaždé.
  • Úložiště se hodí k uložení podrobností do metadat, takže můžete znovu použít stejné údaje pokaždé, aniž byste pokaždé ručně museli zadávat podrobnosti. V metadatech můžete ukládat schémata souborů, připojení k databázi, připojení Hadoop, připojení podregistru, připojení s3 a mnoho dalších.

Složky integrace dat Talend

Zde budeme diskutovat o komponentách Talend Data Integration.

1. tFileList: Tato komponenta uvádí soubory v adresáři nebo složce s daným vzorem masky souboru.

2. tMysqlConnection: Tato komponenta se používá pro připojení k databázi MySQL. Komponenty Mysql mohou toto připojení použít pro snadné nastavení připojení k databázi.

3. tMysqlInput: Tato součást pomáhá spouštět dotaz databáze mysql a získat tabulku nebo sloupce. Tato součást se používá k výběru dotazů a získání podrobností.

4. tMysqlOutput: Tato komponenta se používá pro vkládání nebo aktualizaci dat v databázi MySQL.

5. tPrejob: Tato komponenta je první, která se v úloze spustí a může být spojena s dalšími komponenty pomocí funkce Subjob ok.

6. tPostjob: Tato komponenta je poslední, která se v úloze provede. Můžete to spojit pomocí připojení blízkých komponent.

7. tLogcatcher: Tato součást zachycuje varování a chyby v úloze. Toto je nejdůležitější komponenta použitá v technice zpracování chyb. Protokoly chyb lze zapisovat pomocí této komponenty spolu s tfileoutputdelimited. Existuje více než 800+ součástí.

8. Kontextová proměnná: Kontextové proměnné jsou proměnné, které lze v úloze použít kdekoli. Obsahuje hodnoty a může být předán do jiné úlohy také pomocí komponent tRun. Použití kontextových proměnných spočívá v tom, že můžeme změnit hodnotu pro různé účely. Například můžeme mít sadu hodnot pro vývojovou kontextovou skupinu a jinou sadu hodnot kontextu pro výrobu. Tímto způsobem nemusíme měnit úlohu, stačí pouze změna kontextových parametrů.

9. Vytvoření úlohy: Chcete-li vytvořit úlohu, klikněte pravým tlačítkem myši na úlohu a vyberte stavební úlohu. Úlohu sestavení můžete importovat do TAC. V konzole pro správu talentů naplánujete úlohu tak, aby se spustila také závislost sady úloh. Úlohu můžete také importovat z úložiště Nexus pomocí úlohy artefaktu.

10. Vytvořte úlohu v TAC: Otevřete dirigent úlohy v TAC. Klikněte na nové úkoly a vyberte normální nebo artefaktové úkoly. Importujte úlohu sestavení nebo vyberte ze spojení. Vyberte server úloh, na kterém bude Talend spuštěn. Uložte úkol. Nyní můžete úlohu nasadit a spustit.

Závěr

  • „Zjednodušte ETL a ELT pomocí předního bezplatného nástroje ETL s otevřeným zdrojovým kódem pro velká data.“ Je slogan pro otevřené studio.
  • Talend Bigdata má mnoho komponent pro zpracování obrovských dat.
  • Standardní úlohy, úlohy Bigdata a Bigdata pro streamování jsou různé typy úloh dostupných v programu Talend.
  • Úlohy Bigdata lze vytvořit v rámci jiskry nebo MapReduce.

Doporučený článek

Toto je průvodce integrací dat Talend. Zde diskutujeme úvod do integrace Talend Data a výhody spolu s aplikacemi a komponenty. Další informace naleznete také v dalších navrhovaných článcích

  1. Nástroj pro integraci dat | Nejlepší 12 nástrojů
  2. Talend rozhovor otázky a odpovědi
  3. Nejlepší nástroje vizualizace dat s jejich typy
  4. Talend vs Mulesoft - rozdíly
  5. Co je Data Mart?

Kategorie: