Úvod do modelování dat Cassandra

Abychom čelili obrovskému množství informací, objevily se nové technologie správy dat. Tyto techniky se liší od tradičních přístupů relační databáze. Souhrnně se označují jako NoSQL. Cassandra je jednou z obecně známých databází NoSQL. Mezi další oblíbené databázové produkty NoSQL patří MongoDB, Riak, Redis, Neo4j atd. V tomto tématu se budeme učit o Cassandra Data Modeling.

Tyto databáze NoSQL překonávají nedostatky odhalené relační databází začleněním obrovského objemu, který obsahuje organizované, poloorganizované a nestrukturované informace. Škálovatelnost a výkon webových aplikací, nižší náklady a podpora pro agilní vývoj softwaru jsou některé z jeho výhod. Cassandra je fungující open-source platforma v Apache Software Foundation, a proto je známá také jako Apache Cassandra. Cassandra může dohlížet na obrovský objem organizovaných, poloorganizovaných a nestrukturovaných dat ve velkém distribuovaném clusteru napříč několika centry. Poskytuje vysokou škálovatelnost, vysoký výkon a podporuje flexibilní model.

Modelování dat je pochopení toku a struktury, které je třeba použít k vývoji softwaru. Identifikuje hlavní objekty, jejich vlastnosti a vztah k jiným objektům. Toto je často první krok a nejdůležitější krok při vytváření jakéhokoli softwaru. Stejně jako je návrh plánu pro architekta, datový model je pro vývojáře softwaru. To nejen pomáhá analyzovat strukturu, ale také vám umožňuje předvídat jakékoli funkční nebo technické potíže, které se mohou objevit později.

Tok tradičního modelování dat začíná koncepčním modelováním dat. Tento koncepční datový model je poté mapován na relační datový model, který nakonec vytvoří schéma relační databáze. V tomto procesu je primární věcí třídění dat, které se provádí na základě korelace porozuměním a dotazováním.

Modelování dat v Cassandře se liší od modelování dat v relační databázi. Relační datové modelování je založeno na samotném konceptuálním datovém modelu. Což používá SQL k načtení a provedení akcí. Cassandra používá CQL (Cassandra Query Language), který má SQL jako syntax. Modelování dat v Cassandře začíná uspořádáním dat a porozuměním jejich vztahu k objektům. Zde je prostor klíčů analogický databázi, která obsahuje různé záznamy a tabulky. Klastr může mít více prostorů klíčů. Různé uzly se spojí a vytvoří jeden klastr. Na úrovni prostoru kláves můžeme definovat atributy, jako je faktor replikace.

Tabulka Model

Porozumění stolu v Cassandře je zcela odlišné od existujícího pojmu. Tabulku CQL lze považovat za skupinu oddílů nazvanou rodina sloupců, která obsahuje řádky se stejnou strukturou. Každý oddíl obsahuje jedinečný klíč oddílu a každý řádek obsahuje volitelný singulární klíč clusteru. Kombinace oddílu a klíče clusteru se nazývá primární klíč, který se používá k identifikaci řádku v tabulce. Tabulka s klíčem klastru bude mít víceřádkové oddíly, zatímco tabulka bez klastrového klíče bude mít pouze jeden řádek oddílu.

Model dotazu

Tok Casandra začíná od konceptuálního datového modelu spolu s pracovním tokem aplikace, který je uveden jako vstupy pro získání logického datového modelu, a konečně pro získání fyzického datového modelu.

Uživatelské dotazy jsou definovány v pracovním postupu aplikace. Konceptuální modelování dat se používá k zachycení vztahu mezi různými entitami a jejich atributy. Proto název ER model.

Logické modelování dat

Jádrem metodiky Cassandra pro modelování dat je logické modelování dat. Konceptuální datový model je mapován na logický datový model na základě dotazů definovaných v pracovním postupu aplikace. Toto koncepční a logické mapování řízené dotazem je definováno principy modelování dat, pravidly mapování a mapovacími vzory.

Principy modelování dat

Následující čtyři principy poskytují základ pro mapování koncepčních na logické datové modely.

  1. Poznejte svá data: Aby bylo možné data uspořádat správně, musí být dobře známy entity, atributy a jejich vztahy, aby vytvořily koncepční datový model.
  2. Poznejte své dotazy: Pro efektivní uspořádání dat se používají dotazy. Nejlepší možností, kterou je třeba provést, je oddíl na dotaz.
  3. Vnoření dat: Pro uspořádání více entit stejného typu společně podle známého kritéria se používá vnoření dat. Používá se k načtení více entit z jednoho oddílu.
  4. Duplikace dat: V Cassandře je vždy lepší mít duplicitu dat při spojení, protože pomáhá účinně podporovat různé dotazy na stejná data.

Na základě principů datového modelování jsou definována mapovací pravidla pro provádění přechodu od konceptuálního datového modelu k logickému datovému modelu.

Pravidla mapování:

  1. Entity a vztahy: Typy entit a vztahů se mapují na tabulky, zatímco entity a vztahy se mapují na řádky tabulek.
  2. Atributy hledání rovnosti: Atributy hledání rovnosti se používají ve sloupcích obsahujících primární klíč k účasti na hledání rovnosti.
  3. Atributy hledání nerovnosti: Atributy hledání nerovnosti se používají také ve sloupcích obsahujících primární klíč k vytváření různých výsledků vyhledávání.
  4. Atribut objednávky: Atribut objednávky se používá k seskupování podle dat v určitém pořadí
  5. Klíčový atribut: Tato vlastnost pomáhá identifikovat jedinečné řádky

Na základě výše uvedených mapovacích pravidel navrhujeme vzory mapování, které slouží jako základ pro automatizaci návrhu databáze. Prostřednictvím daného dotazu a konceptuálního datového modelu definuje každý vzor konečnou podobu návrhu schématu.

Fyzikální model

Jakmile je logický model na místě, vývoj fyzického modelu je relativně snadný. Fyzický datový model představuje data v databázi. Po přiřazení datových typů se odhadne velikost oddílu a provede se testování za účelem analýzy modelu pro lepší optimalizaci.

Závěrem lze říci, že když je k dispozici obrovský objem a rozmanitost údajů, které mají být analyzovány a zpracovány. Je nutné zvolit přístup, který dokáže účinně extrahovat analyzovaná data. Cassandra se svou vysokou škálovatelností a schopností ukládat masivní data nabízí rychlé vyhledávání informací pro návrh datových modelů pro komplexní struktury. Modelování dat Cassandra a veškerá jeho funkčnost lze zahrnout následujícími způsoby. Zde vytváříme návrh koncepčních dat na základě dotazů a pomocí nastínených mapovacích pravidel a mapovacích vzorů umožňuje přechod od koncepčního modelu k logickému modelu. Poté popíšeme fyzický model, abychom získali zcela jedinečný mentální obraz designu.

Doporučené články

Toto je průvodce modelováním dat Cassandra. Zde diskutujeme o modelech tabulek, modelech dotazů, logickém modelování dat a principech modelování dat. Další informace naleznete také v následujících článcích -

  1. Datové modely v DBMS
  2. Co je datové modelování?
  3. Modelování datových skladů
  4. Dotazy na rozhovor s analytikou dat
  5. Top 6 typů spojení v MySQL s příklady

Kategorie: