HBase ట్యుటోరియల్: HBase పరిచయం మరియు ఫేస్బుక్ కేస్ స్టడీ



ఈ HBase ట్యుటోరియల్ బ్లాగ్ HBase & దాని లక్షణాలను మీకు పరిచయం చేస్తుంది. ఇది HBase యొక్క ప్రయోజనాలను అర్థం చేసుకోవడానికి ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీని కూడా వర్తిస్తుంది.

మేము మా చెప్పినట్లు బ్లాగ్, HBase మా హడూప్ పర్యావరణ వ్యవస్థలో ముఖ్యమైన భాగం. కాబట్టి ఇప్పుడు, నేను మిమ్మల్ని HBase ట్యుటోరియల్ ద్వారా తీసుకెళ్లాలనుకుంటున్నాను, అక్కడ నేను మిమ్మల్ని అపాచీ HBase కి పరిచయం చేస్తాను, ఆపై, మేము ఫేస్బుక్ మెసెంజర్ కేస్-స్టడీ ద్వారా వెళ్తాము. మేము ఈ HBase ట్యుటోరియల్ బ్లాగులో ఈ క్రింది అంశాలను కవర్ చేయబోతున్నాము:

అపాచీ హెచ్‌బేస్ ట్యుటోరియల్: చరిత్ర

HBase చరిత్రతో ప్రారంభిద్దాం మరియు కొంతకాలం HBase ఎలా అభివృద్ధి చెందిందో తెలుసుకుందాం.





html మరియు xml మధ్య తేడాలు

HBase చరిత్ర - HBase ట్యుటోరియల్ - ఎడురేకా

  • అపాచీ హెచ్‌బేస్ గూగుల్ యొక్క బిగ్ టేబుల్ తర్వాత రూపొందించబడింది, ఇది డేటాను సేకరించడానికి మరియు మ్యాప్స్, ఫైనాన్స్, ఎర్త్ వంటి వివిధ గూగుల్ సేవలకు అభ్యర్థనను అందించడానికి ఉపయోగించబడుతుంది.
  • అపాచీ హెచ్‌బేస్ పవర్‌సెట్ ఫర్ నేచురల్ లాంగ్వేజ్ సెర్చ్ సంస్థ ప్రారంభించింది, ఇది భారీ మరియు చిన్న డేటా సెట్‌లను నిర్వహిస్తోంది.
  • అపాచీ హెచ్‌బేస్ మొట్టమొదట ఫిబ్రవరి 2007 లో విడుదలైంది. తరువాత జనవరి 2008 లో, హెచ్‌బేస్ అపాచీ హడూప్ యొక్క ఉప ప్రాజెక్టుగా మారింది.
  • 2010 లో, HBase అపాచీ యొక్క ఉన్నత స్థాయి ప్రాజెక్టుగా మారింది.

HBase ట్యుటోరియల్ | NoSQL డేటాబేస్ | ఎడురేకా



అపాచీ హెచ్‌బేస్ చరిత్ర గురించి తెలుసుకున్న తరువాత, అపాచీ హెచ్‌బేస్ అంటే ఏమిటో తెలుసుకోవాలనే ఆసక్తి మీకు ఉంటుంది. మనం మరింత ముందుకు వెళ్లి చూద్దాం.

అపాచీ హెచ్‌బేస్ ట్యుటోరియల్: హెచ్‌బేస్ పరిచయం

HBase ఒక ఓపెన్ సోర్స్, మల్టీ డైమెన్షనల్, డిస్ట్రిబ్యూటెడ్, స్కేలబుల్ మరియు a NoSQL డేటాబేస్ జావాలో వ్రాయబడింది. HBase పైన నడుస్తుంది HDFS (హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్) మరియు హడూప్‌కు బిగ్‌టేబుల్ వంటి సామర్థ్యాలను అందిస్తుంది. చిన్న డేటా సెట్ల యొక్క పెద్ద సేకరణను నిల్వ చేయడానికి తప్పును తట్టుకునే మార్గాన్ని అందించడానికి ఇది రూపొందించబడింది.

అప్పటి నుండి, భారీ డేటా సెట్లలో వేగంగా చదవడానికి / వ్రాయడానికి ప్రాప్యతను అందించడం ద్వారా HBase అధిక నిర్గమాంశ మరియు తక్కువ జాప్యాన్ని సాధిస్తుంది. అందువల్ల, పెద్ద మొత్తంలో డేటాకు వేగవంతమైన & యాదృచ్ఛిక ప్రాప్యత అవసరమయ్యే అనువర్తనాల ఎంపిక HBase.



ఇది వేగంగా మరియు యాదృచ్ఛిక రీడ్-రైట్ల అవసరాన్ని తీర్చడానికి కంప్రెషన్, ఇన్-మెమరీ ఆపరేషన్స్ మరియు బ్లూమ్ ఫిల్టర్లను (ఒక సెట్‌లో విలువ ఉందో లేదో చెప్పే డేటా స్ట్రక్చర్) అందిస్తుంది.

దీన్ని ఉదాహరణ ద్వారా అర్థం చేసుకుందాం: జెట్ ఇంజిన్ ప్రెజర్ సెన్సార్, టెంపరేచర్ సెన్సార్, స్పీడ్ సెన్సార్ మొదలైన వివిధ సెన్సార్ల నుండి వివిధ రకాల డేటాను ఉత్పత్తి చేస్తుంది, ఇది ఇంజిన్ ఆరోగ్యాన్ని సూచిస్తుంది. విమాన సమస్యలు మరియు స్థితిని అర్థం చేసుకోవడానికి ఇది చాలా ఉపయోగపడుతుంది. నిరంతర ఇంజిన్ ఆపరేషన్లు ప్రతి విమానానికి 500 GB డేటాను ఉత్పత్తి చేస్తాయి మరియు రోజుకు సుమారు 300 వేల విమానాలు ఉన్నాయి. కాబట్టి, అటువంటి డేటాకు నిజ సమయంలో వర్తించే ఇంజిన్ అనలిటిక్స్ సమస్యలను ముందుగానే నిర్ధారించడానికి మరియు ప్రణాళిక లేని సమయ వ్యవధిని తగ్గించడానికి ఉపయోగపడుతుంది. పెద్ద మొత్తంలో డేటాను నిల్వ చేయడానికి దీనికి పంపిణీ వాతావరణం అవసరం ఫాస్ట్ రాండమ్ చదువుతుంది మరియు వ్రాస్తుంది రియల్ టైమ్ ప్రాసెసింగ్ కోసం. ఇక్కడ, HBase రెస్క్యూ కోసం వస్తుంది. నేను నా తదుపరి బ్లాగులో HBase చదవడం మరియు వ్రాయడం గురించి వివరంగా మాట్లాడుతాను HBase ఆర్కిటెక్చర్ .

మనకు తెలిసినట్లుగా, HBase ఒక NoSQL డేటాబేస్. కాబట్టి, HBase గురించి మరింత అర్థం చేసుకోవడానికి ముందు, మొదట NoSQL డేటాబేస్ మరియు దాని రకాలను గురించి చర్చించటానికి అనుమతిస్తుంది.

అపాచీ HBase ట్యుటోరియల్: NoSQL డేటాబేస్

NoSQL అంటే SQL మాత్రమే కాదు . NoSQL డేటాబేస్‌లు పట్టిక ఆకృతులు, అన్‌కైల్ రిలేషనల్ డేటాబేస్‌లు కాకుండా ఇతర డేటాను సూచించే విధంగా రూపొందించబడ్డాయి. డేటాబేస్లలో డేటాను సూచించడానికి ఇది వేర్వేరు ఫార్మాట్లను ఉపయోగిస్తుంది మరియు అందువల్ల, వాటి ప్రాతినిధ్య ఆకృతి ఆధారంగా వివిధ రకాల NoSQL డేటాబేస్లు ఉన్నాయి. NoSQL డేటాబేస్ చాలావరకు లభ్యత మరియు వేగం మీద స్థిరత్వాన్ని పెంచుతాయి. ఇప్పుడు, మనం ముందుకు సాగి, వివిధ రకాల NoSQL డేటాబేస్ మరియు వాటి ప్రాతినిధ్య ఆకృతుల గురించి అర్థం చేసుకుందాం.

కీ-విలువ దుకాణాలు:

ఇది కీలు మరియు విలువలను కలిగి ఉన్న స్కీమా-తక్కువ డేటాబేస్. ప్రతి కీ, బైట్ల శ్రేణి అయిన విలువను సూచిస్తుంది, స్ట్రింగ్, BLOB, XML మొదలైనవి కావచ్చు. ఉదా. లంబోర్ఘిని ఒక కీలకం మరియు గల్లార్డో, అవెంటడార్, ముర్సిలాగో, రెవెంటన్, డయాబ్లో, హురాకాన్, వెనెనో, సెంటెనారియో మొదలైన వాటికి విలువను సూచించవచ్చు.

కీ-వాల్యూ స్టోర్స్‌ డేటాబేస్‌లు: ఏరోస్పైక్, కౌచ్‌బేస్, డైనమో, ఫెయిర్‌కామ్ సి-ట్రీఏసి, ఫౌండేషన్‌డిబి, హైపర్‌డెక్స్, మెమ్‌కాష్‌డిబి, మంప్స్, ఒరాకిల్ నోస్క్యూల్ డేటాబేస్, ఓరియంట్ డిబి, రెడిస్, రియాక్, బర్కిలీ డిబి.

యూజ్-కేస్

కీ-విలువ దుకాణాలు పరిమాణాన్ని చక్కగా నిర్వహిస్తాయి మరియు తక్కువ జాప్యంతో స్థిరమైన రీడ్ / రైట్ ఆపరేషన్లను ప్రాసెస్ చేయడంలో మంచివి. ఇది వారికి పరిపూర్ణంగా ఉంటుందివినియోగదారు ప్రాధాన్యత మరియు ప్రొఫైల్ దుకాణాలు,ఉత్పత్తి సిఫార్సులు భవిష్యత్ కస్టమర్ ఉత్పత్తి సిఫార్సులను నడపడానికి చిల్లర వెబ్‌సైట్‌లో చూసిన తాజా అంశాలు,ప్రకటనల కస్టమర్ షాపింగ్ అలవాట్ల ఫలితంగా ప్రతి కస్టమర్‌కు అనుకూలీకరించిన ప్రకటనలు, కూపన్లు మొదలైనవి నిజ సమయంలో లభిస్తాయి.

పత్రం ఆధారిత :

ఇది అదే కీ విలువ జతను అనుసరిస్తుంది, అయితే ఇది XML, JSON, BSON వంటి సెమీ స్ట్రక్చర్. ఈ నిర్మాణాలను పత్రాలుగా పరిగణిస్తారు.

డాక్యుమెంట్ బేస్డ్ డేటాబేస్: అపాచీ కౌచ్డిబి, క్లస్టర్ పాయింట్, కౌచ్బేస్, డాక్యుమెంట్ డిబి, హైపర్డెక్స్, ఐబిఎం డొమినో, మార్క్ లాజిక్, మొంగోడిబి, ఓరియంట్డిబి, క్విక్స్, రీథింక్డిబి.

యూజ్-కేస్

పత్రం సౌకర్యవంతమైన స్కీమాకు మద్దతు ఇస్తున్నందున, ట్విట్టర్, ఇ-కామర్స్ వెబ్‌సైట్లు వంటి వివిధ సేవల్లో యూజర్ డేటాబేస్‌లను సృష్టించడానికి ఫాస్ట్ రీడ్ రైట్ మరియు విభజన అనుకూలంగా ఉంటుంది.

కాలమ్ ఓరియంటెడ్:

ఈ డేటాబేస్లో, డేటా వరుసల కంటే కాలమ్‌లో సమూహం చేయబడిన సెల్‌లో నిల్వ చేయబడుతుంది. నిలువు వరుసలు తార్కికంగా కాలమ్ కుటుంబాలుగా వర్గీకరించబడతాయి, ఇవి స్కీమా నిర్వచనం సమయంలో లేదా రన్‌టైమ్‌లో సృష్టించబడతాయి.

ఈ రకమైన డేటాబేస్‌లు కాలమ్‌కు సంబంధించిన అన్ని సెల్‌లను నిరంతర డిస్క్ ఎంట్రీగా నిల్వ చేస్తాయి, తద్వారా ప్రాప్యత మరియు శోధన చాలా వేగంగా జరుగుతుంది.

కాలమ్ బేస్డ్ డేటాబేస్లు: హెచ్‌బేస్, అక్యుములో, కాసాండ్రా, డ్రూయిడ్, వెర్టికా.

యూజ్-కేస్

ఇది భారీ నిల్వకు మద్దతు ఇస్తుంది మరియు దానిపై వేగంగా చదవడానికి వ్రాసే ప్రాప్యతను అనుమతిస్తుంది. ఇది ఇ-కామర్స్ వెబ్‌సైట్, గూగుల్ ఫైనాన్స్ మరియు స్టాక్ మార్కెట్ డేటా, గూగుల్ మ్యాప్స్ వంటి ఆర్థిక వ్యవస్థల్లో కస్టమర్ ప్రవర్తనలను నిల్వ చేయడానికి కాలమ్ ఓరియంటెడ్ డేటాబేస్‌లను అనుకూలంగా చేస్తుంది.

గ్రాఫ్ ఓరియంటెడ్:

ఇది ఖచ్చితమైన సరళమైన గ్రాఫికల్ ప్రాతినిధ్యం, ఇది SQL కాకుండా ఉపయోగించబడుతుంది. ఈ రకమైన డేటాబేస్లు అడ్రస్ స్కేలబిలిటీ సమస్యలను తేలికగా పరిష్కరిస్తాయి, ఎందుకంటే ఇది అంచులు మరియు నోడ్లను కలిగి ఉంటుంది, వీటిని అవసరాలకు అనుగుణంగా పొడిగించవచ్చు.

గ్రాఫ్ ఆధారిత డేటాబేస్‌లు: అల్లెగ్రోగ్రాఫ్, అరంగోడిబి, ఇన్ఫినిట్‌గ్రాఫ్, అపాచీ జిరాఫ్, మార్క్‌లాజిక్, నియో 4 జె, ఓరియంట్‌డిబి, వర్చుయోసో, స్టార్‌డాగ్.

యూజ్-కేస్

ఇది ప్రాథమికంగా మోసం గుర్తింపు, రియల్ టైమ్ సిఫారసు ఇంజన్లు (చాలా సందర్భాలలో ఇ-కామర్స్), మాస్టర్ డేటా మేనేజ్‌మెంట్ (MDM), నెట్‌వర్క్ మరియు ఐటి ఆపరేషన్స్, ఐడెంటిటీ అండ్ యాక్సెస్ మేనేజ్‌మెంట్ (IAM) మొదలైన వాటిలో ఉపయోగించబడుతుంది.

HBase మరియు కాసాండ్రా రెండు ప్రసిద్ధ కాలమ్ ఆధారిత డేటాబేస్. కాబట్టి, ఇప్పుడు దానిని ఉన్నత స్థాయికి మాట్లాడుకుంటే, HBase మరియు కాసాండ్రా మధ్య నిర్మాణ మరియు పని వ్యత్యాసాలను పోల్చి అర్థం చేసుకుందాం.

HBase ట్యుటోరియల్: HBase VS కాసాండ్రా

  • హెచ్‌బేస్ బిగ్‌టేబుల్ (గూగుల్) లో రూపొందించబడింది, కాసాండ్రా మొదట ఫేస్‌బుక్ అభివృద్ధి చేసిన డైనమోడిబి (అమెజాన్) పై ఆధారపడింది.
  • HBase హడూప్ మౌలిక సదుపాయాలను (HDFS, జూకీపర్) ప్రభావితం చేస్తుంది, కాసాండ్రా విడిగా అభివృద్ధి చెందింది, అయితే మీరు మీ అవసరాలకు అనుగుణంగా హడూప్ మరియు కాసాండ్రాలను కలపవచ్చు.
  • HBase లో HBase HMaster, ZooKeeper, NameNode, Region Severs వంటి అనేక భాగాలు ఉన్నాయి. కాసాండ్రా ఒకే నోడ్ రకం, దీనిలో అన్ని నోడ్లు సమానంగా ఉంటాయి మరియు అన్ని విధులను నిర్వహిస్తాయి. ఏదైనా నోడ్ సమన్వయకర్త కావచ్చు, ఇది సింగిల్ పాయింట్ ఆఫ్ ఫెయిల్యూర్‌ను తొలగిస్తుంది.
  • HBase చదవడానికి ఆప్టిమైజ్ చేయబడింది మరియు సింగిల్ రైట్స్‌కు మద్దతు ఇస్తుంది, ఇది కఠినమైన అనుగుణ్యతకు దారితీస్తుంది. HBase రేంజ్ ఆధారిత స్కాన్‌లకు మద్దతు ఇస్తుంది, ఇది స్కానింగ్ ప్రక్రియను వేగవంతం చేస్తుంది. కాసాండ్రా ఒకే వరుస రీడ్‌లకు మద్దతు ఇస్తుంది, ఇది చివరికి స్థిరత్వాన్ని నిర్వహిస్తుంది.
  • కాసాండ్రా శ్రేణి ఆధారిత వరుస స్కాన్‌లకు మద్దతు ఇవ్వదు, ఇది HBase తో పోలిస్తే స్కానింగ్ ప్రక్రియను నెమ్మదిస్తుంది.
  • ఆర్డర్‌డ్ విభజనకు హెచ్‌బేస్ మద్దతు ఇస్తుంది, దీనిలో కాలమ్ ఫ్యామిలీ యొక్క వరుసలు రౌకీ క్రమంలో నిల్వ చేయబడతాయి, కాసాండ్రా ఆదేశించిన విభజన ఒక సవాలు. రౌకే విభజన కారణంగా కాసాండ్రాతో పోలిస్తే స్కానింగ్ ప్రక్రియ హెచ్‌బేస్‌లో వేగంగా ఉంటుంది.
  • HBase రీడ్ లోడ్ బ్యాలెన్సింగ్‌కు మద్దతు ఇవ్వదు, ఒక రీజియన్ సర్వర్ రీడ్ అభ్యర్థనను అందిస్తుంది మరియు ప్రతిరూపాలు విఫలమైనప్పుడు మాత్రమే ఉపయోగించబడతాయి. కాసాండ్రా రీడ్ లోడ్ బ్యాలెన్సింగ్‌కు మద్దతు ఇస్తుంది మరియు వివిధ నోడ్‌ల నుండి ఒకే డేటాను చదవగలదు. ఇది స్థిరత్వాన్ని రాజీ చేస్తుంది.
  • CAP (స్థిరత్వం, లభ్యత & విభజన-సహనం) సిద్ధాంతంలో HBase స్థిరత్వం మరియు లభ్యతను నిర్వహిస్తుంది, కాసాండ్రా లభ్యత మరియు విభజన-సహనంపై దృష్టి పెడుతుంది.


ఇప్పుడు లోతుగా డైవ్ చేద్దాం మరియు అపాచీ హెచ్‌బేస్ యొక్క లక్షణాలను అర్థం చేసుకోండి, అది బాగా ప్రాచుర్యం పొందింది.

అపాచీ హెచ్‌బేస్ ట్యుటోరియల్: హెచ్‌బేస్ యొక్క లక్షణాలు

  • అణు చదవడం మరియు వ్రాయడం: వరుస స్థాయిలో, HBase పరమాణు చదవడం మరియు వ్రాయడం అందిస్తుంది. ఒక చదవడం లేదా వ్రాసే ప్రక్రియలో, అన్ని ఇతర ప్రక్రియలు ఏదైనా చదవడం లేదా వ్రాయడం ఆపరేషన్లు చేయకుండా నిరోధించబడతాయి.
  • స్థిరంగా చదువుతుంది మరియు వ్రాస్తుంది: పై లక్షణం కారణంగా HBase స్థిరమైన రీడ్‌లు మరియు వ్రాతలను అందిస్తుంది.
  • లీనియర్ మరియు మాడ్యులర్ స్కేలబిలిటీ: డేటా సెట్లు హెచ్‌డిఎఫ్‌ఎస్ ద్వారా పంపిణీ చేయబడినందున, ఇది వివిధ నోడ్‌లలో సరళంగా స్కేలబుల్ అవుతుంది, అలాగే మాడ్యులర్ స్కేలబుల్, ఎందుకంటే ఇది వివిధ నోడ్‌లలో విభజించబడింది.
  • పట్టికల స్వయంచాలక మరియు కాన్ఫిగర్ షార్డింగ్: HBase పట్టికలు సమూహాలలో పంపిణీ చేయబడతాయి మరియు ఈ సమూహాలు ప్రాంతాలలో పంపిణీ చేయబడతాయి. ఈ ప్రాంతాలు మరియు సమూహాలు విడిపోతాయి మరియు డేటా పెరుగుతున్న కొద్దీ పున ist పంపిణీ చేయబడతాయి.
  • క్లయింట్ యాక్సెస్ కోసం జావా API ని ఉపయోగించడం సులభం: ప్రోగ్రామాటిక్ యాక్సెస్ కోసం ఇది జావా API ని ఉపయోగించడం సులభం.
  • పొదుపు గేట్‌వే మరియు REST- ఫుల్ వెబ్ సేవలు: ఇది జావా-కాని ఫ్రంట్-ఎండ్స్ కోసం పొదుపు మరియు REST API కి మద్దతు ఇస్తుంది.
  • కాష్ మరియు బ్లూమ్ ఫిల్టర్లను బ్లాక్ చేయండి: అధిక వాల్యూమ్ ప్రశ్న ఆప్టిమైజేషన్ కోసం HBase బ్లాక్ కాష్ మరియు బ్లూమ్ ఫిల్టర్లకు మద్దతు ఇస్తుంది.
  • స్వయంచాలక వైఫల్యం మద్దతు: HDFS తో HBase స్వయంచాలక వైఫల్య మద్దతును అందించే క్లస్టర్లలో WAL (ముందుకు లాగ్ రాయండి) ను అందిస్తుంది.
  • క్రమబద్ధీకరించిన రౌకీలు: వరుసల శ్రేణిలో శోధన జరుగుతున్నందున, హెచ్‌బేస్ రౌకీలను ఒక నిఘంటువు క్రమంలో నిల్వ చేస్తుంది. ఈ క్రమబద్ధీకరించిన రౌకీలు మరియు టైమ్‌స్టాంప్ ఉపయోగించి, మేము ఆప్టిమైజ్ చేసిన అభ్యర్థనను నిర్మించగలము.

ఇప్పుడు ఈ HBase ట్యుటోరియల్‌లో ముందుకు వెళుతున్నప్పుడు, HBase ను ఉపయోగించగల ఉపయోగ సందర్భాలు మరియు దృశ్యాలు ఏమిటో నేను మీకు చెప్తాను, ఆపై, నేను HDFS మరియు HBase లను పోల్చి చూస్తాను.

HBase ఉత్తమంగా సరిపోయే పరిస్థితుల వైపు మీ దృష్టిని ఆకర్షించాలనుకుంటున్నాను.

HBase ట్యుటోరియల్: మనం HBase ను ఎక్కడ ఉపయోగించవచ్చు?

  • మనకు పెద్ద డేటా సెట్లు (మిలియన్లు లేదా బిలియన్లు లేదా వరుసలు మరియు నిలువు వరుసలు) ఉన్న HBase ను ఉపయోగించాలి మరియు మాకు వేగంగా, యాదృచ్ఛికంగా మరియు నిజ సమయం అవసరం, డేటాపై ప్రాప్యతను చదవడం మరియు వ్రాయడం.
  • డేటా సెట్లు వివిధ క్లస్టర్లలో పంపిణీ చేయబడతాయి మరియు డేటాను నిర్వహించడానికి మాకు అధిక స్కేలబిలిటీ అవసరం.
  • డేటా వివిధ డేటా వనరుల నుండి సేకరించబడుతుంది మరియు ఇది సెమీ స్ట్రక్చర్డ్ లేదా స్ట్రక్చర్డ్ డేటా లేదా అన్ని కలయిక. దీన్ని హెచ్‌బేస్‌తో సులభంగా నిర్వహించవచ్చు.
  • మీరు కాలమ్ ఆధారిత డేటాను నిల్వ చేయాలనుకుంటున్నారు.
  • మీకు డేటా సెట్ల యొక్క చాలా వెర్షన్లు ఉన్నాయి మరియు మీరు అవన్నీ నిల్వ చేయాలి.

నేను ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీకి వెళ్ళే ముందు,HBase మరియు HDFS మధ్య తేడాలు ఏమిటో నేను మీకు చెప్తాను.

HBase ట్యుటోరియల్: HBase VS HDFS

HDFS అనేది జావా ఆధారిత పంపిణీ ఫైల్ సిస్టమ్, ఇది హడూప్ క్లస్టర్‌లో బహుళ నోడ్‌లలో పెద్ద డేటాను నిల్వ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. కాబట్టి, పంపిణీ చేయబడిన వాతావరణంలో డేటాను నిల్వ చేయడానికి అంతర్లీన నిల్వ వ్యవస్థ HDFS. HDFS ఒక ఫైల్ సిస్టమ్, అయితే HBase ఒక డేటాబేస్ (NTFS మరియు MySQL మాదిరిగానే).

HDFS మరియు HBase రెండూ పంపిణీ చేయబడిన వాతావరణంలో ఎలాంటి డేటాను (అనగా నిర్మాణాత్మక, సెమీ స్ట్రక్చర్డ్ మరియు స్ట్రక్చర్డ్) నిల్వ చేస్తున్నందున, HDFS ఫైల్ సిస్టమ్ మరియు NoSQL డేటాబేస్ అయిన HBase మధ్య తేడాలను చూద్దాం.

  • HBase పెద్ద డేటా సెట్లలోని చిన్న మొత్తంలో డేటాకు తక్కువ జాప్యం ప్రాప్యతను అందిస్తుంది, అయితే HDFS అధిక జాప్యం ఆపరేషన్లను అందిస్తుంది.
  • HDFS WORM కి మద్దతు ఇస్తున్నప్పుడు HBase యాదృచ్ఛిక చదవడానికి మరియు వ్రాయడానికి మద్దతు ఇస్తుంది (ఒకసారి చదవండి చాలా లేదా బహుళ సార్లు చదవండి).
  • HDFS ప్రాథమికంగా లేదా ప్రధానంగా మ్యాప్‌రెడ్యూస్ ఉద్యోగాల ద్వారా ప్రాప్తి చేయగా, HBase ను షెల్ ఆదేశాలు, జావా API, REST, అవ్రో లేదా పొదుపు API ద్వారా యాక్సెస్ చేయవచ్చు.

HDFS పంపిణీ చేయబడిన వాతావరణంలో పెద్ద డేటా సెట్‌లను నిల్వ చేస్తుంది మరియు ఆ డేటాపై బ్యాచ్ ప్రాసెసింగ్‌ను ప్రభావితం చేస్తుంది. ఉదా. ఇది ఇ-కామర్స్ వెబ్‌సైట్‌కు మిలియన్ల కస్టమర్ల డేటాను పంపిణీ చేసిన వాతావరణంలో నిల్వ చేయడానికి సహాయపడుతుంది, ఇది చాలా కాలం పాటు పెరిగింది (4-5 సంవత్సరాలు లేదా అంతకంటే ఎక్కువ కావచ్చు). అప్పుడు అది ఆ డేటాపై బ్యాచ్ ప్రాసెసింగ్‌ను ప్రభావితం చేస్తుంది మరియు కస్టమర్ ప్రవర్తనలు, నమూనా, అవసరాలను విశ్లేషిస్తుంది. అప్పుడు కంపెనీ ఏ రకమైన ఉత్పత్తి, కస్టమర్ కొనుగోలు ఏ నెలల్లో కనుగొనగలదు. ఇది ఆర్కైవ్ చేసిన డేటాను నిల్వ చేయడానికి మరియు దానిపై బ్యాచ్ ప్రాసెసింగ్‌ను అమలు చేయడానికి సహాయపడుతుంది.

ప్రతి కాలమ్ కలిసి నిల్వ చేయబడిన చోట కాలమ్ ఆధారిత పద్ధతిలో HBase డేటాను నిల్వ చేస్తుంది, తద్వారా పఠనం నిజ సమయ ప్రాసెసింగ్‌ను వేగవంతం చేస్తుంది. ఉదా. ఇదే విధమైన ఇ-కామర్స్ వాతావరణంలో, ఇది మిలియన్ల ఉత్పత్తి డేటాను నిల్వ చేస్తుంది. కాబట్టి మీరు మిలియన్ల ఉత్పత్తులలో ఉత్పత్తి కోసం శోధిస్తే, అది అభ్యర్థన మరియు శోధన ప్రక్రియను ఆప్టిమైజ్ చేస్తుంది, ఫలితాన్ని వెంటనే ఉత్పత్తి చేస్తుంది (లేదా మీరు నిజ సమయంలో చెప్పవచ్చు). వివరంగా HBase నిర్మాణ వివరణ , నేను నా తదుపరి బ్లాగులో కవర్ చేస్తాను.

హెచ్‌బిఎస్ హెచ్‌డిఎఫ్‌ఎస్ ద్వారా పంపిణీ చేయబడిందని మనకు తెలుసు, కాబట్టి రెండింటి కలయిక రెండింటి యొక్క ప్రయోజనాలను, తగిన పరిష్కారంలో ఉపయోగించుకోవడానికి మాకు గొప్ప అవకాశాన్ని ఇస్తుంది, ఈ క్రింది ఫేస్‌బుక్ మెసెంజర్ కేస్ స్టడీలో మనం చూడబోతున్నాం.

HBase ట్యుటోరియల్: ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీ

ఫేస్బుక్ మెసేజింగ్ ప్లాట్ఫాం నవంబర్ 2010 లో అపాచీ కాసాండ్రా నుండి హెచ్‌బేస్‌కు మార్చబడింది.

ఫేస్బుక్ మెసెంజర్ సందేశాలు, ఇమెయిల్, చాట్ మరియు SMS లను నిజ-సమయ సంభాషణలో మిళితం చేస్తుంది. ఈ సేవల సమితిని నిర్వహించడానికి ఫేస్‌బుక్ స్కేలబుల్ మరియు బలమైన మౌలిక సదుపాయాలను నిర్మించడానికి ప్రయత్నిస్తోంది.

ఆ సమయంలో సందేశ మౌలిక సదుపాయాలు 350 మిలియన్ల మంది వినియోగదారులను నెలకు 15 బిలియన్లకు పైగా వ్యక్తికి సందేశాలను పంపుతున్నాయి. నెలకు 120 బిలియన్లకు పైగా సందేశాలను పంపే 300 మిలియన్ల మంది వినియోగదారులకు చాట్ సేవ మద్దతు ఇస్తుంది.

వినియోగాన్ని పర్యవేక్షించడం ద్వారా, రెండు సాధారణ డేటా నమూనాలు ఉద్భవించాయని వారు కనుగొన్నారు:

  • అస్థిరతను కలిగి ఉన్న తాత్కాలిక డేటా యొక్క చిన్న సెట్
  • ఎప్పటికప్పుడు పెరుగుతున్న డేటా సమితి అరుదుగా ప్రాప్యత అవుతుంది

ఫేస్బుక్ ఈ రెండు వినియోగ విధానాలకు నిల్వ పరిష్కారాన్ని కనుగొనాలనుకుంది మరియు ప్రస్తుతం ఉన్న సందేశాల అవస్థాపనకు ప్రత్యామ్నాయాన్ని కనుగొనడానికి వారు దర్యాప్తు ప్రారంభించారు.

అంతకుముందు 2008 లో, వారు ఓపెన్-సోర్స్ డేటాబేస్ను ఉపయోగించారు, అనగా కాసాండ్రా, ఇది చివరికి-అనుగుణ్యత కలిగిన కీ-విలువ స్టోర్, ఇది ఇన్బాక్స్ శోధన కోసం ఇప్పటికే ఉత్పత్తిలో ట్రాఫిక్ ఉత్పత్తిలో ఉంది. వారి బృందాలకు MySQL డేటాబేస్ను ఉపయోగించడంలో మరియు నిర్వహించడానికి గొప్ప జ్ఞానం ఉంది, కాబట్టి సాంకేతిక పరిజ్ఞానాలలో దేనినైనా మార్చడం వారికి తీవ్రమైన ఆందోళన.

MySQL, అపాచీ కాసాండ్రా, అపాచీ HBase మరియు ఇతర వ్యవస్థల సమూహాలను అంచనా వేయడానికి వారు వేర్వేరు ఫ్రేమ్‌వర్క్‌లను పరీక్షించడానికి కొన్ని వారాలు గడిపారు. వారు చివరికి HBase ని ఎంచుకున్నారు.

పెద్ద డేటా సెట్‌లను సమర్థవంతంగా నిర్వహించడంలో MySQL విఫలమైనందున, సూచికలు మరియు డేటా సెట్‌లు పెద్దవి కావడంతో, పనితీరు దెబ్బతింది. కాసాండ్రా వారి కొత్త సందేశాల మౌలిక సదుపాయాలను పునరుద్దరించటానికి కష్టమైన నమూనాను నిర్వహించలేకపోయారని వారు కనుగొన్నారు.

ప్రధాన సమస్యలు:

  • వివిధ ఫేస్బుక్ సేవల నుండి నిరంతరం పెరుగుతున్న డేటా యొక్క పెద్ద సెట్లను నిల్వ చేస్తుంది.
  • డేటాబేస్ అవసరం, దానిపై అధిక ప్రాసెసింగ్ ఉంటుంది.
  • మిలియన్ల అభ్యర్థనలను అందించడానికి అధిక పనితీరు అవసరం.
  • నిల్వ మరియు పనితీరులో స్థిరత్వాన్ని నిర్వహించడం.

మూర్తి: ఫేస్‌బుక్ మెసెంజర్ ఎదుర్కొంటున్న సవాళ్లు

ఈ సమస్యలన్నింటికీ, ఫేస్‌బుక్ ఒక పరిష్కారాన్ని తీసుకువచ్చింది, అంటే హెచ్‌బేస్. ఫేస్బుక్ దాని యొక్క వివిధ లక్షణాల కారణంగా ఫేస్బుక్ మెసెంజర్, చాట్, ఇమెయిల్ మొదలైన వాటికి సేవ చేయడానికి HBase ను స్వీకరించింది.

కాసాండ్రా కంటే సరళమైన అనుగుణ్యత మోడల్‌తో ఈ పనిభారం కోసం హెచ్‌బేస్ చాలా మంచి స్కేలబిలిటీ మరియు పనితీరుతో వస్తుంది. ఆటో లోడ్ బ్యాలెన్సింగ్ మరియు ఫెయిల్ఓవర్, కంప్రెషన్ సపోర్ట్, సర్వర్‌కు బహుళ ముక్కలు మొదలైన వాటి అవసరాలకు అనుగుణంగా హెచ్‌బేస్ చాలా సరిఅయినదని వారు కనుగొన్నారు.

హెచ్‌బిఎస్ ఉపయోగించే అంతర్లీన ఫైల్ సిస్టమ్ అయిన హెచ్‌డిఎఫ్‌ఎస్ వారికి ఎండ్-టు-ఎండ్ చెక్‌సమ్స్, రెప్లికేషన్ మరియు ఆటోమేటిక్ లోడ్ రీ బ్యాలెన్సింగ్ వంటి అనేక అవసరమైన లక్షణాలను అందించింది.

మూర్తి: ఫేస్‌బుక్ మెసెంజర్‌కు పరిష్కారంగా హెచ్‌బేస్

వారు HBase ను స్వీకరించినప్పుడు, వారు ఫలితాలను HBase కు తిరిగి ఇవ్వడంపై కూడా దృష్టి పెట్టారు మరియు అపాచీ సంఘంతో కలిసి పనిచేయడం ప్రారంభించారు.

సందేశాలు SMS, చాట్‌లు మరియు ఇమెయిల్‌లు వంటి విభిన్న వనరుల నుండి డేటాను అంగీకరిస్తాయి కాబట్టి, వారు వినియోగదారు సందేశం కోసం అన్ని నిర్ణయాలు తీసుకునేలా అప్లికేషన్ సర్వర్‌ను వ్రాశారు. ఇది పెద్ద సంఖ్యలో ఇతర సేవలతో ఇంటర్‌ఫేస్ చేస్తుంది. జోడింపులు హేస్టాక్‌లో నిల్వ చేయబడతాయి (ఇది HBase లో పనిచేస్తుంది). వారు అపాచీ జూకీపర్ పైన వినియోగదారు ఆవిష్కరణ సేవను కూడా వ్రాసారు, ఇది స్నేహితుల సంబంధాలు, ఇమెయిల్ ఖాతా ధృవీకరణ, డెలివరీ నిర్ణయాలు మరియు గోప్యతా నిర్ణయాల కోసం ఇతర మౌలిక సదుపాయాల సేవలతో మాట్లాడుతుంది.

ఫేస్బుక్ బృందం ఈ సేవలు ప్రతి ఒక్కటి దృ, మైనవి, నమ్మదగినవి మరియు రియల్ టైమ్ మెసేజింగ్ వ్యవస్థను నిర్వహించడానికి మంచి పనితీరును అందిస్తాయని ధృవీకరించడానికి చాలా సమయం గడిపాయి.

ఈ HBase ట్యుటోరియల్ బ్లాగ్ సమాచారమని నేను ఆశిస్తున్నాను మరియు మీరు దీన్ని ఇష్టపడ్డారు. ఈ బ్లాగులో, మీరు HBase యొక్క ప్రాథమికాలను మరియు దాని లక్షణాలను తెలుసుకున్నారు.నా తదుపరి బ్లాగులో , నేను వివరిస్తాను HBase యొక్క నిర్మాణం మరియు HBase యొక్క పని వేగంగా మరియు యాదృచ్ఛిక చదవడానికి / వ్రాయడానికి ఇది ప్రాచుర్యం పొందింది.

ఇప్పుడు మీరు HBase యొక్క ప్రాథమికాలను అర్థం చేసుకున్నారు, చూడండి ప్రపంచవ్యాప్తంగా విస్తరించి ఉన్న 250,000 మందికి పైగా సంతృప్తికరమైన అభ్యాసకుల నెట్‌వర్క్‌తో విశ్వసనీయ ఆన్‌లైన్ లెర్నింగ్ సంస్థ ఎడురేకా చేత. రిటైల్, సోషల్ మీడియా, ఏవియేషన్, టూరిజం, ఫైనాన్స్ డొమైన్‌లో రియల్ టైమ్ యూజ్ కేసులను ఉపయోగించి హెచ్‌డిఎఫ్‌ఎస్, నూలు, మ్యాప్‌రెడ్యూస్, పిగ్, హైవ్, హెచ్‌బేస్, ఓజీ, ఫ్లూమ్ మరియు స్కూప్‌లో నిపుణులు కావడానికి ఎడురేకా బిగ్ డేటా హడూప్ సర్టిఫికేషన్ ట్రైనింగ్ కోర్సు సహాయపడుతుంది.

మాకు ప్రశ్న ఉందా? దయచేసి వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.