మేము మా చెప్పినట్లు బ్లాగ్, HBase మా హడూప్ పర్యావరణ వ్యవస్థలో ముఖ్యమైన భాగం. కాబట్టి ఇప్పుడు, నేను మిమ్మల్ని HBase ట్యుటోరియల్ ద్వారా తీసుకెళ్లాలనుకుంటున్నాను, అక్కడ నేను మిమ్మల్ని అపాచీ HBase కి పరిచయం చేస్తాను, ఆపై, మేము ఫేస్బుక్ మెసెంజర్ కేస్-స్టడీ ద్వారా వెళ్తాము. మేము ఈ HBase ట్యుటోరియల్ బ్లాగులో ఈ క్రింది అంశాలను కవర్ చేయబోతున్నాము:
- అపాచీ HBase చరిత్ర
- అపాచీ హెచ్బేస్ పరిచయం
- NoSQL డేటాబేస్లు మరియు దాని రకాలు
- HBase vs కాసాండ్రా
- అపాచీ హెచ్బేస్ ఫీచర్లు
- HBase vs HDFS
- ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీ
అపాచీ హెచ్బేస్ ట్యుటోరియల్: చరిత్ర
HBase చరిత్రతో ప్రారంభిద్దాం మరియు కొంతకాలం HBase ఎలా అభివృద్ధి చెందిందో తెలుసుకుందాం.
html మరియు xml మధ్య తేడాలు
- అపాచీ హెచ్బేస్ గూగుల్ యొక్క బిగ్ టేబుల్ తర్వాత రూపొందించబడింది, ఇది డేటాను సేకరించడానికి మరియు మ్యాప్స్, ఫైనాన్స్, ఎర్త్ వంటి వివిధ గూగుల్ సేవలకు అభ్యర్థనను అందించడానికి ఉపయోగించబడుతుంది.
- అపాచీ హెచ్బేస్ పవర్సెట్ ఫర్ నేచురల్ లాంగ్వేజ్ సెర్చ్ సంస్థ ప్రారంభించింది, ఇది భారీ మరియు చిన్న డేటా సెట్లను నిర్వహిస్తోంది.
- అపాచీ హెచ్బేస్ మొట్టమొదట ఫిబ్రవరి 2007 లో విడుదలైంది. తరువాత జనవరి 2008 లో, హెచ్బేస్ అపాచీ హడూప్ యొక్క ఉప ప్రాజెక్టుగా మారింది.
- 2010 లో, HBase అపాచీ యొక్క ఉన్నత స్థాయి ప్రాజెక్టుగా మారింది.
HBase ట్యుటోరియల్ | NoSQL డేటాబేస్ | ఎడురేకా
అపాచీ హెచ్బేస్ చరిత్ర గురించి తెలుసుకున్న తరువాత, అపాచీ హెచ్బేస్ అంటే ఏమిటో తెలుసుకోవాలనే ఆసక్తి మీకు ఉంటుంది. మనం మరింత ముందుకు వెళ్లి చూద్దాం.
అపాచీ హెచ్బేస్ ట్యుటోరియల్: హెచ్బేస్ పరిచయం
HBase ఒక ఓపెన్ సోర్స్, మల్టీ డైమెన్షనల్, డిస్ట్రిబ్యూటెడ్, స్కేలబుల్ మరియు a NoSQL డేటాబేస్ జావాలో వ్రాయబడింది. HBase పైన నడుస్తుంది HDFS (హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్) మరియు హడూప్కు బిగ్టేబుల్ వంటి సామర్థ్యాలను అందిస్తుంది. చిన్న డేటా సెట్ల యొక్క పెద్ద సేకరణను నిల్వ చేయడానికి తప్పును తట్టుకునే మార్గాన్ని అందించడానికి ఇది రూపొందించబడింది.
అప్పటి నుండి, భారీ డేటా సెట్లలో వేగంగా చదవడానికి / వ్రాయడానికి ప్రాప్యతను అందించడం ద్వారా HBase అధిక నిర్గమాంశ మరియు తక్కువ జాప్యాన్ని సాధిస్తుంది. అందువల్ల, పెద్ద మొత్తంలో డేటాకు వేగవంతమైన & యాదృచ్ఛిక ప్రాప్యత అవసరమయ్యే అనువర్తనాల ఎంపిక HBase.
ఇది వేగంగా మరియు యాదృచ్ఛిక రీడ్-రైట్ల అవసరాన్ని తీర్చడానికి కంప్రెషన్, ఇన్-మెమరీ ఆపరేషన్స్ మరియు బ్లూమ్ ఫిల్టర్లను (ఒక సెట్లో విలువ ఉందో లేదో చెప్పే డేటా స్ట్రక్చర్) అందిస్తుంది.
దీన్ని ఉదాహరణ ద్వారా అర్థం చేసుకుందాం: జెట్ ఇంజిన్ ప్రెజర్ సెన్సార్, టెంపరేచర్ సెన్సార్, స్పీడ్ సెన్సార్ మొదలైన వివిధ సెన్సార్ల నుండి వివిధ రకాల డేటాను ఉత్పత్తి చేస్తుంది, ఇది ఇంజిన్ ఆరోగ్యాన్ని సూచిస్తుంది. విమాన సమస్యలు మరియు స్థితిని అర్థం చేసుకోవడానికి ఇది చాలా ఉపయోగపడుతుంది. నిరంతర ఇంజిన్ ఆపరేషన్లు ప్రతి విమానానికి 500 GB డేటాను ఉత్పత్తి చేస్తాయి మరియు రోజుకు సుమారు 300 వేల విమానాలు ఉన్నాయి. కాబట్టి, అటువంటి డేటాకు నిజ సమయంలో వర్తించే ఇంజిన్ అనలిటిక్స్ సమస్యలను ముందుగానే నిర్ధారించడానికి మరియు ప్రణాళిక లేని సమయ వ్యవధిని తగ్గించడానికి ఉపయోగపడుతుంది. పెద్ద మొత్తంలో డేటాను నిల్వ చేయడానికి దీనికి పంపిణీ వాతావరణం అవసరం ఫాస్ట్ రాండమ్ చదువుతుంది మరియు వ్రాస్తుంది రియల్ టైమ్ ప్రాసెసింగ్ కోసం. ఇక్కడ, HBase రెస్క్యూ కోసం వస్తుంది. నేను నా తదుపరి బ్లాగులో HBase చదవడం మరియు వ్రాయడం గురించి వివరంగా మాట్లాడుతాను HBase ఆర్కిటెక్చర్ .
మనకు తెలిసినట్లుగా, HBase ఒక NoSQL డేటాబేస్. కాబట్టి, HBase గురించి మరింత అర్థం చేసుకోవడానికి ముందు, మొదట NoSQL డేటాబేస్ మరియు దాని రకాలను గురించి చర్చించటానికి అనుమతిస్తుంది.
అపాచీ HBase ట్యుటోరియల్: NoSQL డేటాబేస్
NoSQL అంటే SQL మాత్రమే కాదు . NoSQL డేటాబేస్లు పట్టిక ఆకృతులు, అన్కైల్ రిలేషనల్ డేటాబేస్లు కాకుండా ఇతర డేటాను సూచించే విధంగా రూపొందించబడ్డాయి. డేటాబేస్లలో డేటాను సూచించడానికి ఇది వేర్వేరు ఫార్మాట్లను ఉపయోగిస్తుంది మరియు అందువల్ల, వాటి ప్రాతినిధ్య ఆకృతి ఆధారంగా వివిధ రకాల NoSQL డేటాబేస్లు ఉన్నాయి. NoSQL డేటాబేస్ చాలావరకు లభ్యత మరియు వేగం మీద స్థిరత్వాన్ని పెంచుతాయి. ఇప్పుడు, మనం ముందుకు సాగి, వివిధ రకాల NoSQL డేటాబేస్ మరియు వాటి ప్రాతినిధ్య ఆకృతుల గురించి అర్థం చేసుకుందాం.
కీ-విలువ దుకాణాలు:
ఇది కీలు మరియు విలువలను కలిగి ఉన్న స్కీమా-తక్కువ డేటాబేస్. ప్రతి కీ, బైట్ల శ్రేణి అయిన విలువను సూచిస్తుంది, స్ట్రింగ్, BLOB, XML మొదలైనవి కావచ్చు. ఉదా. లంబోర్ఘిని ఒక కీలకం మరియు గల్లార్డో, అవెంటడార్, ముర్సిలాగో, రెవెంటన్, డయాబ్లో, హురాకాన్, వెనెనో, సెంటెనారియో మొదలైన వాటికి విలువను సూచించవచ్చు.
కీ-వాల్యూ స్టోర్స్ డేటాబేస్లు: ఏరోస్పైక్, కౌచ్బేస్, డైనమో, ఫెయిర్కామ్ సి-ట్రీఏసి, ఫౌండేషన్డిబి, హైపర్డెక్స్, మెమ్కాష్డిబి, మంప్స్, ఒరాకిల్ నోస్క్యూల్ డేటాబేస్, ఓరియంట్ డిబి, రెడిస్, రియాక్, బర్కిలీ డిబి.
యూజ్-కేస్
కీ-విలువ దుకాణాలు పరిమాణాన్ని చక్కగా నిర్వహిస్తాయి మరియు తక్కువ జాప్యంతో స్థిరమైన రీడ్ / రైట్ ఆపరేషన్లను ప్రాసెస్ చేయడంలో మంచివి. ఇది వారికి పరిపూర్ణంగా ఉంటుందివినియోగదారు ప్రాధాన్యత మరియు ప్రొఫైల్ దుకాణాలు,ఉత్పత్తి సిఫార్సులు భవిష్యత్ కస్టమర్ ఉత్పత్తి సిఫార్సులను నడపడానికి చిల్లర వెబ్సైట్లో చూసిన తాజా అంశాలు,ప్రకటనల కస్టమర్ షాపింగ్ అలవాట్ల ఫలితంగా ప్రతి కస్టమర్కు అనుకూలీకరించిన ప్రకటనలు, కూపన్లు మొదలైనవి నిజ సమయంలో లభిస్తాయి.
పత్రం ఆధారిత :
ఇది అదే కీ విలువ జతను అనుసరిస్తుంది, అయితే ఇది XML, JSON, BSON వంటి సెమీ స్ట్రక్చర్. ఈ నిర్మాణాలను పత్రాలుగా పరిగణిస్తారు.
డాక్యుమెంట్ బేస్డ్ డేటాబేస్: అపాచీ కౌచ్డిబి, క్లస్టర్ పాయింట్, కౌచ్బేస్, డాక్యుమెంట్ డిబి, హైపర్డెక్స్, ఐబిఎం డొమినో, మార్క్ లాజిక్, మొంగోడిబి, ఓరియంట్డిబి, క్విక్స్, రీథింక్డిబి.
యూజ్-కేస్
పత్రం సౌకర్యవంతమైన స్కీమాకు మద్దతు ఇస్తున్నందున, ట్విట్టర్, ఇ-కామర్స్ వెబ్సైట్లు వంటి వివిధ సేవల్లో యూజర్ డేటాబేస్లను సృష్టించడానికి ఫాస్ట్ రీడ్ రైట్ మరియు విభజన అనుకూలంగా ఉంటుంది.
కాలమ్ ఓరియంటెడ్:
ఈ డేటాబేస్లో, డేటా వరుసల కంటే కాలమ్లో సమూహం చేయబడిన సెల్లో నిల్వ చేయబడుతుంది. నిలువు వరుసలు తార్కికంగా కాలమ్ కుటుంబాలుగా వర్గీకరించబడతాయి, ఇవి స్కీమా నిర్వచనం సమయంలో లేదా రన్టైమ్లో సృష్టించబడతాయి.
ఈ రకమైన డేటాబేస్లు కాలమ్కు సంబంధించిన అన్ని సెల్లను నిరంతర డిస్క్ ఎంట్రీగా నిల్వ చేస్తాయి, తద్వారా ప్రాప్యత మరియు శోధన చాలా వేగంగా జరుగుతుంది.
కాలమ్ బేస్డ్ డేటాబేస్లు: హెచ్బేస్, అక్యుములో, కాసాండ్రా, డ్రూయిడ్, వెర్టికా.
యూజ్-కేస్
ఇది భారీ నిల్వకు మద్దతు ఇస్తుంది మరియు దానిపై వేగంగా చదవడానికి వ్రాసే ప్రాప్యతను అనుమతిస్తుంది. ఇది ఇ-కామర్స్ వెబ్సైట్, గూగుల్ ఫైనాన్స్ మరియు స్టాక్ మార్కెట్ డేటా, గూగుల్ మ్యాప్స్ వంటి ఆర్థిక వ్యవస్థల్లో కస్టమర్ ప్రవర్తనలను నిల్వ చేయడానికి కాలమ్ ఓరియంటెడ్ డేటాబేస్లను అనుకూలంగా చేస్తుంది.
గ్రాఫ్ ఓరియంటెడ్:
ఇది ఖచ్చితమైన సరళమైన గ్రాఫికల్ ప్రాతినిధ్యం, ఇది SQL కాకుండా ఉపయోగించబడుతుంది. ఈ రకమైన డేటాబేస్లు అడ్రస్ స్కేలబిలిటీ సమస్యలను తేలికగా పరిష్కరిస్తాయి, ఎందుకంటే ఇది అంచులు మరియు నోడ్లను కలిగి ఉంటుంది, వీటిని అవసరాలకు అనుగుణంగా పొడిగించవచ్చు.
గ్రాఫ్ ఆధారిత డేటాబేస్లు: అల్లెగ్రోగ్రాఫ్, అరంగోడిబి, ఇన్ఫినిట్గ్రాఫ్, అపాచీ జిరాఫ్, మార్క్లాజిక్, నియో 4 జె, ఓరియంట్డిబి, వర్చుయోసో, స్టార్డాగ్.
యూజ్-కేస్
ఇది ప్రాథమికంగా మోసం గుర్తింపు, రియల్ టైమ్ సిఫారసు ఇంజన్లు (చాలా సందర్భాలలో ఇ-కామర్స్), మాస్టర్ డేటా మేనేజ్మెంట్ (MDM), నెట్వర్క్ మరియు ఐటి ఆపరేషన్స్, ఐడెంటిటీ అండ్ యాక్సెస్ మేనేజ్మెంట్ (IAM) మొదలైన వాటిలో ఉపయోగించబడుతుంది.
HBase మరియు కాసాండ్రా రెండు ప్రసిద్ధ కాలమ్ ఆధారిత డేటాబేస్. కాబట్టి, ఇప్పుడు దానిని ఉన్నత స్థాయికి మాట్లాడుకుంటే, HBase మరియు కాసాండ్రా మధ్య నిర్మాణ మరియు పని వ్యత్యాసాలను పోల్చి అర్థం చేసుకుందాం.
HBase ట్యుటోరియల్: HBase VS కాసాండ్రా
- హెచ్బేస్ బిగ్టేబుల్ (గూగుల్) లో రూపొందించబడింది, కాసాండ్రా మొదట ఫేస్బుక్ అభివృద్ధి చేసిన డైనమోడిబి (అమెజాన్) పై ఆధారపడింది.
- HBase హడూప్ మౌలిక సదుపాయాలను (HDFS, జూకీపర్) ప్రభావితం చేస్తుంది, కాసాండ్రా విడిగా అభివృద్ధి చెందింది, అయితే మీరు మీ అవసరాలకు అనుగుణంగా హడూప్ మరియు కాసాండ్రాలను కలపవచ్చు.
- HBase లో HBase HMaster, ZooKeeper, NameNode, Region Severs వంటి అనేక భాగాలు ఉన్నాయి. కాసాండ్రా ఒకే నోడ్ రకం, దీనిలో అన్ని నోడ్లు సమానంగా ఉంటాయి మరియు అన్ని విధులను నిర్వహిస్తాయి. ఏదైనా నోడ్ సమన్వయకర్త కావచ్చు, ఇది సింగిల్ పాయింట్ ఆఫ్ ఫెయిల్యూర్ను తొలగిస్తుంది.
- HBase చదవడానికి ఆప్టిమైజ్ చేయబడింది మరియు సింగిల్ రైట్స్కు మద్దతు ఇస్తుంది, ఇది కఠినమైన అనుగుణ్యతకు దారితీస్తుంది. HBase రేంజ్ ఆధారిత స్కాన్లకు మద్దతు ఇస్తుంది, ఇది స్కానింగ్ ప్రక్రియను వేగవంతం చేస్తుంది. కాసాండ్రా ఒకే వరుస రీడ్లకు మద్దతు ఇస్తుంది, ఇది చివరికి స్థిరత్వాన్ని నిర్వహిస్తుంది.
- కాసాండ్రా శ్రేణి ఆధారిత వరుస స్కాన్లకు మద్దతు ఇవ్వదు, ఇది HBase తో పోలిస్తే స్కానింగ్ ప్రక్రియను నెమ్మదిస్తుంది.
- ఆర్డర్డ్ విభజనకు హెచ్బేస్ మద్దతు ఇస్తుంది, దీనిలో కాలమ్ ఫ్యామిలీ యొక్క వరుసలు రౌకీ క్రమంలో నిల్వ చేయబడతాయి, కాసాండ్రా ఆదేశించిన విభజన ఒక సవాలు. రౌకే విభజన కారణంగా కాసాండ్రాతో పోలిస్తే స్కానింగ్ ప్రక్రియ హెచ్బేస్లో వేగంగా ఉంటుంది.
- HBase రీడ్ లోడ్ బ్యాలెన్సింగ్కు మద్దతు ఇవ్వదు, ఒక రీజియన్ సర్వర్ రీడ్ అభ్యర్థనను అందిస్తుంది మరియు ప్రతిరూపాలు విఫలమైనప్పుడు మాత్రమే ఉపయోగించబడతాయి. కాసాండ్రా రీడ్ లోడ్ బ్యాలెన్సింగ్కు మద్దతు ఇస్తుంది మరియు వివిధ నోడ్ల నుండి ఒకే డేటాను చదవగలదు. ఇది స్థిరత్వాన్ని రాజీ చేస్తుంది.
- CAP (స్థిరత్వం, లభ్యత & విభజన-సహనం) సిద్ధాంతంలో HBase స్థిరత్వం మరియు లభ్యతను నిర్వహిస్తుంది, కాసాండ్రా లభ్యత మరియు విభజన-సహనంపై దృష్టి పెడుతుంది.
ఇప్పుడు లోతుగా డైవ్ చేద్దాం మరియు అపాచీ హెచ్బేస్ యొక్క లక్షణాలను అర్థం చేసుకోండి, అది బాగా ప్రాచుర్యం పొందింది.
అపాచీ హెచ్బేస్ ట్యుటోరియల్: హెచ్బేస్ యొక్క లక్షణాలు
- అణు చదవడం మరియు వ్రాయడం: వరుస స్థాయిలో, HBase పరమాణు చదవడం మరియు వ్రాయడం అందిస్తుంది. ఒక చదవడం లేదా వ్రాసే ప్రక్రియలో, అన్ని ఇతర ప్రక్రియలు ఏదైనా చదవడం లేదా వ్రాయడం ఆపరేషన్లు చేయకుండా నిరోధించబడతాయి.
- స్థిరంగా చదువుతుంది మరియు వ్రాస్తుంది: పై లక్షణం కారణంగా HBase స్థిరమైన రీడ్లు మరియు వ్రాతలను అందిస్తుంది.
- లీనియర్ మరియు మాడ్యులర్ స్కేలబిలిటీ: డేటా సెట్లు హెచ్డిఎఫ్ఎస్ ద్వారా పంపిణీ చేయబడినందున, ఇది వివిధ నోడ్లలో సరళంగా స్కేలబుల్ అవుతుంది, అలాగే మాడ్యులర్ స్కేలబుల్, ఎందుకంటే ఇది వివిధ నోడ్లలో విభజించబడింది.
- పట్టికల స్వయంచాలక మరియు కాన్ఫిగర్ షార్డింగ్: HBase పట్టికలు సమూహాలలో పంపిణీ చేయబడతాయి మరియు ఈ సమూహాలు ప్రాంతాలలో పంపిణీ చేయబడతాయి. ఈ ప్రాంతాలు మరియు సమూహాలు విడిపోతాయి మరియు డేటా పెరుగుతున్న కొద్దీ పున ist పంపిణీ చేయబడతాయి.
- క్లయింట్ యాక్సెస్ కోసం జావా API ని ఉపయోగించడం సులభం: ప్రోగ్రామాటిక్ యాక్సెస్ కోసం ఇది జావా API ని ఉపయోగించడం సులభం.
- పొదుపు గేట్వే మరియు REST- ఫుల్ వెబ్ సేవలు: ఇది జావా-కాని ఫ్రంట్-ఎండ్స్ కోసం పొదుపు మరియు REST API కి మద్దతు ఇస్తుంది.
- కాష్ మరియు బ్లూమ్ ఫిల్టర్లను బ్లాక్ చేయండి: అధిక వాల్యూమ్ ప్రశ్న ఆప్టిమైజేషన్ కోసం HBase బ్లాక్ కాష్ మరియు బ్లూమ్ ఫిల్టర్లకు మద్దతు ఇస్తుంది.
- స్వయంచాలక వైఫల్యం మద్దతు: HDFS తో HBase స్వయంచాలక వైఫల్య మద్దతును అందించే క్లస్టర్లలో WAL (ముందుకు లాగ్ రాయండి) ను అందిస్తుంది.
- క్రమబద్ధీకరించిన రౌకీలు: వరుసల శ్రేణిలో శోధన జరుగుతున్నందున, హెచ్బేస్ రౌకీలను ఒక నిఘంటువు క్రమంలో నిల్వ చేస్తుంది. ఈ క్రమబద్ధీకరించిన రౌకీలు మరియు టైమ్స్టాంప్ ఉపయోగించి, మేము ఆప్టిమైజ్ చేసిన అభ్యర్థనను నిర్మించగలము.
ఇప్పుడు ఈ HBase ట్యుటోరియల్లో ముందుకు వెళుతున్నప్పుడు, HBase ను ఉపయోగించగల ఉపయోగ సందర్భాలు మరియు దృశ్యాలు ఏమిటో నేను మీకు చెప్తాను, ఆపై, నేను HDFS మరియు HBase లను పోల్చి చూస్తాను.
HBase ఉత్తమంగా సరిపోయే పరిస్థితుల వైపు మీ దృష్టిని ఆకర్షించాలనుకుంటున్నాను.
HBase ట్యుటోరియల్: మనం HBase ను ఎక్కడ ఉపయోగించవచ్చు?
- మనకు పెద్ద డేటా సెట్లు (మిలియన్లు లేదా బిలియన్లు లేదా వరుసలు మరియు నిలువు వరుసలు) ఉన్న HBase ను ఉపయోగించాలి మరియు మాకు వేగంగా, యాదృచ్ఛికంగా మరియు నిజ సమయం అవసరం, డేటాపై ప్రాప్యతను చదవడం మరియు వ్రాయడం.
- డేటా సెట్లు వివిధ క్లస్టర్లలో పంపిణీ చేయబడతాయి మరియు డేటాను నిర్వహించడానికి మాకు అధిక స్కేలబిలిటీ అవసరం.
- డేటా వివిధ డేటా వనరుల నుండి సేకరించబడుతుంది మరియు ఇది సెమీ స్ట్రక్చర్డ్ లేదా స్ట్రక్చర్డ్ డేటా లేదా అన్ని కలయిక. దీన్ని హెచ్బేస్తో సులభంగా నిర్వహించవచ్చు.
- మీరు కాలమ్ ఆధారిత డేటాను నిల్వ చేయాలనుకుంటున్నారు.
- మీకు డేటా సెట్ల యొక్క చాలా వెర్షన్లు ఉన్నాయి మరియు మీరు అవన్నీ నిల్వ చేయాలి.
నేను ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీకి వెళ్ళే ముందు,HBase మరియు HDFS మధ్య తేడాలు ఏమిటో నేను మీకు చెప్తాను.
HBase ట్యుటోరియల్: HBase VS HDFS
HDFS అనేది జావా ఆధారిత పంపిణీ ఫైల్ సిస్టమ్, ఇది హడూప్ క్లస్టర్లో బహుళ నోడ్లలో పెద్ద డేటాను నిల్వ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. కాబట్టి, పంపిణీ చేయబడిన వాతావరణంలో డేటాను నిల్వ చేయడానికి అంతర్లీన నిల్వ వ్యవస్థ HDFS. HDFS ఒక ఫైల్ సిస్టమ్, అయితే HBase ఒక డేటాబేస్ (NTFS మరియు MySQL మాదిరిగానే).
HDFS మరియు HBase రెండూ పంపిణీ చేయబడిన వాతావరణంలో ఎలాంటి డేటాను (అనగా నిర్మాణాత్మక, సెమీ స్ట్రక్చర్డ్ మరియు స్ట్రక్చర్డ్) నిల్వ చేస్తున్నందున, HDFS ఫైల్ సిస్టమ్ మరియు NoSQL డేటాబేస్ అయిన HBase మధ్య తేడాలను చూద్దాం.
- HBase పెద్ద డేటా సెట్లలోని చిన్న మొత్తంలో డేటాకు తక్కువ జాప్యం ప్రాప్యతను అందిస్తుంది, అయితే HDFS అధిక జాప్యం ఆపరేషన్లను అందిస్తుంది.
- HDFS WORM కి మద్దతు ఇస్తున్నప్పుడు HBase యాదృచ్ఛిక చదవడానికి మరియు వ్రాయడానికి మద్దతు ఇస్తుంది (ఒకసారి చదవండి చాలా లేదా బహుళ సార్లు చదవండి).
- HDFS ప్రాథమికంగా లేదా ప్రధానంగా మ్యాప్రెడ్యూస్ ఉద్యోగాల ద్వారా ప్రాప్తి చేయగా, HBase ను షెల్ ఆదేశాలు, జావా API, REST, అవ్రో లేదా పొదుపు API ద్వారా యాక్సెస్ చేయవచ్చు.
HDFS పంపిణీ చేయబడిన వాతావరణంలో పెద్ద డేటా సెట్లను నిల్వ చేస్తుంది మరియు ఆ డేటాపై బ్యాచ్ ప్రాసెసింగ్ను ప్రభావితం చేస్తుంది. ఉదా. ఇది ఇ-కామర్స్ వెబ్సైట్కు మిలియన్ల కస్టమర్ల డేటాను పంపిణీ చేసిన వాతావరణంలో నిల్వ చేయడానికి సహాయపడుతుంది, ఇది చాలా కాలం పాటు పెరిగింది (4-5 సంవత్సరాలు లేదా అంతకంటే ఎక్కువ కావచ్చు). అప్పుడు అది ఆ డేటాపై బ్యాచ్ ప్రాసెసింగ్ను ప్రభావితం చేస్తుంది మరియు కస్టమర్ ప్రవర్తనలు, నమూనా, అవసరాలను విశ్లేషిస్తుంది. అప్పుడు కంపెనీ ఏ రకమైన ఉత్పత్తి, కస్టమర్ కొనుగోలు ఏ నెలల్లో కనుగొనగలదు. ఇది ఆర్కైవ్ చేసిన డేటాను నిల్వ చేయడానికి మరియు దానిపై బ్యాచ్ ప్రాసెసింగ్ను అమలు చేయడానికి సహాయపడుతుంది.
ప్రతి కాలమ్ కలిసి నిల్వ చేయబడిన చోట కాలమ్ ఆధారిత పద్ధతిలో HBase డేటాను నిల్వ చేస్తుంది, తద్వారా పఠనం నిజ సమయ ప్రాసెసింగ్ను వేగవంతం చేస్తుంది. ఉదా. ఇదే విధమైన ఇ-కామర్స్ వాతావరణంలో, ఇది మిలియన్ల ఉత్పత్తి డేటాను నిల్వ చేస్తుంది. కాబట్టి మీరు మిలియన్ల ఉత్పత్తులలో ఉత్పత్తి కోసం శోధిస్తే, అది అభ్యర్థన మరియు శోధన ప్రక్రియను ఆప్టిమైజ్ చేస్తుంది, ఫలితాన్ని వెంటనే ఉత్పత్తి చేస్తుంది (లేదా మీరు నిజ సమయంలో చెప్పవచ్చు). వివరంగా HBase నిర్మాణ వివరణ , నేను నా తదుపరి బ్లాగులో కవర్ చేస్తాను.
హెచ్బిఎస్ హెచ్డిఎఫ్ఎస్ ద్వారా పంపిణీ చేయబడిందని మనకు తెలుసు, కాబట్టి రెండింటి కలయిక రెండింటి యొక్క ప్రయోజనాలను, తగిన పరిష్కారంలో ఉపయోగించుకోవడానికి మాకు గొప్ప అవకాశాన్ని ఇస్తుంది, ఈ క్రింది ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీలో మనం చూడబోతున్నాం.
HBase ట్యుటోరియల్: ఫేస్బుక్ మెసెంజర్ కేస్ స్టడీ
ఫేస్బుక్ మెసేజింగ్ ప్లాట్ఫాం నవంబర్ 2010 లో అపాచీ కాసాండ్రా నుండి హెచ్బేస్కు మార్చబడింది.
ఫేస్బుక్ మెసెంజర్ సందేశాలు, ఇమెయిల్, చాట్ మరియు SMS లను నిజ-సమయ సంభాషణలో మిళితం చేస్తుంది. ఈ సేవల సమితిని నిర్వహించడానికి ఫేస్బుక్ స్కేలబుల్ మరియు బలమైన మౌలిక సదుపాయాలను నిర్మించడానికి ప్రయత్నిస్తోంది.
ఆ సమయంలో సందేశ మౌలిక సదుపాయాలు 350 మిలియన్ల మంది వినియోగదారులను నెలకు 15 బిలియన్లకు పైగా వ్యక్తికి సందేశాలను పంపుతున్నాయి. నెలకు 120 బిలియన్లకు పైగా సందేశాలను పంపే 300 మిలియన్ల మంది వినియోగదారులకు చాట్ సేవ మద్దతు ఇస్తుంది.
వినియోగాన్ని పర్యవేక్షించడం ద్వారా, రెండు సాధారణ డేటా నమూనాలు ఉద్భవించాయని వారు కనుగొన్నారు:
- అస్థిరతను కలిగి ఉన్న తాత్కాలిక డేటా యొక్క చిన్న సెట్
- ఎప్పటికప్పుడు పెరుగుతున్న డేటా సమితి అరుదుగా ప్రాప్యత అవుతుంది
ఫేస్బుక్ ఈ రెండు వినియోగ విధానాలకు నిల్వ పరిష్కారాన్ని కనుగొనాలనుకుంది మరియు ప్రస్తుతం ఉన్న సందేశాల అవస్థాపనకు ప్రత్యామ్నాయాన్ని కనుగొనడానికి వారు దర్యాప్తు ప్రారంభించారు.
అంతకుముందు 2008 లో, వారు ఓపెన్-సోర్స్ డేటాబేస్ను ఉపయోగించారు, అనగా కాసాండ్రా, ఇది చివరికి-అనుగుణ్యత కలిగిన కీ-విలువ స్టోర్, ఇది ఇన్బాక్స్ శోధన కోసం ఇప్పటికే ఉత్పత్తిలో ట్రాఫిక్ ఉత్పత్తిలో ఉంది. వారి బృందాలకు MySQL డేటాబేస్ను ఉపయోగించడంలో మరియు నిర్వహించడానికి గొప్ప జ్ఞానం ఉంది, కాబట్టి సాంకేతిక పరిజ్ఞానాలలో దేనినైనా మార్చడం వారికి తీవ్రమైన ఆందోళన.
MySQL, అపాచీ కాసాండ్రా, అపాచీ HBase మరియు ఇతర వ్యవస్థల సమూహాలను అంచనా వేయడానికి వారు వేర్వేరు ఫ్రేమ్వర్క్లను పరీక్షించడానికి కొన్ని వారాలు గడిపారు. వారు చివరికి HBase ని ఎంచుకున్నారు.
పెద్ద డేటా సెట్లను సమర్థవంతంగా నిర్వహించడంలో MySQL విఫలమైనందున, సూచికలు మరియు డేటా సెట్లు పెద్దవి కావడంతో, పనితీరు దెబ్బతింది. కాసాండ్రా వారి కొత్త సందేశాల మౌలిక సదుపాయాలను పునరుద్దరించటానికి కష్టమైన నమూనాను నిర్వహించలేకపోయారని వారు కనుగొన్నారు.
ప్రధాన సమస్యలు:
- వివిధ ఫేస్బుక్ సేవల నుండి నిరంతరం పెరుగుతున్న డేటా యొక్క పెద్ద సెట్లను నిల్వ చేస్తుంది.
- డేటాబేస్ అవసరం, దానిపై అధిక ప్రాసెసింగ్ ఉంటుంది.
- మిలియన్ల అభ్యర్థనలను అందించడానికి అధిక పనితీరు అవసరం.
- నిల్వ మరియు పనితీరులో స్థిరత్వాన్ని నిర్వహించడం.
మూర్తి: ఫేస్బుక్ మెసెంజర్ ఎదుర్కొంటున్న సవాళ్లు
ఈ సమస్యలన్నింటికీ, ఫేస్బుక్ ఒక పరిష్కారాన్ని తీసుకువచ్చింది, అంటే హెచ్బేస్. ఫేస్బుక్ దాని యొక్క వివిధ లక్షణాల కారణంగా ఫేస్బుక్ మెసెంజర్, చాట్, ఇమెయిల్ మొదలైన వాటికి సేవ చేయడానికి HBase ను స్వీకరించింది.
కాసాండ్రా కంటే సరళమైన అనుగుణ్యత మోడల్తో ఈ పనిభారం కోసం హెచ్బేస్ చాలా మంచి స్కేలబిలిటీ మరియు పనితీరుతో వస్తుంది. ఆటో లోడ్ బ్యాలెన్సింగ్ మరియు ఫెయిల్ఓవర్, కంప్రెషన్ సపోర్ట్, సర్వర్కు బహుళ ముక్కలు మొదలైన వాటి అవసరాలకు అనుగుణంగా హెచ్బేస్ చాలా సరిఅయినదని వారు కనుగొన్నారు.
హెచ్బిఎస్ ఉపయోగించే అంతర్లీన ఫైల్ సిస్టమ్ అయిన హెచ్డిఎఫ్ఎస్ వారికి ఎండ్-టు-ఎండ్ చెక్సమ్స్, రెప్లికేషన్ మరియు ఆటోమేటిక్ లోడ్ రీ బ్యాలెన్సింగ్ వంటి అనేక అవసరమైన లక్షణాలను అందించింది.
మూర్తి: ఫేస్బుక్ మెసెంజర్కు పరిష్కారంగా హెచ్బేస్
వారు HBase ను స్వీకరించినప్పుడు, వారు ఫలితాలను HBase కు తిరిగి ఇవ్వడంపై కూడా దృష్టి పెట్టారు మరియు అపాచీ సంఘంతో కలిసి పనిచేయడం ప్రారంభించారు.
సందేశాలు SMS, చాట్లు మరియు ఇమెయిల్లు వంటి విభిన్న వనరుల నుండి డేటాను అంగీకరిస్తాయి కాబట్టి, వారు వినియోగదారు సందేశం కోసం అన్ని నిర్ణయాలు తీసుకునేలా అప్లికేషన్ సర్వర్ను వ్రాశారు. ఇది పెద్ద సంఖ్యలో ఇతర సేవలతో ఇంటర్ఫేస్ చేస్తుంది. జోడింపులు హేస్టాక్లో నిల్వ చేయబడతాయి (ఇది HBase లో పనిచేస్తుంది). వారు అపాచీ జూకీపర్ పైన వినియోగదారు ఆవిష్కరణ సేవను కూడా వ్రాసారు, ఇది స్నేహితుల సంబంధాలు, ఇమెయిల్ ఖాతా ధృవీకరణ, డెలివరీ నిర్ణయాలు మరియు గోప్యతా నిర్ణయాల కోసం ఇతర మౌలిక సదుపాయాల సేవలతో మాట్లాడుతుంది.
ఫేస్బుక్ బృందం ఈ సేవలు ప్రతి ఒక్కటి దృ, మైనవి, నమ్మదగినవి మరియు రియల్ టైమ్ మెసేజింగ్ వ్యవస్థను నిర్వహించడానికి మంచి పనితీరును అందిస్తాయని ధృవీకరించడానికి చాలా సమయం గడిపాయి.
ఈ HBase ట్యుటోరియల్ బ్లాగ్ సమాచారమని నేను ఆశిస్తున్నాను మరియు మీరు దీన్ని ఇష్టపడ్డారు. ఈ బ్లాగులో, మీరు HBase యొక్క ప్రాథమికాలను మరియు దాని లక్షణాలను తెలుసుకున్నారు.నా తదుపరి బ్లాగులో , నేను వివరిస్తాను HBase యొక్క నిర్మాణం మరియు HBase యొక్క పని వేగంగా మరియు యాదృచ్ఛిక చదవడానికి / వ్రాయడానికి ఇది ప్రాచుర్యం పొందింది.
ఇప్పుడు మీరు HBase యొక్క ప్రాథమికాలను అర్థం చేసుకున్నారు, చూడండి ప్రపంచవ్యాప్తంగా విస్తరించి ఉన్న 250,000 మందికి పైగా సంతృప్తికరమైన అభ్యాసకుల నెట్వర్క్తో విశ్వసనీయ ఆన్లైన్ లెర్నింగ్ సంస్థ ఎడురేకా చేత. రిటైల్, సోషల్ మీడియా, ఏవియేషన్, టూరిజం, ఫైనాన్స్ డొమైన్లో రియల్ టైమ్ యూజ్ కేసులను ఉపయోగించి హెచ్డిఎఫ్ఎస్, నూలు, మ్యాప్రెడ్యూస్, పిగ్, హైవ్, హెచ్బేస్, ఓజీ, ఫ్లూమ్ మరియు స్కూప్లో నిపుణులు కావడానికి ఎడురేకా బిగ్ డేటా హడూప్ సర్టిఫికేషన్ ట్రైనింగ్ కోర్సు సహాయపడుతుంది.
మాకు ప్రశ్న ఉందా? దయచేసి వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.