నేడు, ఐటి ప్రపంచంలో అత్యంత ప్రాచుర్యం పొందిన పదం ‘హడూప్’. తక్కువ వ్యవధిలో, హడూప్ భారీగా పెరిగింది మరియు విభిన్న ప్రాజెక్టుల యొక్క పెద్ద సేకరణకు ఉపయోగకరంగా ఉందని నిరూపించబడింది. హడూప్ సంఘం వేగంగా అభివృద్ధి చెందుతోంది మరియు దాని పర్యావరణ వ్యవస్థలో ప్రముఖ పాత్రను కలిగి ఉంది.
బిగ్ డేటాను నిర్వహించడానికి ఉపయోగించే అవసరమైన హడూప్ సాధనాలను ఇక్కడ చూడండి.
జావాలో పోజో క్లాస్ అంటే ఏమిటి
అంబారీ హోర్టన్వర్క్స్ చేత మద్దతు ఇవ్వబడిన అపాచీ ప్రాజెక్ట్. ఇది చాలా ప్రామాణిక భాగాలతో క్లస్టర్లను ఏర్పాటు చేయడానికి విజార్డ్ స్క్రిప్ట్లతో వెబ్ ఆధారిత GUI (గ్రాఫికల్ యూజర్ ఇంటర్ఫేస్) ను అందిస్తుంది. హడూప్ ఉద్యోగాల యొక్క అన్ని సమూహాలను అంబారీ నిబంధనలు, నిర్వహిస్తుంది మరియు పర్యవేక్షిస్తుంది.
ది HDFS , అపాచీ లైసెన్స్ క్రింద పంపిణీ చేయబడినది, బహుళ నోడ్ల మధ్య డేటా సేకరణలను విభజించడానికి ఒక ప్రాథమిక ఫ్రేమ్వర్క్ను అందిస్తుంది. HDFS లో, పెద్ద ఫైళ్ళు బ్లాక్లుగా విభజించబడ్డాయి, ఇక్కడ అనేక నోడ్లు ఒక ఫైల్ నుండి అన్ని బ్లాక్లను కలిగి ఉంటాయి. అధిక నిర్గమాంశంతో తప్పు సహనాన్ని కలిపే విధంగా ఫైల్ సిస్టమ్ రూపొందించబడింది. స్థిరమైన స్ట్రీమింగ్ను నిర్వహించడానికి HDFS యొక్క బ్లాక్లు లోడ్ చేయబడతాయి. జాప్యాన్ని తగ్గించడానికి అవి సాధారణంగా కాష్ చేయబడవు.
HBase ఇది కాలమ్-ఆధారిత డేటాబేస్ నిర్వహణ వ్యవస్థ, ఇది HDFS పైన నడుస్తుంది. మ్యాప్రెడ్యూస్ అప్లికేషన్ మాదిరిగానే జాబాలో హెచ్బేస్ అనువర్తనాలు వ్రాయబడ్డాయి. ఇది పట్టికల సమితిని కలిగి ఉంటుంది, ఇక్కడ ప్రతి పట్టికలో సాంప్రదాయ డేటాబేస్ వంటి వరుసలు మరియు నిలువు వరుసలు ఉంటాయి. డేటా పెద్ద పట్టికలో పడిపోయినప్పుడు, HBase డేటాను నిల్వ చేస్తుంది, దానిని శోధించి, బహుళ నోడ్లలో పట్టికను స్వయంచాలకంగా పంచుకుంటుంది, తద్వారా మ్యాప్రెడ్యూస్ ఉద్యోగాలు స్థానికంగా దీన్ని అమలు చేయగలవు. కొన్ని స్థానిక మార్పులకు HBase పరిమిత హామీని అందిస్తుంది. ఒకే వరుసలో జరిగే మార్పులు ఒకే సమయంలో విజయవంతం కావచ్చు లేదా విఫలం కావచ్చు.
మీరు ఇప్పటికే SQL తో నిష్ణాతులు అయితే, మీరు హడూప్ ఉపయోగించి పరపతి పొందవచ్చు అందులో నివశించే తేనెటీగలు . ఫేస్బుక్లో కొంతమంది హైవ్ను అభివృద్ధి చేశారు. అపాచీ హైవ్ HBase లోని అన్ని ఫైళ్ళ నుండి బిట్లను సేకరించే విధానాన్ని నియంత్రిస్తుంది. ఇది హడూప్ యొక్క HDFS మరియు అనుకూల ఫైల్ సిస్టమ్స్లో నిల్వ చేయబడిన పెద్ద డేటాసెట్ల విశ్లేషణకు మద్దతు ఇస్తుంది. ఇది HSQL (HiveSQL) అని పిలువబడే SQL వంటి భాషను కూడా అందిస్తుంది, అది ఫైళ్ళలోకి ప్రవేశిస్తుంది మరియు కోడ్ కోసం అవసరమైన స్నిప్పెట్లను సంగ్రహిస్తుంది.
అపాచీ స్కూప్ సాంప్రదాయ డేటాబేస్ల నుండి బల్క్ డేటాను సమర్థవంతంగా హైవ్ లేదా హెచ్బేస్లోకి బదిలీ చేయడానికి ప్రత్యేకంగా రూపొందించబడింది. హడూప్ నుండి డేటాను సంగ్రహించడానికి మరియు రిలేషనల్ డేటాబేస్ మరియు ఎంటర్ప్రైజ్ డేటా గిడ్డంగులు వంటి బాహ్య నిర్మాణాత్మక డేటా-స్టోర్లకు ఎగుమతి చేయడానికి కూడా దీనిని ఉపయోగించవచ్చు. Sqoop అనేది కమాండ్ లైన్ సాధనం, పట్టికలు మరియు డేటా నిల్వ పొర మధ్య మ్యాపింగ్, పట్టికలను HDFS, HBase లేదా అందులో నివశించే తేనెటీగలు యొక్క కాన్ఫిగర్ కలయికగా అనువదిస్తుంది.
నిల్వ చేసిన డేటా హడూప్కు కనిపించినప్పుడు, అపాచీ పిగ్ డేటాలోకి ప్రవేశించి, పిగ్ లాటిన్ అని పిలువబడే దాని స్వంత భాషలో వ్రాయబడిన కోడ్ను నడుపుతుంది. డేటాను నిర్వహించడానికి పిగ్ లాటిన్ సంగ్రహణలతో నిండి ఉంటుంది. డేటా సగటు, తేదీలతో పనిచేయడం లేదా తీగలకు మధ్య తేడాలు కనుగొనడం వంటి సాధారణ పనుల కోసం పిగ్ ప్రామాణిక ఫంక్షన్లతో వస్తుంది. ప్రామాణిక విధులు తక్కువగా ఉన్నప్పుడు యుడిఎఫ్ (యూజర్ డిఫైన్డ్ ఫంక్షన్) అని పిలువబడే భాషలను స్వంతంగా రాయడానికి పిగ్ అనుమతిస్తుంది.
జూకీపర్ ఒక కేంద్రీకృత సేవ, ఇది సమాచారాన్ని నిర్వహిస్తుంది, కాన్ఫిగర్ చేస్తుంది, పేరు ఇస్తుంది మరియు క్లస్టర్ అంతటా పంపిణీ చేయబడిన సమకాలీకరణను అందిస్తుంది. ఇది క్లస్టర్పై ఫైల్ సిస్టమ్ లాంటి సోపానక్రమం విధిస్తుంది మరియు యంత్రాల కోసం అన్ని మెటాడేటాను నిల్వ చేస్తుంది, కాబట్టి మేము వివిధ యంత్రాల పనిని సమకాలీకరించవచ్చు.
NoSQL
కొన్ని హడూప్ సమూహాలు కలిసిపోతాయి NoSQL నోడ్స్ సమూహంలో డేటాను నిల్వ చేయడానికి వారి స్వంత యంత్రాంగాలతో వచ్చే డేటా స్టోర్లు. ఇది NoSQL డేటాబేస్ యొక్క అన్ని లక్షణాలతో డేటాను నిల్వ చేయడానికి మరియు తిరిగి పొందటానికి వారిని అనుమతిస్తుంది, ఆ తర్వాత అదే క్లస్టర్లో డేటా విశ్లేషణ ఉద్యోగాలను షెడ్యూల్ చేయడానికి హడూప్ ఉపయోగించబడుతుంది.
మహౌట్ హడూప్ క్లస్టర్కు అధిక సంఖ్యలో అల్గోరిథంలు, వర్గీకరణలు మరియు డేటా విశ్లేషణ యొక్క ఫిల్టరింగ్ను అమలు చేయడానికి రూపొందించబడింది. K- అంటే, Dirichelet, సమాంతర నమూనా మరియు బయేసియన్ వర్గీకరణలు వంటి అనేక ప్రామాణిక అల్గోరిథంలు హడూప్ స్టైల్ మ్యాప్తో డేటాను అమలు చేయడానికి మరియు తగ్గించడానికి సిద్ధంగా ఉన్నాయి.
లూసిన్, జావాలో వ్రాయబడింది మరియు హడూప్తో సులభంగా విలీనం చేయబడింది, ఇది హడూప్కు సహజ సహచరుడు. ఇది నిర్మాణాత్మక టెక్స్ట్ యొక్క పెద్ద బ్లాకులను ఇండెక్స్ చేయడానికి ఉద్దేశించిన సాధనం. లూసిన్ ఇండెక్సింగ్ను నిర్వహిస్తుంది, హడూప్ క్లస్టర్ అంతటా పంపిణీ చేసిన ప్రశ్నలను నిర్వహిస్తుంది. కొత్త ప్రాజెక్టులు అభివృద్ధి చేయబడుతున్నందున లూసిన్-హడూప్ లక్షణాలు వేగంగా అభివృద్ధి చెందుతున్నాయి.
యూరో ఒక సీరియలైజేషన్ సిస్టమ్, ఇది డేటాను అర్థం చేసుకోవడానికి ఒక స్కీమాతో కలిసి ఉంటుంది. ప్రతి ప్యాకెట్ JSON డేటా నిర్మాణంతో వస్తుంది. డేటాను ఎలా అన్వయించవచ్చో JSON వివరిస్తుంది. JSON యొక్క శీర్షిక డేటా కోసం నిర్మాణాన్ని నిర్దేశిస్తుంది, ఇక్కడ ఫీల్డ్లను గుర్తించడానికి డేటాలో అదనపు ట్యాగ్లను వ్రాయవలసిన అవసరాన్ని నివారించవచ్చు. XML వంటి సాంప్రదాయ ఫార్మాట్ల కంటే అవుట్పుట్ చాలా కాంపాక్ట్.
ఉద్యోగాన్ని దశలుగా విభజించడం ద్వారా సరళీకృతం చేయవచ్చు. బహుళ హడూప్ ఉద్యోగాలకు ప్రాజెక్ట్ను విచ్ఛిన్నం చేసినప్పుడు, ఓజీ వాటిని సరైన క్రమంలో ప్రాసెస్ చేయడం ప్రారంభిస్తుంది. ఇది DAG (డైరెక్టెడ్ ఎసిక్లిక్ గ్రాఫ్) పేర్కొన్న విధంగా వర్క్ఫ్లోను నిర్వహిస్తుంది మరియు సకాలంలో మానిటర్ అవసరం లేదు.
GIS సాధనాలు
హడూప్ నడుస్తున్న క్లస్టర్లకు భౌగోళిక పటాలతో పనిచేయడం పెద్ద పని. GIS ( భౌగోళిక సమాచార వ్యవస్థ ) హడూప్ ప్రాజెక్టుల కోసం సాధనాలు హడూప్తో అమలు చేయడానికి భౌగోళిక సమాచారాన్ని అర్థం చేసుకోవడానికి ఉత్తమ జావా-ఆధారిత సాధనాలను అనుసరించాయి. డేటాబేస్లు ఇప్పుడు కోఆర్డినేట్లను ఉపయోగించి భౌగోళిక ప్రశ్నలను నిర్వహించగలవు మరియు సంకేతాలు GIS సాధనాలను అమలు చేయగలవు.
మొత్తం డేటాను సేకరించడం దానిని నిల్వ చేయడానికి మరియు విశ్లేషించడానికి సమానం. అపాచీ ఫ్లూమ్ HDFS లో నిల్వ చేయబడే సమాచారాన్ని సేకరించడానికి ‘స్పెషల్ ఏజెంట్లను’ పంపుతుంది. సేకరించిన సమాచారం లాగ్ ఫైల్స్, ట్విట్టర్ API లేదా వెబ్సైట్ స్క్రాప్లు కావచ్చు. ఈ డేటాను బంధించి విశ్లేషణలకు లోబడి చేయవచ్చు.
స్పార్క్ మెమరీలో కాష్ చేసిన డేటాను ప్రాసెస్ చేసే హడూప్ లాగా చాలా తరువాతి తరం. సాధారణ అమలు నమూనాతో డేటా విశ్లేషణను వేగంగా అమలు చేయడం మరియు వ్రాయడం దీని లక్ష్యం. ఇది ఏకపక్ష ఆపరేటర్ గ్రాఫ్లను ఆప్టిమైజ్ చేయగలదు మరియు ఇన్-మెమరీ కంప్యూటింగ్కు మద్దతు ఇస్తుంది, ఇది హడూప్ వంటి డిస్క్-ఆధారిత ఇంజిన్ల కంటే వేగంగా డేటాను ప్రశ్నించడానికి అనుమతిస్తుంది.
హడూప్లో SQL
క్లస్టర్లోని అన్ని డేటా యొక్క శీఘ్ర తాత్కాలిక ప్రశ్నను అమలు చేయాల్సిన అవసరం వచ్చినప్పుడు, క్రొత్త హడూప్ ఉద్యోగం వ్రాయబడుతుంది, అయితే దీనికి కొంత సమయం పడుతుంది. ప్రోగ్రామర్లు దీన్ని తరచుగా చేయడం ప్రారంభించినప్పుడు, వారు SQL యొక్క సాధారణ భాషలో వ్రాసిన సాధనాలతో ముందుకు వచ్చారు. ఈ సాధనాలు ఫలితాలకు శీఘ్ర ప్రాప్యతను అందిస్తాయి.
అపాచీ డ్రిల్
అపాచీ డ్రిల్ సమూహ డేటాతో సహా అనేక మరియు వైవిధ్యమైన డేటా వనరులకు తక్కువ జాప్యం తాత్కాలిక ప్రశ్నలను అందిస్తుంది. గూగుల్ యొక్క డ్రేమెల్ నుండి ప్రేరణ పొందిన డ్రిల్, 10,000 సర్వర్లకు స్కేల్ చేయడానికి మరియు సెకన్లలో పెటాబైట్ల డేటాను ప్రశ్నించడానికి రూపొందించబడింది.
బిగ్ డేటాను క్రంచ్ చేయడానికి అవసరమైన హడూప్ సాధనాలు ఇవి!
మాకు ప్రశ్న ఉందా? దయచేసి వాటిని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.
సంబంధిత పోస్ట్లు:
హడూప్ 2.0 నేర్చుకోవడానికి ఆచరణాత్మక కారణాలు