అమెజాన్ EMR తో హడూప్ క్లస్టర్‌ను ఎలా సృష్టించాలి?



ఈ వ్యాసంలో మేము AWS EMR సేవను అన్వేషిస్తాము మరియు ఈ ప్రక్రియలో అమెజాన్ EMR తో హడూప్ క్లస్టర్‌ను ఎలా సృష్టించాలో నేర్చుకుంటాము.

ఎలా సృష్టించాలో ఈ వ్యాసంలో అమెజాన్ EMR తో క్లస్టర్ హడూప్ మరియు బిగ్ డేటా అనువర్తనాలను సులభంగా అమలు చేయడం మరియు స్కేల్ చేయడం ఎలాగో చూస్తాము. ఈ వ్యాసంలో క్రింది గమనికలు కవర్ చేయబడతాయి,

దీనితో ముందుకు సాగడం అమెజాన్ EMR తో హడూప్ క్లస్టర్‌ను ఎలా సృష్టించాలి?





అమెజాన్ EMR తో హడూప్ క్లస్టర్‌ను ఎలా సృష్టించాలి?

మేము గూగుల్ లేదా యాహూలో ఏదైనా శోధించినప్పుడు, సెకనులో కొంత భాగానికి ప్రతిస్పందన వస్తుంది. గూగుల్, యాహూ మరియు ఇతర సెర్చ్ ఇంజన్లు ఎప్పటికప్పుడు పెరుగుతున్న వెబ్ నుండి ఫలితాలను ఎంత వేగంగా తిరిగి ఇస్తాయి? సెర్చ్ ఇంజన్లు ఇంటర్నెట్ ద్వారా క్రాల్ చేస్తాయి, వెబ్‌పేజీలను డౌన్‌లోడ్ చేయండి మరియు క్రింద చూపిన విధంగా సూచికను సృష్టించండి. మా నుండి ఏదైనా ప్రశ్న కోసం, మేము శోధిస్తున్న వచనాన్ని కలిగి ఉన్న అన్ని వెబ్ పేజీలు ఏమిటో గుర్తించడానికి వారు సూచికను ఉపయోగిస్తారు. కుడి వైపున ఉన్న దిగువ సూచికను చూడటం ద్వారా, హడూప్ వెబ్ పేజీ 1, 2 మరియు 3 ఉందని స్పష్టంగా తెలుసుకోవచ్చు.

చిత్రం - అమెజాన్ EMR తో హడూప్ క్లస్టర్‌ను ఎలా సృష్టించాలి - ఎడురేకాఅప్పుడు, ది పేజ్ ర్యాంకింగ్ అల్గోరిథం పైభాగంలో ఏ పేజీని చూపించాలో మరియు దిగువన ఏ పేజీలను గుర్తించాలో పేజీలు ఎలా కనెక్ట్ చేయబడ్డాయి అనే దానిపై ఆధారపడి ఉంటుంది. దిగువ దృష్టాంతంలో W1 అనేది 'అత్యంత ప్రాచుర్యం పొందింది' ఎందుకంటే ప్రతి ఒక్కరూ దీనికి లింక్ చేస్తున్నారు మరియు W4 'తక్కువ జనాదరణ పొందినది' ఎందుకంటే ఎవరూ దీనికి లింక్ చేయరు. కాబట్టి, శోధన ఫలితాల్లో W1 పైభాగంలో మరియు W4 దిగువన చూపబడుతుంది.



వెబ్ పేజీల పేలుడుతో ఈ సెర్చ్ ఇంజన్లు సూచికను సృష్టించడానికి మరియు పేజ్ రాంకింగ్ లెక్కలు చేయడానికి సవాళ్లను కనుగొన్నాయి. ఇక్కడే హడూప్ జననం యాహూలో జరిగింది మరియు తరువాత ASF (అపాచీ సాఫ్ట్‌వేర్ ఫౌండేషన్) క్రింద FOSS (ఫ్రీ అండ్ ఓపెన్ సోర్స్ సాఫ్ట్‌వేర్) గా మారింది. ఒకసారి ASF క్రింద చాలా కంపెనీలు హడూప్ పట్ల ఆసక్తి చూపడం ప్రారంభించాయి మరియు దానిని మెరుగుపరచడానికి సహకరించడం ప్రారంభించాయి. బిగ్ డేటా విప్లవాన్ని ప్రారంభించినది హడూప్, కానీ స్పార్క్, హైవ్, పిగ్, స్కూప్, జూకీపర్, హెచ్‌బేస్, కాసాండ్రా, ఫ్లూమ్ వంటి అనేక ఇతర సాఫ్ట్‌వేర్‌లు హడూప్‌లోని పరిమితులు మరియు అంతరాలను పరిష్కరించడానికి అభివృద్ధి చెందడం ప్రారంభించాయి.

వెబ్ సెర్చ్ ఇంజన్లు మొదట హడూప్‌ను ఉపయోగించాయి, కాని తరువాత ఎక్కువ డేటా-ఉత్పాదనలు మొదలయ్యాయి. వినియోగదారులకు పుస్తకాలను సిఫారసు చేయడానికి ఉపయోగించే కామర్స్ అనువర్తనం యొక్క ఉదాహరణను తీసుకుందాం. దిగువ రేఖాచిత్రం ప్రకారం, యూజర్ 1 బుక్ 1, బుక్ 2 మరియు బుక్ 3, యూజర్ 2 కొన్ని పుస్తకాలను కొన్నారు. నిశితంగా పరిశీలిస్తే, యూజర్ 1 మరియు యూజర్ 2 బుక్ 1 మరియు బుక్ 2 ను కొనుగోలు చేసినట్లే ఇలాంటి రుచిని కలిగి ఉన్నాయని మనం గమనించవచ్చు. కాబట్టి, బుక్ 3 ను యూజర్ 2 కి మరియు బుక్ 4 ను యూజర్ 1 కి సిఫారసు చేయవచ్చు. దీనిని మెషిన్ లెర్నింగ్ అల్గోరిథం యొక్క ఒక రకమైన సహకార వడపోత అంటారు. మేము ఈ క్రింది రేఖాచిత్రాన్ని తిప్పవచ్చు మరియు ఇలాంటి పుస్తకాలను పొందవచ్చు.

పై సందర్భంలో మేము ఇండెక్స్, పేజ్ ర్యాంక్ మరియు వినియోగదారుకు సిఫారసు చేసాము, డేటా యొక్క పరిమాణం చిన్నది మరియు అందువల్ల మేము డేటాను దృశ్యమానం చేయగలిగాము మరియు దాని నుండి కొన్ని ఫలితాలను er హించగలిగాము. డేటా పరిమాణం రోజురోజుకు మరియు నియంత్రణలో లేనందున, హడూప్ వంటి బిగ్ డేటా సాధనాలు చిత్రంలోకి వస్తాయి.



హడూప్ చాలా సమస్యలను పరిష్కరిస్తుంది, కానీ హడూప్ మరియు ఇతర బిగ్ డేటా సాఫ్ట్‌వేర్‌లను ఇన్‌స్టాల్ చేయడం అంత తేలికైన పని కాదు. సర్దుబాటు చేయడానికి ఇంటిగ్రేషన్, ఇన్‌స్టాలేషన్ మరియు కాన్ఫిగరేషన్ సమస్యలు వంటి సర్దుబాటు కాన్ఫిగరేషన్ పారామితులు చాలా ఉన్నాయి. క్లౌడెరా వంటి సంస్థలు ఇక్కడే ఉన్నాయి మరియు డేటాబ్రిక్స్ సహాయం చేస్తాయి. అవి బిగ్ డేటా సాఫ్ట్‌వేర్‌ను ఇన్‌స్టాల్ చేయడాన్ని సులభతరం చేస్తాయి మరియు వాణిజ్య మద్దతును అందిస్తాయి, ఉదాహరణకు ఉత్పత్తిలో ఏదో జరుగుతుందని చెప్పండి. అమెజాన్ EMR (సాగే మ్యాప్‌రెడ్యూస్) హడూప్ మొదలైనవాటిని ఉపయోగించడం చాలా సులభం. సాగే మ్యాప్‌రెడ్యూస్ అనే పేరు కొంచెం తప్పుడు పేరు, ఎందుకంటే EMR ఇతర పంపిణీ చేయబడిన కంప్యూటింగ్ మోడళ్లకు రెసిలియంట్ డిస్ట్రిబ్యూటెడ్ డేటాసెట్‌లకు మద్దతు ఇస్తుంది మరియు మ్యాప్‌రెడ్యూస్ మాత్రమే కాదు.

ఈ ట్యుటోరియల్‌లో, AWS క్లౌడ్‌లో EMR క్లస్టర్‌ను ఎలా సెటప్ చేయాలో మేము అన్వేషిస్తాము మరియు రాబోయే ట్యుటోరియల్‌లో, దానిపై స్పార్క్, హైవ్ మరియు ఇతర ప్రోగ్రామ్‌లను ఎలా అమలు చేయాలో అన్వేషిస్తాము.

దీనితో ముందుకు సాగడం అమెజాన్ EMR తో హడూప్ క్లస్టర్‌ను ఎలా సృష్టించాలి?

జావాలో చారత్ ఎలా ఉపయోగించాలి

డెమో: AWS లో EMR క్లస్టర్‌ను సృష్టించడం

దశ 1: EMR మేనేజ్‌మెంట్ కన్సోల్‌కు వెళ్లి “క్రియేట్ క్లస్టర్” పై క్లిక్ చేయండి. కన్సోల్‌లో, మెటాడేటా ముగించబడిన క్లస్టర్ రెండు నెలలు ఉచితంగా సేవ్ చేయబడుతుంది. ఇది ముగించబడిన క్లస్టర్‌ను క్లోన్ చేసి మళ్లీ సృష్టించడానికి అనుమతిస్తుంది.

దశ 2 : శీఘ్ర ఎంపికల స్క్రీన్ నుండి, క్లస్టర్ గురించి మరిన్ని వివరాలను పేర్కొనడానికి “అధునాతన ఎంపికలకు వెళ్ళు” పై క్లిక్ చేయండి.

దశ 3: అధునాతన ఎంపికల ట్యాబ్‌లో, మేము EMR క్లస్టర్‌లో ఇన్‌స్టాల్ చేయాల్సిన విభిన్న సాఫ్ట్‌వేర్‌లను ఎంచుకోవచ్చు. SQL ఇంటర్ఫేస్ కోసం, అందులో నివశించే తేనెటీగలు ఎంచుకోవచ్చు. డేటా ఫ్లో లాంగ్వేజ్ ఇంటర్ఫేస్ కోసం, పిగ్ ఎంచుకోవచ్చు. పంపిణీ చేయబడిన అనువర్తన సమన్వయం కోసం జూకీపర్‌ను ఎంచుకోవచ్చు మరియు మొదలైనవి. ఈ టాబ్ దశలను జోడించడానికి కూడా అనుమతిస్తుంది, ఇది ఐచ్ఛిక పని. మ్యాప్‌రెడ్యూస్, పిగ్, హైవ్ మొదలైన వాటిని ఉపయోగించి బిగ్ డేటా ప్రాసెసింగ్ ఉద్యోగాలు దశలు. వాటిని ఈ ట్యాబ్‌లో లేదా తరువాత క్లస్టర్ సృష్టించిన తర్వాత చేర్చవచ్చు. EMR క్లస్టర్‌కు అవసరమైన హార్డ్‌వేర్‌ను ఎంచుకోవడానికి “Next” పై క్లిక్ చేయండి.

దశ 4: హడూప్ మాస్టర్-వర్కర్ ఆర్కిటెక్చర్‌ను అనుసరిస్తుంది, ఇక్కడ మాస్టర్ షెడ్యూల్ చేయడం మరియు పనిని కేటాయించడం మరియు వారి పురోగతిని తనిఖీ చేయడం వంటి అన్ని సమన్వయాలను చేస్తుంది, అదే సమయంలో కార్మికులు డేటాను ప్రాసెస్ చేయడం మరియు నిల్వ చేయడం వంటి వాస్తవమైన పనిని చేస్తారు. సింగిల్ మాస్టర్ సింగిల్-పాయింట్-ఆఫ్-ఫెయిల్యూర్ (SPOF). అమెజాన్ EMR హై ఎవైలబిలిటీ (HA) కోసం మల్టీ-మాస్టర్‌కు మద్దతు ఇస్తుంది. మునుపటి దశ EMR లో మల్టీ-మాస్టర్ క్లస్టర్‌ను సెటప్ చేయడానికి అనుమతిస్తుంది.

EMR కోర్ మరియు టాస్క్ అనే రెండు రకాల నోడ్‌లను అనుమతిస్తుంది. డేటాను ప్రాసెస్ చేయడానికి మరియు నిల్వ చేయడానికి కోర్ నోడ్ ఉపయోగించబడుతుంది, టాస్క్ నోడ్ కేవలం డేటాను ప్రాసెస్ చేయడానికి ఉపయోగించబడుతుంది. ఈ ట్యుటోరియల్ కోసం, మనకు ఒక కోర్ మాత్రమే ఎంచుకోవచ్చు మరియు టాస్క్ నోడ్స్ లేవు ఎందుకంటే ఇది మాకు తక్కువ ఖర్చుతో కూడుకున్నది. అలాగే, ఎంచుకోండి స్పాట్ ఉదంతాలు పైగా కోరిక మేరకు స్పాట్ ఉదంతాలు చౌకగా ఉంటాయి. స్పాట్ ఉదంతాలతో ఉన్న క్యాచ్ ఏమిటంటే వాటిని AWS ద్వారా స్వయంచాలకంగా ముగించవచ్చు రెండు నిమిషాల నోటీసు . ఇది అభ్యాసం కొరకు మరియు కొన్ని వాస్తవ దృశ్యాలలో కూడా మంచిది. ఇతర ఉదాహరణ రకాల కంటే తక్కువ ప్రాధాన్యత ఉన్నందున స్పాట్ ఉదంతాలు స్వయంచాలకంగా ముగించబడతాయి. “తదుపరి” పై క్లిక్ చేయండి.

దశ 5: క్లస్టర్ పేరును పేర్కొనండి. మరియు “తదుపరి” పై క్లిక్ చేయండి. “ముగింపు రక్షణ” అప్రమేయంగా ప్రారంభించబడిందని గమనించండి, క్లస్టర్‌ను ముగించేటప్పుడు కొన్ని దశలను ప్రవేశపెట్టడం ద్వారా అనుకోకుండా EMR క్లస్టర్ తొలగించబడదని ఇది నిర్ధారిస్తుంది.

దశ 6: టాబ్‌లో, EMR క్లస్టర్ కోసం విభిన్న భద్రతా ఎంపికలు పేర్కొనబడ్డాయి. EC2 ఉదాహరణలోకి లాగిన్ అవ్వడానికి కీపెయిర్ ఎంచుకోవాలి. EMR స్వయంచాలకంగా తగిన పాత్రలు మరియు భద్రతా సమూహాలను సృష్టిస్తుంది మరియు వాటిని మాస్టర్ మరియు వర్కర్ EC2 నోడ్‌లకు అటాచ్ చేస్తుంది. “క్రియేట్ క్లస్టర్” పై క్లిక్ చేయండి.

క్లస్టర్ యొక్క సృష్టికి కొన్ని నిమిషాలు పడుతుంది, ఎందుకంటే EC2 ఉదంతాలను కొనుగోలు చేయాలి మరియు విభిన్న బిగ్ డేటా సాఫ్ట్‌వేర్‌లను తప్పనిసరిగా ఇన్‌స్టాల్ చేసి కాన్ఫిగర్ చేయాలి. ప్రారంభంలో క్లస్టర్ స్థితి “ప్రారంభ” స్థితిలో ఉంటుంది మరియు “వెయిటింగ్” స్థితికి వెళుతుంది. “వెయిటింగ్” స్థితిలో, MR, స్పార్క్, అందులో నివశించే తేనెటీగలు వంటి విభిన్న బిగ్ డేటా ప్రాసెసింగ్ ఉద్యోగాలను సమర్పించడానికి EMR క్లస్టర్ వేచి ఉంది.

అలాగే, EC2 మేనేజ్‌మెంట్ కన్సోల్ నుండి నోటీసు ఇవ్వండి మరియు మాస్టర్ మరియు వర్కర్ EC2 ఉదంతాలు నడుస్తున్న స్థితిలో ఉండాలని గమనించండి. ఇవి EMR క్లస్టర్ సృష్టిలో భాగంగా సృష్టించబడిన స్పాట్ ఉదంతాలు. అదే EC2 ను EMR మేనేజ్‌మెంట్ కన్సోల్‌లోని హార్డ్‌వేర్ టాబ్ నుండి కూడా గమనించవచ్చు. హార్డ్వేర్ టాబ్లో స్పాట్ EC2 ఉదంతాల ధర గంటకు 0.032 as గా పేర్కొనబడింది. స్పాట్ ఉదంతాల ధర సమయం మారుతూ ఉంటుంది మరియు ఆన్-డిమాండ్ EC2 ధర కంటే చాలా తక్కువగా ఉంటుంది.

దశ 7: ఇప్పుడు EMR క్లస్టర్ విజయవంతంగా జోడించబడింది, స్టెప్స్ లేదా బిగ్ డేటా ప్రాసెసింగ్ ఉద్యోగాలు జోడించబడతాయి. స్టెప్స్ ట్యాబ్‌కు వెళ్లి “స్టెప్ జోడించు” పై క్లిక్ చేసి స్టెప్ రకాన్ని ఎంచుకోండి (MR, అందులో నివశించే తేనెటీగలు, స్పార్క్ మొదలైనవి). రాబోయే ట్యుటోరియల్‌లో మేము అదే అన్వేషిస్తాము. ప్రస్తుతానికి, రద్దు చేయిపై క్లిక్ చేయండి.

దశ 8: ఇప్పుడు మేము EMR ను ఎలా ప్రారంభించాలో చూశాము, దానిని ఎలా ఆపాలో చూద్దాం.

దశ 8.1: టెర్మినేట్ పై క్లిక్ చేయండి.

దశ 8.2: మునుపటి దశల్లో చెప్పినట్లుగా, EMR క్లస్టర్ కోసం “ముగింపు రక్షణ” ఆన్‌లో ఉంది మరియు టెర్మినేట్ బటన్ నిలిపివేయబడింది. చేంజ్ పై క్లిక్ చేయండి.

దశ 8.3: “ఆఫ్” రేడియో బటన్‌ను ఎంచుకుని, టిక్ గుర్తుపై క్లిక్ చేయండి. ఇప్పుడు టెర్మినేట్ బటన్ ప్రారంభించబడాలి. మేము EMR క్లస్టర్‌ను అనుకోకుండా తొలగించలేమని నిర్ధారించుకోవడానికి EMR ప్రవేశపెట్టిన అదనపు దశ ఇది.

EMR క్లస్టర్ టెర్మినేటింగ్ స్థితిలో ఉంటుందని మరియు EC2 లు ఆపివేయబడతాయని గమనించండి. చివరగా, EMR క్లస్టర్ టెర్మినేటెడ్ స్థితికి తరలించబడుతుంది, ఇక్కడ నుండి AWS తో మా బిల్లింగ్ ఆగుతుంది. అదనపు AWS ఖర్చులు రాకుండా, క్లస్టర్‌ను ముగించాలని నిర్ధారించుకోండి.

ముగింపు

ఈ ట్యుటోరియల్‌లో వెబ్ కన్సోల్ (బ్రౌజర్) నుండి కొద్ది నిమిషాల్లో EMR క్లస్టర్‌ను ఎలా ప్రారంభించాలో చూశాము, అదే ఉపయోగించి ఆటోమేట్ చేయవచ్చు , AWS SDK లేదా ఉపయోగించడం ద్వారా AWS క్లౌడ్ఫార్మేషన్ . గమనించినట్లుగా, EMR క్లస్టర్‌ను ఏర్పాటు చేయడం నిమిషాల సమయం మరియు బిగ్ డేటా ప్రాసెసింగ్‌ను వెంటనే ప్రారంభించవచ్చు, ప్రాసెసింగ్ పూర్తయిన తర్వాత అవుట్‌పుట్‌ను నిల్వ చేయవచ్చు ఎస్ 3 లేదా డైనమోడిబి మరియు అందువల్ల బిల్లింగ్‌ను ఆపడానికి క్లస్టర్ షట్డౌన్. ఈ ధర నమూనా మరియు వాడుకలో సౌలభ్యం కారణంగా, బిగ్ డేటా ప్రాసెసింగ్ చేస్తున్న వారితో EMR పెద్ద హిట్. భారీ సంఖ్యలో సర్వర్‌ను కొనుగోలు చేయవలసిన అవసరం లేదు, బిగ్ డేటా సాఫ్ట్‌వేర్ కోసం లైసెన్స్‌లు పొందండి మరియు వాటిని నిర్వహించండి. ’

కాబట్టి ఇది అబ్బాయిలు, ఇది అమెజాన్ EMR తో హడూప్ క్లస్టర్ను ఎలా సృష్టించాలి అనే దానిపై ఈ వ్యాసం చివరకి తీసుకువస్తుంది.ఒకవేళ మీరు ఈ సబ్జెక్టులో నైపుణ్యాన్ని పొందాలనుకుంటే, ఎడురేకా ఒక పాఠ్యాంశంతో ముందుకు వచ్చింది, ఇది ఖచ్చితంగా వర్తిస్తుంది, మీరు సొల్యూషన్ ఆర్కిటెక్ట్ పరీక్షను ఛేదించాల్సిన అవసరం ఉంది! మీరు కోర్సు వివరాలను చూడవచ్చు శిక్షణ.

ఈ బ్లాగుకు సంబంధించిన ఏవైనా ప్రశ్నలు ఉంటే, దయచేసి దిగువ వ్యాఖ్యల విభాగంలో ప్రశ్న వేయడానికి సంకోచించకండి మరియు మీకు తొందరగా ప్రత్యుత్తరం ఇవ్వడం మాకు చాలా సంతోషంగా ఉంటుంది.