బిగ్ డేటా ఆలోచన కొత్తది కాదు, ఇది ప్రతిచోటా ఉంది. బిగ్ డేటా ప్రభావం ప్రతిచోటా, వ్యాపారం నుండి సైన్స్ వరకు, ప్రభుత్వం నుండి కళల వరకు మరియు మొదలైనవి. ఇంతకంటే మంచి తోడు మరొకరు లేరు బిగ్ డేటాను ప్రాసెస్ చేయడానికి మరియు విశ్లేషించడానికి. ఈ వ్యాసంలో, బిగ్ డేటా యొక్క సవాళ్లను AWS ఎలా పరిష్కరిస్తుందో నేను చూపించబోతున్నాను మరియు నేను కవర్ చేయబోయే పాయింటర్లు ఈ క్రింది విధంగా ఉన్నాయి:
బిగ్ డేటా అంటే ఏమిటి?
మీరు పెద్ద డేటాను అధిక-వాల్యూమ్, అధిక-వేగం మరియు / లేదా అధిక-రకాల సమాచార ఆస్తులుగా పరిగణించవచ్చు, ఇవి ఖర్చుతో కూడుకున్న, వినూత్నమైన సమాచార ప్రాసెసింగ్ను కోరుతాయి, ఇవి మెరుగైన అంతర్దృష్టి, నిర్ణయం తీసుకోవడం మరియు ప్రాసెస్ ఆటోమేషన్ను ప్రారంభిస్తాయి.
బిగ్ డేటా 5 ముఖ్యమైన V లను కలిగి ఉంటుంది, ఇది బిగ్ డేటా యొక్క లక్షణాలను నిర్వచిస్తుంది. AWS కి వెళ్ళే ముందు వీటిని చర్చిద్దాం.
AWS అంటే ఏమిటి?
అనేక విభిన్న క్లౌడ్ కంప్యూటింగ్ ఉత్పత్తులు మరియు సేవలను కలిగి ఉంటుంది. అత్యంత లాభదాయకమైన అమెజాన్ విభాగం భద్రతతో పాటు సర్వర్లు, నిల్వ, నెట్వర్కింగ్, రిమోట్ కంప్యూటింగ్, ఇమెయిల్, మొబైల్ అభివృద్ధిని అందిస్తుంది. ఇంకా. AWS రెండు ప్రధాన ఉత్పత్తులను కలిగి ఉంది: EC2, అమెజాన్ యొక్క వర్చువల్ మెషిన్ సర్వీస్ మరియు అమెజాన్ నిల్వ చేసే S3. ఇది కంప్యూటింగ్ ప్రపంచంలో చాలా పెద్దది మరియు ప్రస్తుతం ఉంది, ఇది ఇప్పుడు దాని సమీప పోటీదారు కంటే కనీసం 10 రెట్లు ఎక్కువ మరియు నెట్ఫ్లిక్స్ మరియు ఇన్స్టాగ్రామ్ వంటి ప్రసిద్ధ వెబ్సైట్లను హోస్ట్ చేస్తుంది.
.
AWS ప్రపంచవ్యాప్తంగా 12 గ్లోబల్ ప్రాంతాలుగా విభజించబడింది, వీటిలో ప్రతి దాని సర్వర్లు ఉన్న బహుళ లభ్యత మండలాలు ఉన్నాయి.వినియోగదారులు తమ సేవలపై భౌగోళిక పరిమితులను నిర్ణయించడానికి అనుమతించటానికి ఈ సర్వీస్డ్ ప్రాంతాలు విభజించబడ్డాయి, కానీ డేటా ఉన్న భౌతిక స్థానాలను వైవిధ్యపరచడం ద్వారా భద్రతను కూడా అందిస్తుంది.
AWS లో పెద్ద డేటా ఎందుకు?
అనేక విభిన్న డొమైన్ల నుండి శాస్త్రవేత్తలు, డెవలపర్లు మరియు ఇతర సాంకేతిక ts త్సాహికులు పెద్ద డేటా విశ్లేషణలను నిర్వహించడానికి మరియు డిజిటల్ సమాచారం యొక్క పెరుగుతున్న Vs యొక్క క్లిష్టమైన సవాళ్లను ఎదుర్కోవటానికి AWS ను సద్వినియోగం చేసుకుంటున్నారు. ఖర్చులను గణనీయంగా తగ్గించడం, డిమాండ్ను తీర్చడం మరియు ఆవిష్కరణ వేగాన్ని పెంచడం ద్వారా పెద్ద డేటాను నిర్వహించడానికి AWS మీకు క్లౌడ్ కంప్యూటింగ్ సేవల పోర్ట్ఫోలియోను అందిస్తుంది.
అమెజాన్ వెబ్ సేవలు a పూర్తిగా ఇంటిగ్రేటెడ్ పోర్ట్ఫోలియో క్లౌడ్ కంప్యూటింగ్ సేవల. ఇంకా, ఇది మీ పెద్ద డేటా అనువర్తనాలను రూపొందించడానికి, భద్రపరచడానికి మరియు అమలు చేయడానికి మీకు సహాయపడుతుంది. అలాగే, AWS తో, నిర్వహించడానికి మరియు స్కేల్ చేయడానికి మీకు సేకరణ మరియు మౌలిక సదుపాయాలు అవసరం లేదు. ఈ కారణంగా, మీరు కొత్త అంతర్దృష్టులను వెలికి తీయడంపై మీ వనరులను కేంద్రీకరించవచ్చు.క్రొత్త ఫీచర్లు నిరంతరం జోడించబడుతున్నందున, దీర్ఘకాలిక పెట్టుబడి కట్టుబాట్లు చేయాల్సిన అవసరం లేకుండా మీరు ఎల్లప్పుడూ సరికొత్త సాంకేతిక పరిజ్ఞానాన్ని పొందగలుగుతారు.
AWS బిగ్ డేటా సవాళ్లను ఎలా పరిష్కరించగలదు?
బిగ్ డేటా కోసం AWS పరిష్కారాలు
అన్ని అభివృద్ధి మరియు విస్తరణ ప్రయోజనాల కోసం AWS అనేక పరిష్కారాలను కలిగి ఉంది. అలాగే, డేటా సైన్స్ మరియు బిగ్ డేటా రంగంలో, బిగ్ డేటా నిర్వహణ యొక్క వివిధ అంశాలలో AWS ఇటీవలి పరిణామాలతో ముందుకు వచ్చింది. సాధనాలకు వెళ్లడానికి ముందు, AWS పరిష్కారాలను అందించగల బిగ్ డేటా యొక్క విభిన్న అంశాలను అర్థం చేసుకుందాం.
డేటా తీసుకోవడం
ముడి డేటాను సేకరించడం - లావాదేవీలు, లాగ్లు, మొబైల్ పరికరాలు మరియు మరిన్ని - పెద్ద డేటాతో వ్యవహరించేటప్పుడు అనేక సంస్థలు ఎదుర్కొనే మొదటి సవాలు. మంచి పెద్ద డేటా ప్లాట్ఫాం ఈ దశను సులభతరం చేస్తుంది, డెవలపర్లు అనేక రకాలైన డేటాను - స్ట్రక్చర్డ్ నుండి స్ట్రక్చర్డ్ వరకు - ఏ వేగంతోనైనా - రియల్ టైమ్ నుండి బ్యాచ్ వరకు తీసుకోవడానికి అనుమతిస్తుంది.డేటా నిల్వ
ఏదైనా పెద్ద డేటా ప్లాట్ఫామ్కు పనులను ప్రాసెస్ చేయడానికి ముందు లేదా తర్వాత కూడా డేటాను నిల్వ చేయడానికి సురక్షితమైన, స్కేలబుల్ మరియు మన్నికైన రిపోజిటరీ అవసరం. మీ నిర్దిష్ట అవసరాలను బట్టి, డేటా-ఇన్-ట్రాన్సిట్ కోసం మీకు తాత్కాలిక దుకాణాలు కూడా అవసరం కావచ్చు.డేటా ప్రాసెసింగ్
డేటా పరివర్తన దాని ముడి స్థితి నుండి వినియోగించదగిన ఆకృతిలో జరిగే దశ ఇది - సాధారణంగా క్రమబద్ధీకరించడం, సమగ్రపరచడం, చేరడం మరియు మరింత అధునాతన విధులు మరియు అల్గారిథమ్లను చేయడం ద్వారా. ఫలిత డేటా సెట్లు మరింత ప్రాసెసింగ్ కోసం నిల్వ చేయబడతాయి లేదా వ్యాపార మేధస్సు మరియు డేటా విజువలైజేషన్ సాధనాల ద్వారా వినియోగానికి అందుబాటులో ఉంటాయి.స్టాటిక్ మెంబర్ ఫంక్షన్ c ++
విజువలైజేషన్
పెద్ద డేటా అంటే మీ డేటా ఆస్తుల నుండి అధిక విలువ, చర్య తీసుకోగల అంతర్దృష్టులు. ఆదర్శవంతంగా, డేటాసెట్లను వేగంగా మరియు సులభంగా అన్వేషించడానికి అనుమతించే స్వీయ-సేవ వ్యాపార మేధస్సు మరియు చురుకైన డేటా విజువలైజేషన్ సాధనాల ద్వారా డేటా వాటాదారులకు అందుబాటులో ఉంటుంది.
పెద్ద డేటా కోసం AWS సాధనాలు
మునుపటి విభాగాలలో, AWS పరిష్కారాలను అందించగల బిగ్ డేటాలోని ఫీల్డ్లను మేము చూశాము. అదనంగా, బిగ్ డేటా యొక్క సామర్థ్యాలతో కస్టమర్లను ప్రారంభించడానికి AWS దాని ఆయుధశాలలో బహుళ సాధనాలు మరియు సేవలను కలిగి ఉంది.
బిగ్ డేటాను నిర్వహించడానికి వివిధ దశలను నిర్వహించడానికి AWS అందించిన వివిధ పరిష్కారాలను చూద్దాం
తీసుకోవడం
- కినిసిస్
అమెజాన్ కినిసిస్ ఫైర్హోస్ అనేది రియల్ టైమ్ స్ట్రీమింగ్ డేటాను నేరుగా అమెజాన్ ఎస్ 3 కి అందించడానికి పూర్తిగా నిర్వహించే సేవ. కినిసిస్ ఫైర్హోస్ స్వయంచాలకంగా స్ట్రీమింగ్ డేటా యొక్క వాల్యూమ్ మరియు నిర్గమాంశంతో సరిపోలడానికి స్కేల్ చేస్తుంది మరియు కొనసాగుతున్న పరిపాలన అవసరం లేదు. మీరు అమెజాన్ ఎస్ 3 లో నిల్వ చేయడానికి ముందు స్ట్రీమింగ్ డేటాను మార్చడానికి కినిసిస్ ఫైర్హోస్ను కాన్ఫిగర్ చేయవచ్చు.
స్నోబాల్
మీరు ఉపయోగించవచ్చు AWS స్నోబాల్ ఆన్-ప్రాంగణ నిల్వ ప్లాట్ఫారమ్లు మరియు హడూప్ క్లస్టర్ల నుండి బల్క్ డేటాను సురక్షితంగా మరియు సమర్ధవంతంగా ఎస్ 3 బకెట్లకు తరలించడానికి. మీరు AWS మేనేజ్మెంట్ కన్సోల్లో ఉద్యోగాన్ని సృష్టించిన తర్వాత, మీరు స్వయంచాలకంగా స్నోబాల్ ఉపకరణాన్ని పొందుతారు. స్నోబాల్ వచ్చిన తర్వాత, దాన్ని మీ స్థానిక నెట్వర్క్కు కనెక్ట్ చేయండి, మీ ఆన్-ప్రాంగణ డేటా సోర్స్లో స్నోబాల్ క్లయింట్ను ఇన్స్టాల్ చేయండి, ఆపై స్నోబాల్ క్లయింట్ను ఉపయోగించి ఫైల్ డైరెక్టరీలను స్నోబాల్ పరికరానికి ఎన్నుకోండి మరియు బదిలీ చేయండి.
నిల్వ
- అమెజాన్ ఎస్ 3
అమెజాన్ ఎస్ 3 డేటా యాక్సెస్ కోసం మిల్లీసెకండ్ జాప్యం కలిగిన సురక్షితమైన, అధిక స్కేలబుల్, మన్నికైన వస్తువు నిల్వ. వెబ్సైట్లు మరియు మొబైల్ అనువర్తనాలు, కార్పొరేట్ అనువర్తనాలు మరియు IoT సెన్సార్లు లేదా పరికరాల నుండి డేటాను S3 ఎక్కడి నుండైనా నిల్వ చేయవచ్చు. ఇది సరిపోలని లభ్యతతో ఎంత మొత్తంలోనైనా డేటాను నిల్వ చేయవచ్చు మరియు తిరిగి పొందవచ్చు మరియు 99.999999999% (11 నైన్స్) మన్నికను అందించడానికి భూమి నుండి నిర్మించబడింది.
2. AWS జిగురు
గ్లూ అనేది పూర్తిగా నిర్వహించబడే సేవ, ఇది డేటా సరస్సులోని డేటాను కనుగొనగలిగేలా చేయడానికి డేటా కేటలాగ్ను అందిస్తుంది. అదనంగా, విశ్లేషణ కోసం డేటాను సిద్ధం చేయడానికి ఇది సారం, రూపాంతరం మరియు లోడ్ (ETL) చేయగల సామర్థ్యాన్ని కలిగి ఉంది. అలాగే, ఇన్బిల్ట్ డేటా కేటలాగ్ అన్ని డేటా ఆస్తుల కోసం నిరంతర మెటాడేటా స్టోర్ లాంటిది, మొత్తం డేటాను శోధించదగినదిగా చేస్తుంది మరియు ఒకే వీక్షణలో ప్రశ్నార్థకం చేస్తుంది.
ప్రాసెసింగ్
EMR
స్పార్క్ మరియు హడూప్ ఉపయోగించి పెద్ద డేటా ప్రాసెసింగ్ కోసం, అమెజాన్ EMR నిర్వహించబడే సేవను అందిస్తుంది, ఇది చాలా ఎక్కువ డేటాను ప్రాసెస్ చేయడం సులభం, వేగంగా మరియు ఖర్చుతో కూడుకున్నది. ఇంకా, EMR తో సహా 19 వేర్వేరు ఓపెన్ సోర్స్ ప్రాజెక్టులకు మద్దతు ఇస్తుంది హడూప్ , స్పార్క్ , మరియు డేటా ఇంజనీరింగ్, డేటా సైన్స్ అభివృద్ధి మరియు సహకారం కోసం నిర్వహించే EMR నోట్బుక్లతో ఇది వస్తుంది.రెడ్షిఫ్ట్
డేటా గిడ్డంగి కోసం, అమెజాన్ రెడ్షిఫ్ట్ నిర్మాణాత్మక డేటా యొక్క పెటాబైట్లకు వ్యతిరేకంగా సంక్లిష్టమైన, విశ్లేషణాత్మక ప్రశ్నలను అమలు చేసే సామర్థ్యాన్ని అందిస్తుంది. అలాగే, ఇందులో ఉన్నాయి రెడ్షిఫ్ట్ స్పెక్ట్రమ్ ఇది అనవసరమైన డేటా కదలిక అవసరం లేకుండా S3 లోని ఎక్సబైట్స్ స్ట్రక్చర్డ్ లేదా స్ట్రక్చర్డ్ డేటాకు వ్యతిరేకంగా నేరుగా SQL ప్రశ్నలను నడుపుతుంది.
విజువలైజేషన్స్
అమెజాన్ క్విక్సైట్
డాష్బోర్డ్లు మరియు విజువలైజేషన్ల కోసం, అమెజాన్ క్విక్సైట్ మీకు వేగవంతమైన, క్లౌడ్-శక్తితో కూడిన వ్యాపార విశ్లేషణ సేవలను అందిస్తుంది. ఇది అద్భుతమైన విజువలైజేషన్లు మరియు రిచ్ డాష్బోర్డ్లను నిర్మించడం సులభం చేస్తుంది. అదనంగా, మీరు వాటిని ఏదైనా బ్రౌజర్ లేదా మొబైల్ పరికరం నుండి యాక్సెస్ చేయవచ్చు.
డెమో - ఆస్ట్రేలియాలో అంతరించిపోతున్న మొక్కల మరియు జంతువుల డేటాను విశ్లేషించడం.
ఈ డెమోలో, మేము ఆస్ట్రేలియాలోని రాష్ట్రాలు మరియు భూభాగాల నుండి అంతరించిపోతున్న మొక్కల మరియు జంతు జాతుల నమూనా డేటాను ఉపయోగిస్తాము. ఇక్కడ మేము ఒక EMR క్లస్టర్ను సృష్టించి, బహుళ-దశల అపాచీ హైవ్ ఉద్యోగాలను అమలు చేయడానికి కాన్ఫిగర్ చేస్తాము. EMR క్లస్టర్లో అపాచీ హైవ్ ఇన్స్టాల్ చేయబడుతుంది. ఈ క్లస్టర్ EMRFS ని ఫైల్ సిస్టమ్గా ఉపయోగిస్తుంది, తద్వారా దాని డేటా ఇన్పుట్ మరియు అవుట్పుట్ స్థానాలు S3 బకెట్కు మ్యాప్ చేయబడతాయి. లాగ్ ఫైళ్ళను నిల్వ చేయడానికి క్లస్టర్ అదే S3 బకెట్ను కూడా ఉపయోగిస్తుంది.
డేటా సమితిని ప్రాసెస్ చేయడానికి మేము ఇప్పుడు క్లస్టర్లో అనేక EMR దశలను సృష్టిస్తాము. ఇక్కడ ఈ దశల్లో ప్రతి ఒక్కటి హైవ్ స్క్రిప్ట్ను అమలు చేస్తుంది మరియు తుది అవుట్పుట్ S3 బకెట్కు సేవ్ చేయబడుతుంది. ఈ దశలు మ్యాప్రెడ్యూస్ లాగ్లను ఉత్పత్తి చేస్తాయి మరియు అందులో హైవ్ ఆదేశాలు రన్ టైమ్లో మ్యాప్రెడ్యూస్ ఉద్యోగాలకు అనువదించబడతాయి. ప్రతి దశకు లాగ్ ఫైళ్లు అది పుట్టించే కంటైనర్ల నుండి సమగ్రపరచబడతాయి.
నమూనా డేటా
ఈ వినియోగ కేసు కోసం సెట్ చేయబడిన నమూనా డేటా బహిరంగంగా అందుబాటులో ఉంది ఆస్ట్రేలియా ప్రభుత్వం యొక్క ఓపెన్ డేటా వెబ్సైట్ . ఈ డేటా సెట్ ఆస్ట్రేలియాలోని వివిధ రాష్ట్రాలు మరియు భూభాగాల నుండి బెదిరింపు జంతువులు మరియు మొక్కల జాతుల గురించి. ఈ డేటా సెట్ మరియు CSV ఫైల్ యొక్క ఫీల్డ్ల వివరణ చూడవచ్చు మరియు డౌన్లోడ్ చేసుకోవచ్చు ఇక్కడ .
ప్రాసెసింగ్ దశలు
ఇక్కడ మొదటి EMR ఉద్యోగ దశ S3 లోని అంతర్లీన సోర్స్ ఫైల్ కోసం స్కీమాగా అందులో నివశించే తేనెటీగ పట్టికను సృష్టించడం. రెండవ ఉద్యోగ దశలో, మేము ఇప్పుడు డేటాకు వ్యతిరేకంగా విజయవంతమైన ప్రశ్నను అమలు చేస్తాము. అదేవిధంగా, మేము మూడవ మరియు నాల్గవ ప్రశ్నను అమలు చేస్తాము.
బహుళ దశల బ్యాచ్ ఉద్యోగం యొక్క వరుస పరుగులను అనుకరిస్తూ, మేము ఈ నాలుగు దశలను గంటలో కొన్ని సార్లు పునరావృతం చేస్తాము. ఏదేమైనా, నిజ జీవిత దృశ్యంలో, ప్రతి బ్యాచ్ రన్ మధ్య సమయం వ్యత్యాసం సాధారణంగా చాలా ఎక్కువగా ఉంటుంది. వరుస పరుగుల మధ్య చిన్న-సమయ అంతరం మా పరీక్షను వేగవంతం చేయడానికి ఉద్దేశించబడింది.
ఎస్ 3 బకెట్ మరియు ఫోల్డర్లు
మా EMR క్లస్టర్ను సృష్టించే ముందు, ఇక్కడ మేము దాని ఫైళ్ళను హోస్ట్ చేయడానికి S3 బకెట్ను సృష్టించాల్సి వచ్చింది. మా ఉదాహరణలో, మేము ఈ బకెట్కు “arvind1-bucket” అని పేరు పెట్టాము. ఈ బకెట్ కింద ఉన్న ఫోల్డర్లు S3 కొరకు AWS కన్సోల్లో క్రింద చూపించబడ్డాయి:
ఇన్పుట్ ఫోల్డర్ నమూనా డేటాను కలిగి ఉంది
స్క్రిప్ట్స్ ఫోల్డర్ EMR ఉద్యోగ దశల కోసం హైవ్ స్క్రిప్ట్ ఫైళ్ళను కలిగి ఉంటుంది
అవుట్పుట్ ఫోల్డర్ హైవ్ ప్రోగ్రామ్ అవుట్పుట్ను స్పష్టంగా కలిగి ఉంటుంది
EMR క్లస్టర్ దాని లాగ్ ఫైళ్ళను సేవ్ చేయడానికి లాగ్స్ ఫోల్డర్ను ఉపయోగిస్తుంది.
EMR ఉద్యోగ దశల కోసం అందులో నివశించే తేనెటీగలు
1. ఈ ఉద్యోగ దశ హైవ్ స్క్రిప్ట్ను నడుపుతుందిబాహ్య అందులో నివశించే తేనెటీగ పట్టికను సృష్టించడానికి. ఈ పట్టిక అంతర్లీన CSV డేటా ఫైల్ యొక్క పట్టిక స్కీమాను వివరిస్తుంది. దీనికి స్క్రిప్ట్ క్రింది విధంగా ఉంది:
బాహ్య పట్టికను సృష్టించండి `బెదిరింపు_విషయాలు` (` శాస్త్రీయ నామ` స్ట్రింగ్, `సాధారణ పేరు` స్ట్రింగ్,` ప్రస్తుత శాస్త్రీయ పేరు` స్ట్రింగ్, `బెదిరింపు స్థితి` స్ట్రింగ్,` యాక్ట్` స్ట్రింగ్, `nsw` స్ట్రింగ్,` nt` స్ట్రింగ్, `qld` స్ట్రింగ్, `సా` స్ట్రింగ్,` టాస్` స్ట్రింగ్, `విక్` స్ట్రింగ్,` వా` స్ట్రింగ్, `ఎసి` స్ట్రింగ్,` సికీ` స్ట్రింగ్, `సి` స్ట్రింగ్,` సిసి` స్ట్రింగ్, `జెబిటి` స్ట్రింగ్,` ఎన్ఫి` స్ట్రింగ్, `హ్మి` స్ట్రింగ్,` ఆట్` స్ట్రింగ్, `సిమా` స్ట్రింగ్,` లిస్టెడ్ స్ప్రాట్ టాక్సోనిడ్` బిగింట్, `ప్రస్తుత స్ప్రాట్ టాక్సోనిడ్` బిగింట్,` కింగ్డమ్` స్ట్రింగ్, `క్లాస్` స్ట్రింగ్,` ప్రొఫైల్` స్ట్రింగ్, `సేకరించిన తేదీ` స్ట్రింగ్, `ఎన్ఎస్ఎల్ నేమ్` స్ట్రింగ్,` ఫ్యామిలీ` స్ట్రింగ్, `జెనస్` స్ట్రింగ్,` జాతుల` స్ట్రింగ్, `ఇన్ఫ్రాస్పెసిఫిక్ ర్యాంక్` స్ట్రింగ్,` ఇన్ఫ్రాస్పెసిస్` స్ట్రింగ్, `జాతుల రచయిత` స్ట్రింగ్,` ఇన్ఫ్రాస్పెసిస్ రచయిత` స్ట్రింగ్) వరుస ఫార్మాట్ డీలిమిటెడ్ ఫీల్డ్స్ నిర్ధేశించినది ',' ఇన్పుట్ఫార్మాట్గా నిల్వ చేయబడింది 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION / s / //
2. ఈ ఉద్యోగ దశ న్యూ సౌత్ వేల్స్ (ఎన్ఎస్డబ్ల్యు) రాష్ట్రంలో అంతరించిపోతున్న మొదటి ఐదు జాతులను లెక్కించడానికి ఒక ప్రశ్నను నడుపుతుంది. అందులో నివశించే తేనెటీగ ప్రశ్న ఫైల్ పేరు అంతరించిపోతున్న ప్రత్యేకతలు NSW.q
మరియు ఇది క్రింద చూపబడింది:
జాతులను ఎన్నుకోండి, COUNT (nsw) AS number_of_endanured_species FROM బెదిరింపు_విషయాలు WHERE (nsw = 'అవును' లేదా nsw = 'అంతరించిపోతున్న') మరియు 'బెదిరింపు స్థితి' = 'అంతరించిపోతున్న' జాతుల ద్వారా COUNT (nsw)> 1 ORDere
3.ఈ ఉద్యోగ దశ ఆస్ట్రేలియాలోని ప్రతి మొక్క కుటుంబానికి అంతరించిపోతున్న మొక్కల జాతుల సంఖ్యను లెక్కించడానికి ఒక ప్రశ్నను నడుపుతుంది. అందులో నివశించే తేనెటీగ ప్రశ్న ఫైల్ పేరుఅంతరించిపోతున్న ప్లాంట్స్పెసిస్.క్యూ
మరియు క్రింద చూపబడింది
కుటుంబాన్ని ఎన్నుకోండి, COUNT (జాతులు) AS number_of_endanured_species FROM బెదిరింపు_విషయాలు 2 WHERE రాజ్యం = 'ప్లాంటే' మరియు 'బెదిరింపు స్థితి' = 'అంతరించిపోతున్న' కుటుంబం ద్వారా సమూహం
4. ఈ దశ ఆస్ట్రేలియా క్వీన్స్లాండ్ రాష్ట్రంలో అంతరించిపోయిన జంతు జాతుల శాస్త్రీయ పేర్లను జాబితా చేస్తుంది. స్క్రిప్ట్ ఫైల్ అంటారు extinctAnimalsQLD.q
మరియు క్రింద చూపబడింది:
'సాధారణ పేరు', 'శాస్త్రీయ నామం' FROM బెదిరింపు_జాతి WHERE రాజ్యం = 'జంతువు' మరియు (qld = 'అవును' లేదా qld = 'అంతరించిపోయిన') మరియు 'బెదిరింపు స్థితి' = 'అంతరించిపోయిన' ఎంచుకోండి
లాగ్ అగ్రిగేషన్
ఇక్కడ మేము S3 బకెట్ యొక్క స్క్రిప్ట్స్ ఫోల్డర్లో logAggregation.json అనే JSON ఫైల్ను కూడా అప్లోడ్ చేసాము. మేము ఈ ఫైల్ను YARN లాగ్ ఫైల్లను సమగ్రపరచడానికి ఉపయోగిస్తాము. క్లస్టర్ ప్రారంభమైనప్పుడు లాగ్ అగ్రిగేషన్ నూలు-సైట్.ఎక్స్ఎమ్ కాన్ఫిగరేషన్ ఫైల్లో కాన్ఫిగర్ చేయబడింది. LogAggregation.json ఫైల్ యొక్క విషయాలు ఈ క్రింది విధంగా ఉన్నాయి:
జావాలో స్ట్రింగ్ను తేదీ ఆకృతికి మార్చండి
[Class “వర్గీకరణ”: “నూలు-సైట్”, “గుణాలు”: y “నూలు.లాగ్-అగ్రిగేషన్-ఎనేబుల్”: “నిజం”, “నూలు.లాగ్-అగ్రిగేషన్.రైటెన్-సెకన్లు”: “-1”, “నూలు .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / log ”}}]
మీరు S3 బకెట్ను సృష్టించి, డేటా మరియు స్క్రిప్ట్ ఫైల్లను వాటి ఫోల్డర్లకు కాపీ చేసిన తర్వాత ఇప్పుడు EMR క్లస్టర్ను సెటప్ చేసే సమయం వచ్చింది. మేము ఎక్కువగా డిఫాల్ట్ సెట్టింగులతో క్లస్టర్ను సృష్టించినప్పుడు ఈ క్రింది స్నాప్షాట్లు ప్రక్రియను వివరిస్తాయి.
EMR క్లస్టర్ సెటప్
మొదటి చిత్రంలో, AWS కన్సోల్లో క్లస్టర్ని కాన్ఫిగర్ చేయడానికి, మేము హైవ్తో సహా EMR సిఫార్సు చేసిన అన్ని అనువర్తనాలను ఉంచాము. హైవ్ మెటాడేటాను నిల్వ చేయడానికి మేము AWS గ్లూ ఉపయోగించాల్సిన అవసరం లేదు, లేదా మేము ఈ సమయంలో ఎటువంటి ఉద్యోగ దశను జోడించడం లేదు. అయితే, మేము అందులో నివశించే తేనెటీగలు కోసం సాఫ్ట్వేర్ సెట్టింగ్ను జోడించాలి. ఈ ఫీల్డ్లోని లాగ్ అగ్రిగేషన్ JSON ఫైల్కు మేము ఎలా నిర్దేశిస్తున్నామో ఇక్కడ మీరు జాగ్రత్తగా గమనించాలి.
తదుపరి దశలో, మేము అన్ని డిఫాల్ట్ సెట్టింగులను ఉంచాము. మా పరీక్ష కొరకు, క్లస్టర్కు ఒక మాస్టర్ నోడ్ మరియు రెండు కోర్ నోడ్లు ఉంటాయి. ఇక్కడ ప్రతి నోడ్ m3.xlarge ఉదాహరణ మరియు 10 GB రూట్ వాల్యూమ్ కలిగి ఉంటుంది. మేము తరువాతి దశలో క్లస్టర్కు అరవింద్ 1-క్లస్టర్కు పేరు పెడుతున్నాము మరియు దాని లాగ్ ఫైల్ల కోసం అనుకూల s3 స్థానాన్ని పేర్కొంటున్నాము.
చివరగా, క్లస్టర్ యొక్క మాస్టర్ నోడ్ను ప్రాప్యత చేయడానికి మేము EC2 కీ జతను పేర్కొన్నాము. EMR, EC2 ఉదాహరణ ప్రొఫైల్ మరియు ఆటో-స్కేల్ ఎంపికల కోసం డిఫాల్ట్ IAM పాత్రలలో ఎటువంటి మార్పు లేదు. అలాగే, మాస్టర్ మరియు కోర్ నోడ్లు అప్రమేయంగా అందుబాటులో ఉన్న భద్రతా సమూహాలను ఉపయోగిస్తున్నాయి. సాధారణంగా, ఇది EMR క్లస్టర్ కోసం డిఫాల్ట్ సెటప్. ప్రతిదీ సిద్ధమైన తర్వాత, క్లస్టర్ క్రింద చూపిన విధంగా “వేచి” స్థితిలో ఉంది:
అందులో నివశించే తేనెటీగలు ఉద్యోగ దశలను సమర్పించండి
దీని తరువాత, మేము SSH యాక్సెస్ను అనుమతించాలి.
- వద్ద అమెజాన్ EMR కన్సోల్ను తెరవండి https://console.aws.amazon.com/elasticmapreduce/ .
- ఎంచుకోండి సమూహాలు .
- ఎంచుకోండి పేరు క్లస్టర్ యొక్క.
- కింద భద్రత మరియు ప్రాప్యత ఎంచుకోండి మాస్టర్ కోసం భద్రతా సమూహాలు లింక్.
- ఎంచుకోండి సాగే మ్యాప్రెడ్యూస్-మాస్టర్ జాబితా నుండి.
- ఎంచుకోండి ఇన్బౌండ్ , సవరించండి .
- కింది సెట్టింగులతో నియమాన్ని కనుగొని, ఎంచుకోండి x దీన్ని తొలగించడానికి చిహ్నం:
- టైప్ చేయండి SSH
- పోర్ట్ 22
- మూలం అనుకూల 0.0.0.0/0
- నియమాల జాబితా దిగువకు స్క్రోల్ చేసి ఎంచుకోండి నియమాన్ని జోడించండి .
- కోసం టైప్ చేయండి , ఎంచుకోండి SSH .ఇది స్వయంచాలకంగా ప్రవేశిస్తుంది టిసిపి కోసం ప్రోటోకాల్ మరియు 22 కోసం పోర్ట్ రేంజ్ .
- మూలం కోసం, ఎంచుకోండి నా IP .ఇది స్వయంచాలకంగా మీ క్లయింట్ కంప్యూటర్ యొక్క IP చిరునామాను మూల చిరునామాగా జోడిస్తుంది. ప్రత్యామ్నాయంగా, మీరు పరిధిని జోడించవచ్చు కస్టమ్ విశ్వసనీయ క్లయింట్ IP చిరునామాలు మరియు ఎంచుకోండి నియమాన్ని జోడించండి ఇతర క్లయింట్ల కోసం అదనపు నియమాలను సృష్టించడానికి. అనేక నెట్వర్క్ పరిసరాలలో, మీరు IP చిరునామాలను డైనమిక్గా కేటాయిస్తారు, కాబట్టి విశ్వసనీయ క్లయింట్ల యొక్క IP చిరునామాను నవీకరించడానికి మీరు క్రమానుగతంగా భద్రతా సమూహ నియమాలను సవరించాల్సి ఉంటుంది.
- ఎంచుకోండి సేవ్ చేయండి .
- ఐచ్ఛికంగా, ఎంచుకోండి సాగే మ్యాప్రెడ్యూస్-బానిస విశ్వసనీయ క్లయింట్ల నుండి కోర్ మరియు టాస్క్ నోడ్లకు SSH క్లయింట్ ప్రాప్యతను అనుమతించడానికి జాబితా నుండి మరియు పై దశలను పునరావృతం చేయండి.
EMR క్లస్టర్ నడుస్తున్నందున, మేము నాలుగు ఉద్యోగ దశలను జోడించాము. EMR ఒకదాని తరువాత ఒకటి నడుస్తుంది. కింది చిత్రం AWS EMR కన్సోల్ నుండి దశలను చూపుతుంది:
మేము నాలుగు దశలను జోడించిన తర్వాత, ఈ దశల స్థితిని పూర్తి చేసినట్లు తనిఖీ చేయవచ్చు. ఈ దశల అమలులో కొంత సమస్య ఉన్నప్పటికీ, అటువంటి సందర్భాలలో ఈ దశల లాగ్ ఫైళ్ళను ఉపయోగించి పరిష్కరించవచ్చు.
కాబట్టి AWS లోని బిగ్ డేటాపై ఈ వ్యాసంలో ఇది నా వైపు నుండి. నేను ఇక్కడ వివరించిన ప్రతిదాన్ని మీరు అర్థం చేసుకున్నారని నేను నమ్ముతున్నాను.
మీరు AWS లో ఈ పెద్ద డేటాను కనుగొంటే, మీరు ఎడురేకా యొక్క ప్రత్యక్ష మరియు బోధకుల నేతృత్వంలోని కోర్సును చూడవచ్చు , పరిశ్రమ అభ్యాసకులు సహ-సృష్టించారు.
మాకు ప్రశ్న ఉందా? దయచేసి ఈ వ్యాఖ్యల విభాగంలో AWS లో జావా వెబ్ అప్లికేషన్ను ఎలా డిప్లాయ్ చేయాలి మరియు మేము మీ వద్దకు తిరిగి వస్తాము.