ఈ పోస్ట్ అపాచీ పిగ్లోని ఆపరేటర్ల గురించి.అపాచీ పిగ్ జావాకు తెలియకుండానే సంక్లిష్ట డేటా పరివర్తనలను వ్రాయడానికి మిమ్మల్ని అనుమతిస్తుంది, ఇది నిజంగా ముఖ్యమైనది .ఆపరేటర్లకు వెళ్లేముందు పిగ్ మరియు పిగ్ లాటిన్ అంటే ఏమిటి మరియు వాటిని ఆపరేట్ చేయగల విభిన్న రీతులు గురించి శీఘ్రంగా చూద్దాం.
అపాచీ పిగ్ అంటే ఏమిటి?
హడాప్ మరియు మ్యాప్ రిడ్యూస్ ప్లాట్ఫామ్ ఉపయోగించి పెద్ద డేటా సెట్లను ప్రశ్నించడానికి అపాచీ పిగ్ ఒక ఉన్నత-స్థాయి విధాన భాష. ఇది జావా ప్యాకేజీ, ఇక్కడ JVM లో నడుస్తున్న ఏదైనా భాషా అమలు నుండి స్క్రిప్ట్లను అమలు చేయవచ్చు. పునరుత్పాదక ప్రక్రియలలో ఇది బాగా ఉపయోగించబడుతుంది.
శ్రేణి c ++ ను క్రమబద్ధీకరిస్తుంది
అపాచీ పిగ్ పంపిణీ చేసిన డేటాసెట్కు SQL లాంటి ప్రశ్నలను అనుమతించడం ద్వారా హడూప్ వాడకాన్ని సులభతరం చేస్తుంది మరియు పెద్ద మొత్తంలో డేటాను త్వరగా మరియు సమర్థవంతంగా ప్రాసెస్ చేయడానికి సంక్లిష్టమైన పనులను సృష్టించడం సాధ్యం చేస్తుంది. పిగ్ యొక్క ఉత్తమ లక్షణం ఏమిటంటే, ఇది జాయిన్, గ్రూప్ మరియు అగ్రిగేట్ వంటి అనేక రిలేషనల్ ఫీచర్లకు మద్దతు ఇస్తుంది.
పిగ్ ఒక ETL సాధనం లాగా అనిపిస్తుందని నాకు తెలుసు మరియు దీనికి ETL సాధనాలతో చాలా లక్షణాలు ఉన్నాయి. కానీ పిగ్ ఓవర్ ఇటిఎల్ టూల్స్ యొక్క ప్రయోజనం ఏమిటంటే ఇది ఒకేసారి చాలా సర్వర్లలో నడుస్తుంది.
అపాచీ పిగ్ లాటిన్ అంటే ఏమిటి?
అపాచీ పిగ్ అపాచీ పిగ్ లాటిన్ అని పిలువబడే హడూప్ అనువర్తనాల కోసం మరింత స్ట్రక్చర్డ్ క్వరీ లాంగ్వేజ్ (SQL) లాంటి ఇంటర్ఫేస్ను బహిర్గతం చేయడానికి మ్యాప్ తగ్గించడంపై సరళమైన విధానపరమైన భాషా సంగ్రహణను సృష్టించండి, కాబట్టి ప్రత్యేక మ్యాప్ తగ్గించు అనువర్తనాన్ని వ్రాయడానికి బదులుగా, మీరు అపాచీలో ఒకే స్క్రిప్ట్ను వ్రాయవచ్చు. పిగ్ లాటిన్ స్వయంచాలకంగా సమాంతరంగా మరియు క్లస్టర్లో పంపిణీ చేయబడుతుంది. సరళమైన మాటలలో, పిగ్ లాటిన్, ఇన్పుట్ తీసుకొని అవుట్పుట్ను ఉత్పత్తి చేసే సాధారణ స్టేట్మెంట్ల క్రమం. ఇన్పుట్ మరియు అవుట్పుట్ డేటా బ్యాగులు, పటాలు, టుపుల్స్ మరియు స్కేలార్లతో కూడి ఉంటుంది.
అపాచీ పిగ్ ఎగ్జిక్యూషన్ మోడ్లు:
అపాచీ పిగ్కు రెండు అమలు మోడ్లు ఉన్నాయి:
స్థానిక స్థితి
‘లోకల్ మోడ్’ లో, మీ కంప్యూటర్ సిస్టమ్లోని స్థానిక డైరెక్టరీ నుండి సోర్స్ డేటా తీసుకోబడుతుంది. మ్యాప్రెడ్యూస్ మోడ్ను ‘పిగ్ –ఎక్స్ లోకల్’ కమాండ్ ఉపయోగించి పేర్కొనవచ్చు.
మ్యాప్రెడ్యూస్ మోడ్:
మ్యాప్రెడ్యూస్ మోడ్లో పిగ్ను అమలు చేయడానికి, మీకు హడూప్ క్లస్టర్ మరియు హెచ్డిఎఫ్ఎస్ ఇన్స్టాలేషన్కు ప్రాప్యత అవసరం. మ్యాప్రెడ్యూస్ మోడ్ను ‘పిగ్’ ఆదేశాన్ని ఉపయోగించి పేర్కొనవచ్చు.
అపాచీ పిగ్ ఆపరేటర్లు:
అపాచీ పిగ్ ఆపరేటర్లు హడూప్ మరియు మ్యాప్ రిడ్యూస్ ప్లాట్ఫామ్ ఉపయోగించి పెద్ద డేటా సెట్లను ప్రశ్నించడానికి ఉన్నత స్థాయి విధాన భాష. పిగ్ లాటిన్ స్టేట్మెంట్ ఒక ఆపరేటర్, ఇది రిలేషన్ను ఇన్పుట్గా తీసుకుంటుంది మరియు మరొక రిలేషన్ను అవుట్పుట్గా ఉత్పత్తి చేస్తుంది. ఈ ఆపరేటర్లు డేటాపై పనిచేయడానికి పిగ్ లాటిన్ అందించే ప్రధాన సాధనాలు. క్రమబద్ధీకరించడం, సమూహపరచడం, చేరడం, ప్రొజెక్ట్ చేయడం మరియు వడపోత ద్వారా దాన్ని మార్చడానికి అవి మిమ్మల్ని అనుమతిస్తాయి.
ఆదేశాలను అమలు చేయడానికి రెండు ఫైళ్ళను సృష్టిద్దాం:
మాకు ‘మొదటి’ మరియు ‘రెండవ’ పేరుతో రెండు ఫైళ్లు ఉన్నాయి. మొదటి ఫైల్లో మూడు ఫీల్డ్లు ఉన్నాయి: యూజర్, url & id.
రెండవ ఫైల్లో రెండు ఫీల్డ్లు ఉన్నాయి: url & రేటింగ్. ఈ రెండు ఫైళ్ళు CSV ఫైల్స్.
అపాచీ పిగ్ ఆపరేటర్లను ఇలా వర్గీకరించవచ్చు: రిలేషనల్ మరియు డయాగ్నోస్టిక్.
రిలేషనల్ ఆపరేటర్లు:
డేటాలో పనిచేయడానికి పిగ్ లాటిన్ అందించే ప్రధాన సాధనాలు రిలేషనల్ ఆపరేటర్లు. ఇది క్రమబద్ధీకరించడం, సమూహపరచడం, చేరడం, ప్రొజెక్ట్ చేయడం మరియు వడపోత ద్వారా డేటాను మార్చడానికి మిమ్మల్ని అనుమతిస్తుంది. ఈ విభాగం ప్రాథమిక రిలేషనల్ ఆపరేటర్లను వర్తిస్తుంది.
లోడ్:
ఫైల్ సిస్టమ్ లేదా HDFS నిల్వ నుండి డేటాను పిగ్ రిలేషన్లోకి లోడ్ చేయడానికి LOAD ఆపరేటర్ ఉపయోగించబడుతుంది.
ఈ ఉదాహరణలో, లోడ్ ఆపరేటర్ ‘మొదటి’ ఫైల్ నుండి డేటాను లోడ్ చేసి రిలేషన్ ‘లోడింగ్ 1’ ను ఏర్పరుస్తుంది. ఫీల్డ్ పేర్లు యూజర్, url, id.
ప్రతి:
ఈ ఆపరేటర్ డేటా నిలువు వరుసల ఆధారంగా డేటా పరివర్తనలను ఉత్పత్తి చేస్తుంది. సంబంధం నుండి ఫీల్డ్లను జోడించడానికి లేదా తొలగించడానికి ఇది ఉపయోగించబడుతుంది. డేటా నిలువు వరుసలతో పనిచేయడానికి FOREACH-GENERATE ఆపరేషన్ ఉపయోగించండి.
విదేశీ ఫలితం:
ఫిల్టర్:
ఈ ఆపరేటర్ ఒక షరతు ఆధారంగా సంబంధం నుండి టుపుల్స్ ఎంచుకుంటాడు.
ఈ ఉదాహరణలో, ‘ఐడి’ పరిస్థితి 8 కన్నా ఎక్కువగా ఉన్నప్పుడు మేము రికార్డును ‘లోడింగ్ 1’ నుండి ఫిల్టర్ చేస్తున్నాము.
ఫిల్టర్ ఫలితం:
చేరండి:
సాధారణ క్షేత్ర విలువల ఆధారంగా రెండు లేదా అంతకంటే ఎక్కువ సంబంధాల యొక్క అంతర్గత, ఈక్విజాయిన్ చేరడానికి జాయిన్ ఆపరేటర్ ఉపయోగించబడుతుంది. JOIN ఆపరేటర్ ఎల్లప్పుడూ అంతర్గత చేరడానికి పని చేస్తుంది. ఇన్నర్ చేరడం శూన్య కీలను విస్మరిస్తుంది, కాబట్టి చేరడానికి ముందు వాటిని ఫిల్టర్ చేయడం అర్ధమే.
ఈ ఉదాహరణలో, ‘లోడింగ్ 1’ మరియు ‘లోడింగ్ 2’ నుండి ‘url’ కాలమ్ ఆధారంగా రెండు సంబంధాలలో చేరండి.
చేరండి ఫలితం:
దీని ద్వారా ఆర్డర్:
ఒకటి లేదా అంతకంటే ఎక్కువ ఫీల్డ్ల ఆధారంగా సంబంధాన్ని క్రమబద్ధీకరించడానికి ఆర్డర్ బై ఉపయోగించబడుతుంది. మీరు ASC మరియు DESC కీలకపదాలను ఉపయోగించి ఆరోహణ లేదా అవరోహణ క్రమంలో క్రమబద్ధీకరించవచ్చు.
దిగువ ఉదాహరణలో, రేటింగ్స్ ఫీల్డ్లో ఆరోహణ క్రమంలో లోడింగ్ 2 లో డేటాను క్రమబద్ధీకరిస్తున్నాము.
ఫలితం ద్వారా ఆర్డర్ చేయండి :
విభిన్న:
విభిన్న సంబంధం ఒక నకిలీ టుపుల్స్ను తొలగిస్తుంది. ఈ క్రింది విధంగా ఇన్పుట్ ఫైల్ను తీసుకుందాం amr, చెత్త, 8 మరియు amr, myblog, 10 ఫైల్లో రెండుసార్లు. ఈ ఫైల్లోని డేటాపై మేము విభిన్నంగా దరఖాస్తు చేసినప్పుడు, నకిలీ ఎంట్రీలు తొలగించబడతాయి.
DISTINCT ఫలితం:
స్టోర్:
ఫలితాలను ఫైల్ సిస్టమ్కు సేవ్ చేయడానికి స్టోర్ ఉపయోగించబడుతుంది.
ఇక్కడ మేము సేవ్ చేస్తున్నాము లోడింగ్ 3 అనే ఫైల్లో డేటా నిల్వ HDFS లో.
స్టోర్ ఫలితం:
గ్రూప్:
GROUP ఆపరేటర్ ఒకే సమూహ కీ (కీ ఫీల్డ్) తో టుపుల్స్ను సమూహపరుస్తుంది. సమూహ కీ ఒకటి కంటే ఎక్కువ ఫీల్డ్లను కలిగి ఉంటే కీ ఫీల్డ్ ఒక టుపుల్ అవుతుంది, లేకుంటే అది గ్రూప్ కీ మాదిరిగానే ఉంటుంది. GROUP ఆపరేషన్ ఫలితం ఒక సమూహానికి ఒక టుపుల్ కలిగి ఉన్న సంబంధం.
ఈ ఉదాహరణలో, సమూహం వ
కాలమ్ url ద్వారా ఇ రిలేషన్ ‘లోడింగ్ 1’.
గ్రూప్ ఫలితం:
కోగ్రూప్:
COGROUP GROUP ఆపరేటర్ వలె ఉంటుంది. చదవడానికి, ప్రోగ్రామర్లు సాధారణంగా ఒక సంబంధం మాత్రమే ఉన్నప్పుడు GROUP ను మరియు బహుళ సంబంధాలు చేరినప్పుడు COGROUP ను ఉపయోగిస్తారు.
ఈ ఉదాహరణ సమూహంలో రెండు సంబంధాలలో url ఫీల్డ్ ద్వారా ‘లోడింగ్ 1’ మరియు ‘లోడింగ్ 2’.
COGROUP ఫలితం:
క్రాస్:
రెండు లేదా అంతకంటే ఎక్కువ సంబంధాల యొక్క క్రాస్ ప్రొడక్ట్ (కార్టేసియన్ ఉత్పత్తి) ను లెక్కించడానికి క్రాస్ ఆపరేటర్ ఉపయోగించబడుతుంది.
లోడింగ్ 1 మరియు లోడింగ్ 2 పై క్రాస్ ప్రొడక్ట్ వర్తింపజేయడం.
క్రాస్ ఫలితం:
పరిమితి:
అవుట్పుట్ టుపుల్స్ సంఖ్యను పరిమితం చేయడానికి LIMIT ఆపరేటర్ ఉపయోగించబడుతుంది. పేర్కొన్న అవుట్పుట్ టుపుల్స్ సంఖ్య రిలేషన్లోని టుపుల్స్ సంఖ్యకు సమానం లేదా మించి ఉంటే, అవుట్పుట్ రిలేషన్లోని అన్ని టుపుల్స్ను కలిగి ఉంటుంది.
పరిమితి ఫలితం:
స్ప్లిట్:
కొంత వ్యక్తీకరణ ఆధారంగా రెండు లేదా అంతకంటే ఎక్కువ సంబంధాలుగా సంబంధం యొక్క విషయాలను విభజించడానికి SPLIT ఆపరేటర్ ఉపయోగించబడుతుంది. వ్యక్తీకరణలో పేర్కొన్న పరిస్థితులపై ఆధారపడి ఉంటుంది.
లోడింగ్ 2 ను x మరియు y అనే రెండు సంబంధాలుగా విభజించండి. లోడింగ్ 2 ద్వారా సృష్టించబడిన x రిలేషన్ రేటింగ్ 8 కంటే ఎక్కువ మరియు y రిలేషన్ రేటింగ్ 8 కంటే తక్కువ లేదా సమానమైన ఫీల్డ్లను కలిగి ఉంటుంది.
దశలవారీగా ssis నేర్చుకోవడం
మాకు ప్రశ్న ఉందా? దయచేసి వాటిని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.
సంబంధిత పోస్ట్లు:
అపాచీ పిగ్లోని ఆపరేటర్లు - డయాగ్నొస్టిక్ ఆపరేటర్లు
అపాచీ పిగ్లో యుడిఎఫ్ను సృష్టించే దశలు