అపాచీ పిగ్‌లో ఆపరేటర్లు: పార్ట్ 1- రిలేషనల్ ఆపరేటర్లు - ఎడురేకా

ఈ పోస్ట్ అపాచీ పిగ్‌లోని ఆపరేటర్ల గురించి.అపాచీ పిగ్ జావాకు తెలియకుండానే సంక్లిష్ట డేటా పరివర్తనలను వ్రాయడానికి మిమ్మల్ని అనుమతిస్తుంది, ఇది నిజంగా ముఖ్యమైనది .ఆపరేటర్లకు వెళ్లేముందు పిగ్ మరియు పిగ్ లాటిన్ అంటే ఏమిటి మరియు వాటిని ఆపరేట్ చేయగల విభిన్న రీతులు గురించి శీఘ్రంగా చూద్దాం.

అపాచీ పిగ్ అంటే ఏమిటి?

హడాప్ మరియు మ్యాప్ రిడ్యూస్ ప్లాట్‌ఫామ్ ఉపయోగించి పెద్ద డేటా సెట్‌లను ప్రశ్నించడానికి అపాచీ పిగ్ ఒక ఉన్నత-స్థాయి విధాన భాష. ఇది జావా ప్యాకేజీ, ఇక్కడ JVM లో నడుస్తున్న ఏదైనా భాషా అమలు నుండి స్క్రిప్ట్‌లను అమలు చేయవచ్చు. పునరుత్పాదక ప్రక్రియలలో ఇది బాగా ఉపయోగించబడుతుంది.

శ్రేణి c ++ ను క్రమబద్ధీకరిస్తుంది

అపాచీ పిగ్ పంపిణీ చేసిన డేటాసెట్‌కు SQL లాంటి ప్రశ్నలను అనుమతించడం ద్వారా హడూప్ వాడకాన్ని సులభతరం చేస్తుంది మరియు పెద్ద మొత్తంలో డేటాను త్వరగా మరియు సమర్థవంతంగా ప్రాసెస్ చేయడానికి సంక్లిష్టమైన పనులను సృష్టించడం సాధ్యం చేస్తుంది. పిగ్ యొక్క ఉత్తమ లక్షణం ఏమిటంటే, ఇది జాయిన్, గ్రూప్ మరియు అగ్రిగేట్ వంటి అనేక రిలేషనల్ ఫీచర్లకు మద్దతు ఇస్తుంది.

పిగ్ ఒక ETL సాధనం లాగా అనిపిస్తుందని నాకు తెలుసు మరియు దీనికి ETL సాధనాలతో చాలా లక్షణాలు ఉన్నాయి. కానీ పిగ్ ఓవర్ ఇటిఎల్ టూల్స్ యొక్క ప్రయోజనం ఏమిటంటే ఇది ఒకేసారి చాలా సర్వర్లలో నడుస్తుంది.

అపాచీ పిగ్ లాటిన్ అంటే ఏమిటి?

అపాచీ పిగ్ అపాచీ పిగ్ లాటిన్ అని పిలువబడే హడూప్ అనువర్తనాల కోసం మరింత స్ట్రక్చర్డ్ క్వరీ లాంగ్వేజ్ (SQL) లాంటి ఇంటర్‌ఫేస్‌ను బహిర్గతం చేయడానికి మ్యాప్ తగ్గించడంపై సరళమైన విధానపరమైన భాషా సంగ్రహణను సృష్టించండి, కాబట్టి ప్రత్యేక మ్యాప్ తగ్గించు అనువర్తనాన్ని వ్రాయడానికి బదులుగా, మీరు అపాచీలో ఒకే స్క్రిప్ట్‌ను వ్రాయవచ్చు. పిగ్ లాటిన్ స్వయంచాలకంగా సమాంతరంగా మరియు క్లస్టర్‌లో పంపిణీ చేయబడుతుంది. సరళమైన మాటలలో, పిగ్ లాటిన్, ఇన్పుట్ తీసుకొని అవుట్పుట్ను ఉత్పత్తి చేసే సాధారణ స్టేట్మెంట్ల క్రమం. ఇన్పుట్ మరియు అవుట్పుట్ డేటా బ్యాగులు, పటాలు, టుపుల్స్ మరియు స్కేలార్లతో కూడి ఉంటుంది.

అపాచీ పిగ్ ఎగ్జిక్యూషన్ మోడ్లు:

అపాచీ పిగ్‌కు రెండు అమలు మోడ్‌లు ఉన్నాయి:

స్థానిక స్థితి

‘లోకల్ మోడ్’ లో, మీ కంప్యూటర్ సిస్టమ్‌లోని స్థానిక డైరెక్టరీ నుండి సోర్స్ డేటా తీసుకోబడుతుంది. మ్యాప్‌రెడ్యూస్ మోడ్‌ను ‘పిగ్ –ఎక్స్ లోకల్’ కమాండ్ ఉపయోగించి పేర్కొనవచ్చు.

అపాచీ పిగ్‌లో ఆపరేటర్లు - 1

మ్యాప్‌రెడ్యూస్ మోడ్:

మ్యాప్‌రెడ్యూస్ మోడ్‌లో పిగ్‌ను అమలు చేయడానికి, మీకు హడూప్ క్లస్టర్ మరియు హెచ్‌డిఎఫ్‌ఎస్ ఇన్‌స్టాలేషన్‌కు ప్రాప్యత అవసరం. మ్యాప్‌రెడ్యూస్ మోడ్‌ను ‘పిగ్’ ఆదేశాన్ని ఉపయోగించి పేర్కొనవచ్చు.

అపాచీ పిగ్ ఆపరేటర్లు:

అపాచీ పిగ్ ఆపరేటర్లు హడూప్ మరియు మ్యాప్ రిడ్యూస్ ప్లాట్‌ఫామ్ ఉపయోగించి పెద్ద డేటా సెట్‌లను ప్రశ్నించడానికి ఉన్నత స్థాయి విధాన భాష. పిగ్ లాటిన్ స్టేట్మెంట్ ఒక ఆపరేటర్, ఇది రిలేషన్‌ను ఇన్‌పుట్‌గా తీసుకుంటుంది మరియు మరొక రిలేషన్‌ను అవుట్‌పుట్‌గా ఉత్పత్తి చేస్తుంది. ఈ ఆపరేటర్లు డేటాపై పనిచేయడానికి పిగ్ లాటిన్ అందించే ప్రధాన సాధనాలు. క్రమబద్ధీకరించడం, సమూహపరచడం, చేరడం, ప్రొజెక్ట్ చేయడం మరియు వడపోత ద్వారా దాన్ని మార్చడానికి అవి మిమ్మల్ని అనుమతిస్తాయి.

ఆదేశాలను అమలు చేయడానికి రెండు ఫైళ్ళను సృష్టిద్దాం:

మాకు ‘మొదటి’ మరియు ‘రెండవ’ పేరుతో రెండు ఫైళ్లు ఉన్నాయి. మొదటి ఫైల్‌లో మూడు ఫీల్డ్‌లు ఉన్నాయి: యూజర్, url & id.

రెండవ ఫైల్‌లో రెండు ఫీల్డ్‌లు ఉన్నాయి: url & రేటింగ్. ఈ రెండు ఫైళ్ళు CSV ఫైల్స్.

అపాచీ పిగ్ ఆపరేటర్లను ఇలా వర్గీకరించవచ్చు: రిలేషనల్ మరియు డయాగ్నోస్టిక్.

రిలేషనల్ ఆపరేటర్లు:

డేటాలో పనిచేయడానికి పిగ్ లాటిన్ అందించే ప్రధాన సాధనాలు రిలేషనల్ ఆపరేటర్లు. ఇది క్రమబద్ధీకరించడం, సమూహపరచడం, చేరడం, ప్రొజెక్ట్ చేయడం మరియు వడపోత ద్వారా డేటాను మార్చడానికి మిమ్మల్ని అనుమతిస్తుంది. ఈ విభాగం ప్రాథమిక రిలేషనల్ ఆపరేటర్లను వర్తిస్తుంది.

లోడ్:

ఫైల్ సిస్టమ్ లేదా HDFS నిల్వ నుండి డేటాను పిగ్ రిలేషన్‌లోకి లోడ్ చేయడానికి LOAD ఆపరేటర్ ఉపయోగించబడుతుంది.

ఈ ఉదాహరణలో, లోడ్ ఆపరేటర్ ‘మొదటి’ ఫైల్ నుండి డేటాను లోడ్ చేసి రిలేషన్ ‘లోడింగ్ 1’ ను ఏర్పరుస్తుంది. ఫీల్డ్ పేర్లు యూజర్, url, id.

ప్రతి:

ఈ ఆపరేటర్ డేటా నిలువు వరుసల ఆధారంగా డేటా పరివర్తనలను ఉత్పత్తి చేస్తుంది. సంబంధం నుండి ఫీల్డ్‌లను జోడించడానికి లేదా తొలగించడానికి ఇది ఉపయోగించబడుతుంది. డేటా నిలువు వరుసలతో పనిచేయడానికి FOREACH-GENERATE ఆపరేషన్ ఉపయోగించండి.

విదేశీ ఫలితం:

ఫిల్టర్:

ఈ ఆపరేటర్ ఒక షరతు ఆధారంగా సంబంధం నుండి టుపుల్స్ ఎంచుకుంటాడు.

ఈ ఉదాహరణలో, ‘ఐడి’ పరిస్థితి 8 కన్నా ఎక్కువగా ఉన్నప్పుడు మేము రికార్డును ‘లోడింగ్ 1’ నుండి ఫిల్టర్ చేస్తున్నాము.

ఫిల్టర్ ఫలితం:

చేరండి:

సాధారణ క్షేత్ర విలువల ఆధారంగా రెండు లేదా అంతకంటే ఎక్కువ సంబంధాల యొక్క అంతర్గత, ఈక్విజాయిన్ చేరడానికి జాయిన్ ఆపరేటర్ ఉపయోగించబడుతుంది. JOIN ఆపరేటర్ ఎల్లప్పుడూ అంతర్గత చేరడానికి పని చేస్తుంది. ఇన్నర్ చేరడం శూన్య కీలను విస్మరిస్తుంది, కాబట్టి చేరడానికి ముందు వాటిని ఫిల్టర్ చేయడం అర్ధమే.

ఈ ఉదాహరణలో, ‘లోడింగ్ 1’ మరియు ‘లోడింగ్ 2’ నుండి ‘url’ కాలమ్ ఆధారంగా రెండు సంబంధాలలో చేరండి.

చేరండి ఫలితం:

దీని ద్వారా ఆర్డర్:

ఒకటి లేదా అంతకంటే ఎక్కువ ఫీల్డ్‌ల ఆధారంగా సంబంధాన్ని క్రమబద్ధీకరించడానికి ఆర్డర్ బై ఉపయోగించబడుతుంది. మీరు ASC మరియు DESC కీలకపదాలను ఉపయోగించి ఆరోహణ లేదా అవరోహణ క్రమంలో క్రమబద్ధీకరించవచ్చు.

దిగువ ఉదాహరణలో, రేటింగ్స్ ఫీల్డ్‌లో ఆరోహణ క్రమంలో లోడింగ్ 2 లో డేటాను క్రమబద్ధీకరిస్తున్నాము.

ఫలితం ద్వారా ఆర్డర్ చేయండి :

విభిన్న:

విభిన్న సంబంధం ఒక నకిలీ టుపుల్స్‌ను తొలగిస్తుంది. ఈ క్రింది విధంగా ఇన్‌పుట్ ఫైల్‌ను తీసుకుందాం amr, చెత్త, 8 మరియు amr, myblog, 10 ఫైల్‌లో రెండుసార్లు. ఈ ఫైల్‌లోని డేటాపై మేము విభిన్నంగా దరఖాస్తు చేసినప్పుడు, నకిలీ ఎంట్రీలు తొలగించబడతాయి.

DISTINCT ఫలితం:

స్టోర్:

ఫలితాలను ఫైల్ సిస్టమ్‌కు సేవ్ చేయడానికి స్టోర్ ఉపయోగించబడుతుంది.

ఇక్కడ మేము సేవ్ చేస్తున్నాము లోడింగ్ 3 అనే ఫైల్‌లో డేటా నిల్వ HDFS లో.

స్టోర్ ఫలితం:

గ్రూప్:

GROUP ఆపరేటర్ ఒకే సమూహ కీ (కీ ఫీల్డ్) తో టుపుల్స్‌ను సమూహపరుస్తుంది. సమూహ కీ ఒకటి కంటే ఎక్కువ ఫీల్డ్లను కలిగి ఉంటే కీ ఫీల్డ్ ఒక టుపుల్ అవుతుంది, లేకుంటే అది గ్రూప్ కీ మాదిరిగానే ఉంటుంది. GROUP ఆపరేషన్ ఫలితం ఒక సమూహానికి ఒక టుపుల్ కలిగి ఉన్న సంబంధం.

ఈ ఉదాహరణలో, సమూహం వ

కాలమ్ url ద్వారా ఇ రిలేషన్ ‘లోడింగ్ 1’.

గ్రూప్ ఫలితం:

కోగ్రూప్:

COGROUP GROUP ఆపరేటర్ వలె ఉంటుంది. చదవడానికి, ప్రోగ్రామర్లు సాధారణంగా ఒక సంబంధం మాత్రమే ఉన్నప్పుడు GROUP ను మరియు బహుళ సంబంధాలు చేరినప్పుడు COGROUP ను ఉపయోగిస్తారు.

ఈ ఉదాహరణ సమూహంలో రెండు సంబంధాలలో url ఫీల్డ్ ద్వారా ‘లోడింగ్ 1’ మరియు ‘లోడింగ్ 2’.

COGROUP ఫలితం:

క్రాస్:

రెండు లేదా అంతకంటే ఎక్కువ సంబంధాల యొక్క క్రాస్ ప్రొడక్ట్ (కార్టేసియన్ ఉత్పత్తి) ను లెక్కించడానికి క్రాస్ ఆపరేటర్ ఉపయోగించబడుతుంది.

లోడింగ్ 1 మరియు లోడింగ్ 2 పై క్రాస్ ప్రొడక్ట్ వర్తింపజేయడం.

క్రాస్ ఫలితం:

పరిమితి:

అవుట్పుట్ టుపుల్స్ సంఖ్యను పరిమితం చేయడానికి LIMIT ఆపరేటర్ ఉపయోగించబడుతుంది. పేర్కొన్న అవుట్పుట్ టుపుల్స్ సంఖ్య రిలేషన్‌లోని టుపుల్స్ సంఖ్యకు సమానం లేదా మించి ఉంటే, అవుట్పుట్ రిలేషన్‌లోని అన్ని టుపుల్స్‌ను కలిగి ఉంటుంది.

పరిమితి ఫలితం:

స్ప్లిట్:

కొంత వ్యక్తీకరణ ఆధారంగా రెండు లేదా అంతకంటే ఎక్కువ సంబంధాలుగా సంబంధం యొక్క విషయాలను విభజించడానికి SPLIT ఆపరేటర్ ఉపయోగించబడుతుంది. వ్యక్తీకరణలో పేర్కొన్న పరిస్థితులపై ఆధారపడి ఉంటుంది.

లోడింగ్ 2 ను x మరియు y అనే రెండు సంబంధాలుగా విభజించండి. లోడింగ్ 2 ద్వారా సృష్టించబడిన x రిలేషన్ రేటింగ్ 8 కంటే ఎక్కువ మరియు y రిలేషన్ రేటింగ్ 8 కంటే తక్కువ లేదా సమానమైన ఫీల్డ్‌లను కలిగి ఉంటుంది.

దశలవారీగా ssis నేర్చుకోవడం

మాకు ప్రశ్న ఉందా? దయచేసి వాటిని వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.

సంబంధిత పోస్ట్లు:

అపాచీ పిగ్‌లోని ఆపరేటర్లు - డయాగ్నొస్టిక్ ఆపరేటర్లు

అపాచీ పిగ్‌లో యుడిఎఫ్‌ను సృష్టించే దశలు

అపాచీ పిగ్‌లోని ఆపరేటర్లు: పార్ట్ 1- రిలేషనల్ ఆపరేటర్లు