ఈ బ్లాగులో, పైథాన్లో పాండాలను ఉపయోగించి డేటా విశ్లేషణ గురించి చర్చిస్తాము.నేడు, మొత్తం జనాదరణ మరియు ఉపయోగం పరంగా 2017 లో PHP మరియు 2018 లో C # ను అధిగమించిన పరిశ్రమలో వేడి నైపుణ్యం.పాండాల గురించి మాట్లాడే ముందు, నంపి శ్రేణుల భావనను అర్థం చేసుకోవాలి. ఎందుకు? ఎందుకంటే పాండాలు ఓపెన్ సోర్స్ సాఫ్ట్వేర్ లైబ్రరీ, ఇది పైన నిర్మించబడింది . ఈ పైథాన్ పాండాస్ ట్యుటోరియల్లో, నేను మిమ్మల్ని ఈ క్రింది అంశాల ద్వారా తీసుకువెళతాను, ఇది రాబోయే బ్లాగులకు ప్రాథమికంగా ఉపయోగపడుతుంది:
ప్రారంభిద్దాం. :-)
పైథాన్ పాండాలు అంటే ఏమిటి?
డేటా మానిప్యులేషన్, విశ్లేషణ మరియు శుభ్రపరచడం కోసం పాండాలను ఉపయోగిస్తారు. పైథాన్ పాండాలు వివిధ రకాల డేటాకు బాగా సరిపోతాయి, అవి:
- భిన్న-టైప్ చేసిన నిలువు వరుసలతో పట్టిక డేటా
- క్రమం మరియు క్రమం లేని సమయ శ్రేణి డేటా
- అడ్డు వరుస & కాలమ్ లేబుళ్ళతో ఏకపక్ష మాతృక డేటా
- లేబుల్ చేయని డేటా
- పరిశీలనా లేదా గణాంక డేటా సెట్ల యొక్క ఏదైనా ఇతర రూపం
పాండాలను ఎలా వ్యవస్థాపించాలి?
పైథాన్ పాండాలను వ్యవస్థాపించడానికి, మీ కమాండ్ లైన్ / టెర్మినల్కు వెళ్లి “పిప్ ఇన్స్టాల్ పాండాలు” అని టైప్ చేయండి, లేకపోతే, మీ సిస్టమ్లో అనకొండ ఇన్స్టాల్ చేయబడి ఉంటే, “కాండా ఇన్స్టాల్ పాండాలు” అని టైప్ చేయండి. ఇన్స్టాలేషన్ పూర్తయిన తర్వాత, మీ IDE (జూపిటర్, పైచార్మ్ మొదలైనవి) కి వెళ్లి టైప్ చేసి దిగుమతి చేసుకోండి: “పాండాలను పిడిగా దిగుమతి చేయండి”
పైథాన్ పాండాస్ ట్యుటోరియల్లో ముందుకు వెళుతున్నప్పుడు, దాని యొక్క కొన్ని కార్యకలాపాలను పరిశీలిద్దాం:
పైథాన్ పాండాస్ ఆపరేషన్స్
పైథాన్ పాండాలను ఉపయోగించి, మీరు సిరీస్, డేటా ఫ్రేమ్లు, తప్పిపోయిన డేటా, గ్రూప్ వారీగా చాలా ఆపరేషన్లు చేయవచ్చు. డేటా మానిప్యులేషన్ కోసం కొన్ని సాధారణ ఆపరేషన్లు క్రింద ఇవ్వబడ్డాయి:
ఇప్పుడు, ఈ కార్యకలాపాలన్నింటినీ ఒక్కొక్కటిగా అర్థం చేసుకుందాం.
డేటా ఫ్రేమ్ను ముక్కలు చేస్తోంది
డేటాపై ముక్కలు చేయడానికి, మీకు డేటా ఫ్రేమ్ అవసరం. చింతించకండి, డేటా ఫ్రేమ్ 2 డైమెన్షనల్ డేటా స్ట్రక్చర్ మరియు సర్వసాధారణమైన పాండా వస్తువు. కాబట్టి మొదట, డేటా ఫ్రేమ్ను సృష్టించండి.
జావాలో క్యూ డేటా నిర్మాణం
పైచార్మ్లో దాని అమలు కోసం క్రింది కోడ్ను చూడండి:
pdas ను pd XYZ_web = Day 'Day' గా దిగుమతి చేయండి: [1,2,3,4,5,6], 'సందర్శకులు': [1000, 700,6000,1000,400,350], 'బౌన్స్_రేట్': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) ప్రింట్ (df)
అవుట్పుట్ :
బౌన్స్_రేట్ డే విజిటర్స్ 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350
పై కోడ్ డిక్షనరీని ఎడమవైపు ఇండెక్స్తో పాటు పాండాస్ డేటా ఫ్రేమ్గా మారుస్తుంది. ఇప్పుడు, ఈ డేటా ఫ్రేమ్ నుండి ఒక నిర్దిష్ట కాలమ్ను ముక్కలు చేద్దాం. క్రింద ఉన్న చిత్రాన్ని చూడండి:
ముద్రణ (df.head (2))
అవుట్పుట్:
బౌన్స్_రేట్ డే విజిటర్స్ 0 20 1 1000 1 20 2 700
అదేవిధంగా, మీరు డేటా యొక్క చివరి రెండు వరుసలను కోరుకుంటే, ఈ క్రింది ఆదేశాన్ని టైప్ చేయండి:
ముద్రణ (df.tail (2))
అవుట్పుట్:
బౌన్స్_రేట్ డే విజిటర్స్ 4 10 5 400 5 34 6 350
పైథాన్ పాండాస్ ట్యుటోరియల్లో తరువాత, విలీనం మరియు చేరడం చేద్దాం.
విలీనం & చేరడం
విలీనంలో, మీరు ఒకే డేటా ఫ్రేమ్ను రూపొందించడానికి రెండు డేటా ఫ్రేమ్లను విలీనం చేయవచ్చు. మీరు ఏ నిలువు వరుసలను సాధారణం చేయాలనుకుంటున్నారో కూడా మీరు నిర్ణయించుకోవచ్చు. ఆచరణాత్మకంగా అమలు చేయనివ్వండి, మొదట నేను మూడు డేటా ఫ్రేమ్లను సృష్టిస్తాను, ఇది కొన్ని కీ-విలువ జతలను కలిగి ఉంటుంది మరియు తరువాత డేటా ఫ్రేమ్లను కలిసి విలీనం చేస్తుంది. దిగువ కోడ్ను చూడండి:
HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3
అవుట్పుట్:
pdas ని pd df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67] index, సూచిక = [2005, 2006,2007,2008]) విలీనం = pd.merge (df1, df2) ముద్రణ (విలీనం)
మీరు పైన చూడగలిగినట్లుగా, రెండు డేటా ఫ్రేమ్లు ఒకే డేటా ఫ్రేమ్లో విలీనం అయ్యాయి. ఇప్పుడు, మీరు సాధారణం చేయదలిచిన కాలమ్ను కూడా పేర్కొనవచ్చు. ఉదాహరణకు, “HPI” కాలమ్ సాధారణం కావాలని నేను కోరుకుంటున్నాను మరియు మిగతా వాటికి ప్రత్యేక నిలువు వరుసలు కావాలి. కాబట్టి, నేను దానిని ఆచరణాత్మకంగా అమలు చేద్దాం:
df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, సూచిక = [2005, 2006,2007,2008]) విలీనం = pd.merge (df1, df2, on = 'HPI') ముద్రణ (విలీనం)
అవుట్పుట్:
IND_GDP Int_Rate Low_Tier_HPI నిరుద్యోగం 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0
తరువాత, అర్థం చేసుకుందాం చేరడం పైథాన్ పాండాస్ ట్యుటోరియల్లో. భిన్నంగా సూచించబడిన రెండు డేటాఫ్రేమ్లను ఒకే ఫలిత డేటాఫ్రేమ్గా కలపడం మరో అనుకూలమైన పద్ధతి. ఇది “విలీనం” ఆపరేషన్కు చాలా పోలి ఉంటుంది, చేరడం ఆపరేషన్ “నిలువు వరుసలకు” బదులుగా “సూచిక” లో ఉంటుంది. దీన్ని ఆచరణాత్మకంగా అమలు చేద్దాం.
df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'నిరుద్యోగం': [1,3,5,6]}, సూచిక = [2001, 2003,2004,2004]) చేరారు = df1. చేరండి (df2) ముద్రణ (చేరారు)
అవుట్పుట్:
IND_GDP Int_Rate Low_Tier_HPI నిరుద్యోగం 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0
పై అవుట్పుట్లో మీరు గమనించినట్లుగా, 2002 సంవత్సరంలో (ఇండెక్స్), “low_tier_HPI” మరియు “నిరుద్యోగం” నిలువు వరుసలకు విలువ లేదు, కాబట్టి ఇది NaN (ఒక సంఖ్య కాదు) ను ముద్రించింది. తరువాత 2004 లో, రెండు విలువలు అందుబాటులో ఉన్నాయి, కాబట్టి ఇది సంబంధిత విలువలను ముద్రించింది.
పైథాన్ పాండాస్ ట్యుటోరియల్ యొక్క ఈ రికార్డింగ్ ద్వారా మీరు వెళ్ళవచ్చు, ఇక్కడ మా బోధకుడు ఈ అంశాన్ని బాగా అర్థం చేసుకోవడానికి మీకు సహాయపడే ఉదాహరణలతో విషయాలను వివరంగా వివరించాడు.
డేటా విశ్లేషణ కోసం పైథాన్ | పైథాన్ పాండాస్ ట్యుటోరియల్ | పైథాన్ శిక్షణ | ఎడురేకా
పైథాన్ పాండాస్ ట్యుటోరియల్లో ముందుకు వెళుతున్నప్పుడు, రెండు డేటా డేటా ఫ్రేమ్లను ఎలా సంగ్రహించాలో అర్థం చేసుకుందాం.
సంయోగం
సంగ్రహణ ప్రాథమికంగా డేటాఫ్రేమ్లను కలిసి గ్లూ చేస్తుంది. మీరు ఏకీకృతం చేయదలిచిన కోణాన్ని ఎంచుకోవచ్చు. దాని కోసం, “pd.concat” ని ఉపయోగించుకోండి మరియు డేటాఫ్రేమ్ల జాబితాలో కలిసిపోవడానికి పాస్ చేయండి. దిగువ ఉదాహరణను పరిశీలించండి.
df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, సూచిక = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)
అవుట్పుట్:
HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3
మీరు పైన చూడగలిగినట్లుగా, రెండు డేటాఫ్రేమ్లు ఒకే డేటాఫ్రేమ్లో కలిసి ఉంటాయి, ఇక్కడ ఇండెక్స్ 2001 నుండి 2008 వరకు మొదలవుతుంది. తరువాత, నిలువు వరుసలలో చేరడానికి, విలీనం చేయడానికి లేదా క్యాన్కాటేట్ చేయడానికి మీరు అక్షం = 1 ను కూడా పేర్కొనవచ్చు. దిగువ కోడ్ను చూడండి:
df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, సూచిక = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], ax = 1) print (concat)
అవుట్పుట్:
HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN 80.0 50.0 200 2006 NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0
మీరు పైన చెప్పినట్లుగా, తప్పిపోయిన విలువల సమూహం ఉన్నాయి. డేటాఫ్రేమ్లకు మీరు కలిసి ఉండాలనుకునే అన్ని సూచికలకు విలువలు లేనందున ఇది జరుగుతుంది. అందువల్ల, మీరు అక్షంలో చేరినప్పుడు లేదా సంగ్రహించినప్పుడు అన్ని సమాచారం సరిగ్గా వరుసలో ఉందని మీరు నిర్ధారించుకోవాలి.
సూచిక మార్చండి
పైథాన్ పాండాస్ ట్యుటోరియల్లో తరువాత, డేటాఫ్రేమ్లో ఇండెక్స్ విలువలను ఎలా మార్చాలో మాకు అర్థం అవుతుంది. ఉదాహరణకు, డిక్షనరీలో కొన్ని కీ విలువ జతలతో డేటాఫ్రేమ్ను సృష్టించి, ఇండెక్స్ విలువలను మార్చండి. దిగువ ఉదాహరణను పరిశీలించండి:
ఇది వాస్తవంగా ఎలా జరుగుతుందో చూద్దాం:
pdas ను pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10] as గా దిగుమతి చేయండి df.set_index ('డే', ఇన్ప్లేస్ = ట్రూ) ప్రింట్ (df)
అవుట్పుట్:
బౌన్స్_రేట్ సందర్శకుల రోజు 1 20 200 2 45 100 3 60 230 4 10 300
పై అవుట్పుట్లో మీరు గమనించినట్లుగా, “డే” కాలమ్కు సంబంధించి ఇండెక్స్ విలువ మార్చబడింది.
కాలమ్ శీర్షికలను మార్చండి
ఈ పైథాన్ పాండాస్ ట్యుటోరియల్లోని కాలమ్ యొక్క శీర్షికలను ఇప్పుడు మారుద్దాం. అదే ఉదాహరణను తీసుకుందాం, ఇక్కడ నేను కాలమ్ హెడర్ను “విజిటర్స్” నుండి “యూజర్స్” గా మారుస్తాను. కాబట్టి, దాన్ని ఆచరణాత్మకంగా అమలు చేద్దాం.
pdas ను pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10] as గా దిగుమతి చేయండి df = df.rename (నిలువు వరుసలు = {'సందర్శకులు': 'వినియోగదారులు' print) ముద్రణ (df)
అవుట్పుట్:
బౌన్స్_రేట్ డే యూజర్లు 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300
మీరు పైన చూసినట్లుగా, కాలమ్ హెడర్ “విజిటర్స్” “యూజర్స్” గా మార్చబడింది. పైథాన్ పాండాస్ ట్యుటోరియల్లో తరువాత, డేటా ముంగింగ్ చేద్దాం.
డేటా ముంగింగ్
డేటా ముంగింగ్లో, మీరు ఒక నిర్దిష్ట డేటాను వేరే ఆకృతిలోకి మార్చవచ్చు. ఉదాహరణకు, మీకు .csv ఫైల్ ఉంటే, మీరు దానిని .html లేదా మరేదైనా డేటా ఫార్మాట్ గా మార్చవచ్చు. కాబట్టి, దీన్ని ఆచరణాత్మకంగా అమలు చేద్దాం.
పాండాలను పిడి దేశంగా దిగుమతి చేయండి =
మీరు ఈ కోడ్ను అమలు చేసిన తర్వాత, “edu.html” పేరుతో ఒక HTML ఫైల్ సృష్టించబడుతుంది. మీరు ఫైల్ యొక్క మార్గాన్ని నేరుగా కాపీ చేసి, మీ బ్రౌజర్లో అతికించవచ్చు, ఇది డేటాను HTML ఆకృతిలో ప్రదర్శిస్తుంది. దిగువ స్క్రీన్ షాట్ చూడండి:
పైథాన్ పాండాస్ ట్యుటోరియల్లో తరువాత, ప్రపంచ యువత నిరుద్యోగం గురించి మాట్లాడే వినియోగ కేసును చూద్దాం.
పైథాన్ పాండాస్ ట్యుటోరియల్: యువత నిరుద్యోగ డేటాను విశ్లేషించడానికి కేసును ఉపయోగించండి
సమస్యల నివేదిక :మీకు డేటాసెట్ ఇవ్వబడింది 2010 నుండి 2014 వరకు ప్రపంచవ్యాప్తంగా నిరుద్యోగ యువత శాతాన్ని కలిగి ఉంటుంది. మీరు ఈ డేటాసెట్ను ఉపయోగించాలి మరియు 2010-2011 నుండి ప్రతి దేశానికి యువత శాతం మార్పును కనుగొనాలి.
మొదట, దేశం పేరు, దేశ కోడ్ మరియు 2010 నుండి 2014 వరకు నిలువు వరుసలను కలిగి ఉన్న డేటాసెట్ను అర్థం చేసుకుందాం. ఇప్పుడు పాండాలను ఉపయోగించి, .csv ఫైల్ ఫార్మాట్ ఫైల్ను చదవడానికి “pd.read_csv” ని ఉపయోగిస్తాము.
క్రింద స్క్రీన్ షాట్ చూడండి:
2010 నుండి 2011 మధ్య నిరుద్యోగ యువతలో శాతం మార్పును తెలుసుకోబోతున్న డేటా విశ్లేషణను కొనసాగిద్దాం. అప్పుడు మేము అదే ఉపయోగించి దృశ్యమానం చేస్తాము లైబ్రరీ, ఇది పైథాన్లో విజువలైజేషన్ కోసం శక్తివంతమైన లైబ్రరీ. దీనిని పైథాన్ స్క్రిప్ట్స్, షెల్, వెబ్ అప్లికేషన్ సర్వర్లు మరియు ఇతర GUI టూల్కిట్లలో ఉపయోగించవచ్చు. మీరు ఇక్కడ మరింత చదవడానికి ఉపయోగించవచ్చు:
ఇప్పుడు, పైచార్మ్లో కోడ్ను అమలు చేద్దాం:
పాండాలను పిడి దిగుమతి మ్యాట్ప్లోట్లిబ్.పైప్లాట్ను మ్యాట్ప్లోట్లిబ్ దిగుమతి స్టైల్ స్టైల్ తల (5) df = df.set_index (['కంట్రీ కోడ్']) sd = sd.reindex (నిలువు వరుసలు = ['2010', '2011']) db = sd.diff (అక్షం = 1) db.plot (రకమైన = 'బార్') plt.show ()
మీరు పైన చూడగలిగినట్లుగా, నేను దేశ డేటాఫ్రేమ్ యొక్క మొదటి 5 వరుసలలో విశ్లేషణ చేసాను. తరువాత, నేను ఇండెక్స్ విలువను “కంట్రీ కోడ్” అని నిర్వచించాను, ఆపై కాలమ్ను 2010 మరియు 2011 కు తిరిగి ఇండెక్స్ చేసాను. అప్పుడు, మనకు మరో డేటాఫ్రేమ్ డిబి ఉంది, ఇది రెండు నిలువు వరుసల మధ్య వ్యత్యాసాన్ని లేదా నిరుద్యోగ యువత శాతం మార్పును ముద్రిస్తుంది. చివరగా, నేను పైథాన్లోని మాట్ప్లోట్లిబ్ లైబ్రరీని ఉపయోగించి బార్ప్లాట్ను ప్లాట్ చేసాను.
2010 నుండి 2011 మధ్య అఫ్ఘనిస్తాన్ (AFG) లో పై ప్లాట్లో మీరు గమనించినట్లయితే, నిరుద్యోగ యువత సుమారుగా పెరిగింది. 0.25%. అప్పుడు అంగోలా (AGO) లో, ప్రతికూల ధోరణి ఉంది, అంటే నిరుద్యోగ యువత శాతం తగ్గింది. అదేవిధంగా, మీరు వివిధ రకాల డేటాపై విశ్లేషణ చేయవచ్చు.
“పైథాన్ పాండాస్ ట్యుటోరియల్” లోని నా బ్లాగ్ మీకు సంబంధించినదని నేను ఆశిస్తున్నాను. పైథాన్తో పాటు దాని వివిధ అనువర్తనాలతో లోతైన జ్ఞానం పొందడానికి, మీరు ప్రత్యక్ష ప్రసారం కోసం నమోదు చేసుకోవచ్చు 24/7 మద్దతు మరియు జీవితకాల ప్రాప్యతతో ఎడురేకా చేత.
మాకు ప్రశ్న ఉందా? దయచేసి ఈ “పైథాన్ పాండాస్ ట్యుటోరియల్” బ్లాగ్ యొక్క వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము వీలైనంత త్వరగా మిమ్మల్ని సంప్రదిస్తాము.