పైథాన్ పాండాస్ ట్యుటోరియల్: డేటా విశ్లేషణ కోసం పాండాలు నేర్చుకోండి



ఈ పైథాన్ పాండాస్ ట్యుటోరియల్‌లో, మీరు పాండాల యొక్క వివిధ కార్యకలాపాలను నేర్చుకుంటారు. ఇది యూజ్-కేస్‌ను కూడా కలిగి ఉంటుంది, ఇక్కడ మీరు పాండాలను ఉపయోగించి డేటాను విశ్లేషించవచ్చు.

ఈ బ్లాగులో, పైథాన్‌లో పాండాలను ఉపయోగించి డేటా విశ్లేషణ గురించి చర్చిస్తాము.నేడు, మొత్తం జనాదరణ మరియు ఉపయోగం పరంగా 2017 లో PHP మరియు 2018 లో C # ను అధిగమించిన పరిశ్రమలో వేడి నైపుణ్యం.పాండాల గురించి మాట్లాడే ముందు, నంపి శ్రేణుల భావనను అర్థం చేసుకోవాలి. ఎందుకు? ఎందుకంటే పాండాలు ఓపెన్ సోర్స్ సాఫ్ట్‌వేర్ లైబ్రరీ, ఇది పైన నిర్మించబడింది . ఈ పైథాన్ పాండాస్ ట్యుటోరియల్‌లో, నేను మిమ్మల్ని ఈ క్రింది అంశాల ద్వారా తీసుకువెళతాను, ఇది రాబోయే బ్లాగులకు ప్రాథమికంగా ఉపయోగపడుతుంది:

ప్రారంభిద్దాం. :-)





పైథాన్ పాండాలు అంటే ఏమిటి?

డేటా మానిప్యులేషన్, విశ్లేషణ మరియు శుభ్రపరచడం కోసం పాండాలను ఉపయోగిస్తారు. పైథాన్ పాండాలు వివిధ రకాల డేటాకు బాగా సరిపోతాయి, అవి:

  • భిన్న-టైప్ చేసిన నిలువు వరుసలతో పట్టిక డేటా
  • క్రమం మరియు క్రమం లేని సమయ శ్రేణి డేటా
  • అడ్డు వరుస & కాలమ్ లేబుళ్ళతో ఏకపక్ష మాతృక డేటా
  • లేబుల్ చేయని డేటా
  • పరిశీలనా లేదా గణాంక డేటా సెట్ల యొక్క ఏదైనా ఇతర రూపం

పాండాలను ఎలా వ్యవస్థాపించాలి?

పైథాన్ పాండాలను వ్యవస్థాపించడానికి, మీ కమాండ్ లైన్ / టెర్మినల్‌కు వెళ్లి “పిప్ ఇన్‌స్టాల్ పాండాలు” అని టైప్ చేయండి, లేకపోతే, మీ సిస్టమ్‌లో అనకొండ ఇన్‌స్టాల్ చేయబడి ఉంటే, “కాండా ఇన్‌స్టాల్ పాండాలు” అని టైప్ చేయండి. ఇన్‌స్టాలేషన్ పూర్తయిన తర్వాత, మీ IDE (జూపిటర్, పైచార్మ్ మొదలైనవి) కి వెళ్లి టైప్ చేసి దిగుమతి చేసుకోండి: “పాండాలను పిడిగా దిగుమతి చేయండి”



పైథాన్ పాండాస్ ట్యుటోరియల్‌లో ముందుకు వెళుతున్నప్పుడు, దాని యొక్క కొన్ని కార్యకలాపాలను పరిశీలిద్దాం:

పైథాన్ పాండాస్ ఆపరేషన్స్

పైథాన్ పాండాలను ఉపయోగించి, మీరు సిరీస్, డేటా ఫ్రేమ్‌లు, తప్పిపోయిన డేటా, గ్రూప్ వారీగా చాలా ఆపరేషన్లు చేయవచ్చు. డేటా మానిప్యులేషన్ కోసం కొన్ని సాధారణ ఆపరేషన్లు క్రింద ఇవ్వబడ్డాయి:



పాండస్ ఆపరేషన్స్ - పైథాన్ పాండాస్ ట్యుటోరియల్ - ఎడురేకా

ఇప్పుడు, ఈ కార్యకలాపాలన్నింటినీ ఒక్కొక్కటిగా అర్థం చేసుకుందాం.

డేటా ఫ్రేమ్‌ను ముక్కలు చేస్తోంది

డేటాపై ముక్కలు చేయడానికి, మీకు డేటా ఫ్రేమ్ అవసరం. చింతించకండి, డేటా ఫ్రేమ్ 2 డైమెన్షనల్ డేటా స్ట్రక్చర్ మరియు సర్వసాధారణమైన పాండా వస్తువు. కాబట్టి మొదట, డేటా ఫ్రేమ్‌ను సృష్టించండి.

జావాలో క్యూ డేటా నిర్మాణం

పైచార్మ్‌లో దాని అమలు కోసం క్రింది కోడ్‌ను చూడండి:

pdas ను pd XYZ_web = Day 'Day' గా దిగుమతి చేయండి: [1,2,3,4,5,6], 'సందర్శకులు': [1000, 700,6000,1000,400,350], 'బౌన్స్_రేట్': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) ప్రింట్ (df)

అవుట్పుట్ :

బౌన్స్_రేట్ డే విజిటర్స్ 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

పై కోడ్ డిక్షనరీని ఎడమవైపు ఇండెక్స్‌తో పాటు పాండాస్ డేటా ఫ్రేమ్‌గా మారుస్తుంది. ఇప్పుడు, ఈ డేటా ఫ్రేమ్ నుండి ఒక నిర్దిష్ట కాలమ్‌ను ముక్కలు చేద్దాం. క్రింద ఉన్న చిత్రాన్ని చూడండి:

ముద్రణ (df.head (2))

అవుట్పుట్:

బౌన్స్_రేట్ డే విజిటర్స్ 0 20 1 1000 1 20 2 700

అదేవిధంగా, మీరు డేటా యొక్క చివరి రెండు వరుసలను కోరుకుంటే, ఈ క్రింది ఆదేశాన్ని టైప్ చేయండి:

ముద్రణ (df.tail (2))

అవుట్పుట్:

బౌన్స్_రేట్ డే విజిటర్స్ 4 10 5 400 5 34 6 350

పైథాన్ పాండాస్ ట్యుటోరియల్‌లో తరువాత, విలీనం మరియు చేరడం చేద్దాం.

విలీనం & ​​చేరడం

విలీనంలో, మీరు ఒకే డేటా ఫ్రేమ్‌ను రూపొందించడానికి రెండు డేటా ఫ్రేమ్‌లను విలీనం చేయవచ్చు. మీరు ఏ నిలువు వరుసలను సాధారణం చేయాలనుకుంటున్నారో కూడా మీరు నిర్ణయించుకోవచ్చు. ఆచరణాత్మకంగా అమలు చేయనివ్వండి, మొదట నేను మూడు డేటా ఫ్రేమ్‌లను సృష్టిస్తాను, ఇది కొన్ని కీ-విలువ జతలను కలిగి ఉంటుంది మరియు తరువాత డేటా ఫ్రేమ్‌లను కలిసి విలీనం చేస్తుంది. దిగువ కోడ్‌ను చూడండి:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

అవుట్పుట్:

pdas ని pd df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67] index, సూచిక = [2005, 2006,2007,2008]) విలీనం = pd.merge (df1, df2) ముద్రణ (విలీనం)

మీరు పైన చూడగలిగినట్లుగా, రెండు డేటా ఫ్రేమ్‌లు ఒకే డేటా ఫ్రేమ్‌లో విలీనం అయ్యాయి. ఇప్పుడు, మీరు సాధారణం చేయదలిచిన కాలమ్‌ను కూడా పేర్కొనవచ్చు. ఉదాహరణకు, “HPI” కాలమ్ సాధారణం కావాలని నేను కోరుకుంటున్నాను మరియు మిగతా వాటికి ప్రత్యేక నిలువు వరుసలు కావాలి. కాబట్టి, నేను దానిని ఆచరణాత్మకంగా అమలు చేద్దాం:

df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, సూచిక = [2005, 2006,2007,2008]) విలీనం = pd.merge (df1, df2, on = 'HPI') ముద్రణ (విలీనం)

అవుట్పుట్:

IND_GDP Int_Rate Low_Tier_HPI నిరుద్యోగం 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

తరువాత, అర్థం చేసుకుందాం చేరడం పైథాన్ పాండాస్ ట్యుటోరియల్‌లో. భిన్నంగా సూచించబడిన రెండు డేటాఫ్రేమ్‌లను ఒకే ఫలిత డేటాఫ్రేమ్‌గా కలపడం మరో అనుకూలమైన పద్ధతి. ఇది “విలీనం” ఆపరేషన్‌కు చాలా పోలి ఉంటుంది, చేరడం ఆపరేషన్ “నిలువు వరుసలకు” బదులుగా “సూచిక” లో ఉంటుంది. దీన్ని ఆచరణాత్మకంగా అమలు చేద్దాం.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'నిరుద్యోగం': [1,3,5,6]}, సూచిక = [2001, 2003,2004,2004]) చేరారు = df1. చేరండి (df2) ముద్రణ (చేరారు)

అవుట్పుట్:

IND_GDP Int_Rate Low_Tier_HPI నిరుద్యోగం 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

పై అవుట్‌పుట్‌లో మీరు గమనించినట్లుగా, 2002 సంవత్సరంలో (ఇండెక్స్), “low_tier_HPI” మరియు “నిరుద్యోగం” నిలువు వరుసలకు విలువ లేదు, కాబట్టి ఇది NaN (ఒక సంఖ్య కాదు) ను ముద్రించింది. తరువాత 2004 లో, రెండు విలువలు అందుబాటులో ఉన్నాయి, కాబట్టి ఇది సంబంధిత విలువలను ముద్రించింది.

పైథాన్ పాండాస్ ట్యుటోరియల్ యొక్క ఈ రికార్డింగ్ ద్వారా మీరు వెళ్ళవచ్చు, ఇక్కడ మా బోధకుడు ఈ అంశాన్ని బాగా అర్థం చేసుకోవడానికి మీకు సహాయపడే ఉదాహరణలతో విషయాలను వివరంగా వివరించాడు.

డేటా విశ్లేషణ కోసం పైథాన్ | పైథాన్ పాండాస్ ట్యుటోరియల్ | పైథాన్ శిక్షణ | ఎడురేకా


పైథాన్ పాండాస్ ట్యుటోరియల్‌లో ముందుకు వెళుతున్నప్పుడు, రెండు డేటా డేటా ఫ్రేమ్‌లను ఎలా సంగ్రహించాలో అర్థం చేసుకుందాం.

సంయోగం

సంగ్రహణ ప్రాథమికంగా డేటాఫ్రేమ్‌లను కలిసి గ్లూ చేస్తుంది. మీరు ఏకీకృతం చేయదలిచిన కోణాన్ని ఎంచుకోవచ్చు. దాని కోసం, “pd.concat” ని ఉపయోగించుకోండి మరియు డేటాఫ్రేమ్‌ల జాబితాలో కలిసిపోవడానికి పాస్ చేయండి. దిగువ ఉదాహరణను పరిశీలించండి.

df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, సూచిక = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

అవుట్పుట్:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

మీరు పైన చూడగలిగినట్లుగా, రెండు డేటాఫ్రేమ్‌లు ఒకే డేటాఫ్రేమ్‌లో కలిసి ఉంటాయి, ఇక్కడ ఇండెక్స్ 2001 నుండి 2008 వరకు మొదలవుతుంది. తరువాత, నిలువు వరుసలలో చేరడానికి, విలీనం చేయడానికి లేదా క్యాన్కాటేట్ చేయడానికి మీరు అక్షం = 1 ను కూడా పేర్కొనవచ్చు. దిగువ కోడ్‌ను చూడండి:

df1 = pd.DataFrame (HP 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, సూచిక = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, సూచిక = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], ax = 1) print (concat)

అవుట్పుట్:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN 80.0 50.0 200 2006 NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

మీరు పైన చెప్పినట్లుగా, తప్పిపోయిన విలువల సమూహం ఉన్నాయి. డేటాఫ్రేమ్‌లకు మీరు కలిసి ఉండాలనుకునే అన్ని సూచికలకు విలువలు లేనందున ఇది జరుగుతుంది. అందువల్ల, మీరు అక్షంలో చేరినప్పుడు లేదా సంగ్రహించినప్పుడు అన్ని సమాచారం సరిగ్గా వరుసలో ఉందని మీరు నిర్ధారించుకోవాలి.

సూచిక మార్చండి

పైథాన్ పాండాస్ ట్యుటోరియల్‌లో తరువాత, డేటాఫ్రేమ్‌లో ఇండెక్స్ విలువలను ఎలా మార్చాలో మాకు అర్థం అవుతుంది. ఉదాహరణకు, డిక్షనరీలో కొన్ని కీ విలువ జతలతో డేటాఫ్రేమ్‌ను సృష్టించి, ఇండెక్స్ విలువలను మార్చండి. దిగువ ఉదాహరణను పరిశీలించండి:

ఇది వాస్తవంగా ఎలా జరుగుతుందో చూద్దాం:

pdas ను pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10] as గా దిగుమతి చేయండి df.set_index ('డే', ఇన్ప్లేస్ = ట్రూ) ప్రింట్ (df)

అవుట్పుట్:

బౌన్స్_రేట్ సందర్శకుల రోజు 1 20 200 2 45 100 3 60 230 4 10 300

పై అవుట్‌పుట్‌లో మీరు గమనించినట్లుగా, “డే” కాలమ్‌కు సంబంధించి ఇండెక్స్ విలువ మార్చబడింది.

కాలమ్ శీర్షికలను మార్చండి

ఈ పైథాన్ పాండాస్ ట్యుటోరియల్‌లోని కాలమ్ యొక్క శీర్షికలను ఇప్పుడు మారుద్దాం. అదే ఉదాహరణను తీసుకుందాం, ఇక్కడ నేను కాలమ్ హెడర్‌ను “విజిటర్స్” నుండి “యూజర్స్” గా మారుస్తాను. కాబట్టి, దాన్ని ఆచరణాత్మకంగా అమలు చేద్దాం.

pdas ను pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10] as గా దిగుమతి చేయండి df = df.rename (నిలువు వరుసలు = {'సందర్శకులు': 'వినియోగదారులు' print) ముద్రణ (df)

అవుట్పుట్:

బౌన్స్_రేట్ డే యూజర్లు 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

మీరు పైన చూసినట్లుగా, కాలమ్ హెడర్ “విజిటర్స్” “యూజర్స్” గా మార్చబడింది. పైథాన్ పాండాస్ ట్యుటోరియల్‌లో తరువాత, డేటా ముంగింగ్ చేద్దాం.

డేటా ముంగింగ్

డేటా ముంగింగ్‌లో, మీరు ఒక నిర్దిష్ట డేటాను వేరే ఆకృతిలోకి మార్చవచ్చు. ఉదాహరణకు, మీకు .csv ఫైల్ ఉంటే, మీరు దానిని .html లేదా మరేదైనా డేటా ఫార్మాట్ గా మార్చవచ్చు. కాబట్టి, దీన్ని ఆచరణాత్మకంగా అమలు చేద్దాం.

పాండాలను పిడి దేశంగా దిగుమతి చేయండి =

మీరు ఈ కోడ్‌ను అమలు చేసిన తర్వాత, “edu.html” పేరుతో ఒక HTML ఫైల్ సృష్టించబడుతుంది. మీరు ఫైల్ యొక్క మార్గాన్ని నేరుగా కాపీ చేసి, మీ బ్రౌజర్‌లో అతికించవచ్చు, ఇది డేటాను HTML ఆకృతిలో ప్రదర్శిస్తుంది. దిగువ స్క్రీన్ షాట్ చూడండి:


పైథాన్ పాండాస్ ట్యుటోరియల్‌లో తరువాత, ప్రపంచ యువత నిరుద్యోగం గురించి మాట్లాడే వినియోగ కేసును చూద్దాం.

పైథాన్ పాండాస్ ట్యుటోరియల్: యువత నిరుద్యోగ డేటాను విశ్లేషించడానికి కేసును ఉపయోగించండి

సమస్యల నివేదిక :మీకు డేటాసెట్ ఇవ్వబడింది 2010 నుండి 2014 వరకు ప్రపంచవ్యాప్తంగా నిరుద్యోగ యువత శాతాన్ని కలిగి ఉంటుంది. మీరు ఈ డేటాసెట్‌ను ఉపయోగించాలి మరియు 2010-2011 నుండి ప్రతి దేశానికి యువత శాతం మార్పును కనుగొనాలి.

మొదట, దేశం పేరు, దేశ కోడ్ మరియు 2010 నుండి 2014 వరకు నిలువు వరుసలను కలిగి ఉన్న డేటాసెట్‌ను అర్థం చేసుకుందాం. ఇప్పుడు పాండాలను ఉపయోగించి, .csv ఫైల్ ఫార్మాట్ ఫైల్‌ను చదవడానికి “pd.read_csv” ని ఉపయోగిస్తాము.
క్రింద స్క్రీన్ షాట్ చూడండి:

2010 నుండి 2011 మధ్య నిరుద్యోగ యువతలో శాతం మార్పును తెలుసుకోబోతున్న డేటా విశ్లేషణను కొనసాగిద్దాం. అప్పుడు మేము అదే ఉపయోగించి దృశ్యమానం చేస్తాము లైబ్రరీ, ఇది పైథాన్‌లో విజువలైజేషన్ కోసం శక్తివంతమైన లైబ్రరీ. దీనిని పైథాన్ స్క్రిప్ట్స్, షెల్, వెబ్ అప్లికేషన్ సర్వర్లు మరియు ఇతర GUI టూల్‌కిట్లలో ఉపయోగించవచ్చు. మీరు ఇక్కడ మరింత చదవడానికి ఉపయోగించవచ్చు:

ఇప్పుడు, పైచార్మ్‌లో కోడ్‌ను అమలు చేద్దాం:

పాండాలను పిడి దిగుమతి మ్యాట్‌ప్లోట్లిబ్.పైప్లాట్‌ను మ్యాట్‌ప్లోట్లిబ్ దిగుమతి స్టైల్ స్టైల్ తల (5) df = df.set_index (['కంట్రీ కోడ్']) sd = sd.reindex (నిలువు వరుసలు = ['2010', '2011']) db = sd.diff (అక్షం = 1) db.plot (రకమైన = 'బార్') plt.show ()

మీరు పైన చూడగలిగినట్లుగా, నేను దేశ డేటాఫ్రేమ్ యొక్క మొదటి 5 వరుసలలో విశ్లేషణ చేసాను. తరువాత, నేను ఇండెక్స్ విలువను “కంట్రీ కోడ్” అని నిర్వచించాను, ఆపై కాలమ్‌ను 2010 మరియు 2011 కు తిరిగి ఇండెక్స్ చేసాను. అప్పుడు, మనకు మరో డేటాఫ్రేమ్ డిబి ఉంది, ఇది రెండు నిలువు వరుసల మధ్య వ్యత్యాసాన్ని లేదా నిరుద్యోగ యువత శాతం మార్పును ముద్రిస్తుంది. చివరగా, నేను పైథాన్‌లోని మాట్‌ప్లోట్‌లిబ్ లైబ్రరీని ఉపయోగించి బార్‌ప్లాట్‌ను ప్లాట్ చేసాను.


2010 నుండి 2011 మధ్య అఫ్ఘనిస్తాన్ (AFG) లో పై ప్లాట్‌లో మీరు గమనించినట్లయితే, నిరుద్యోగ యువత సుమారుగా పెరిగింది. 0.25%. అప్పుడు అంగోలా (AGO) లో, ప్రతికూల ధోరణి ఉంది, అంటే నిరుద్యోగ యువత శాతం తగ్గింది. అదేవిధంగా, మీరు వివిధ రకాల డేటాపై విశ్లేషణ చేయవచ్చు.

“పైథాన్ పాండాస్ ట్యుటోరియల్” లోని నా బ్లాగ్ మీకు సంబంధించినదని నేను ఆశిస్తున్నాను. పైథాన్‌తో పాటు దాని వివిధ అనువర్తనాలతో లోతైన జ్ఞానం పొందడానికి, మీరు ప్రత్యక్ష ప్రసారం కోసం నమోదు చేసుకోవచ్చు 24/7 మద్దతు మరియు జీవితకాల ప్రాప్యతతో ఎడురేకా చేత.

మాకు ప్రశ్న ఉందా? దయచేసి ఈ “పైథాన్ పాండాస్ ట్యుటోరియల్” బ్లాగ్ యొక్క వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము వీలైనంత త్వరగా మిమ్మల్ని సంప్రదిస్తాము.