K- అంటే క్లస్టరింగ్ అమలు - ఎడురేకా

ఈ బ్లాగులో, K- అంటే క్లస్టరింగ్ అంటే ఏమిటి మరియు వివిధ US రాష్ట్రాల్లో సేకరించిన క్రిమినల్ డేటాపై దీన్ని ఎలా అమలు చేయవచ్చో మీరు అర్థం చేసుకుంటారు. 1973 లో 50 యుఎస్ రాష్ట్రాలలో ప్రతి 100,000 మంది నివాసితులకు అరెస్టులలో దాడి, హత్య మరియు అత్యాచారం వంటి నేరాలు ఈ డేటాలో ఉన్నాయి. డేటాను విశ్లేషించడంతో పాటు మీరు కూడా నేర్చుకుంటారు:

- సమూహాల యొక్క సరైన సంఖ్యను కనుగొనడం.
- వక్రీకరణను తగ్గించడం
- మోచేయి వక్రతను సృష్టించడం మరియు విశ్లేషించడం.

K- అంటే అల్గోరిథం యొక్క యంత్రాంగాన్ని అర్థం చేసుకోవడం.

విశ్లేషణతో ప్రారంభిద్దాం. డేటా ఇలా ఉంది:

ఈ డేటాసెట్‌ను డౌన్‌లోడ్ చేయడానికి చిత్రంపై క్లిక్ చేయండి

ఈ డేటాసెట్ కావాలా? డౌన్‌లోడ్ చేయడానికి పై చిత్రంపై క్లిక్ చేయండి.

మొదట విశ్లేషణ కోసం డేటాను సిద్ధం చేద్దాం. అలా చేయడానికి, మేము డేటాలో ఉన్న ఏదైనా NA విలువలను తీసివేసి, డేటాను మాతృకగా మార్చాలి.

> క్రైమ్ 0 క్రైమ్ స్ట్రింగ్ (క్రైమ్) సంఖ్య [1:50, 1: 4] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ... - attr (*, 'dimnames') = 2 జాబితా .. $: chr [1 : 50] 'అలబామా' 'అలాస్కా' 'అరిజోనా' 'అర్కాన్సాస్' ... .. $: chr [1: 4] 'హత్య' 'దాడి' 'అర్బన్ పాప్' 'రేప్'

క్లస్టర్ల సంఖ్యను 5 గా తీసుకుందాం. Kmeans () ఫంక్షన్ ఇన్పుట్ డేటాను మరియు డేటాను క్లస్టర్ చేయవలసిన క్లస్టర్ల సంఖ్యను తీసుకుంటుంది. వాక్యనిర్మాణం: kmeans (డేటా, k) ఇక్కడ k అనేది క్లస్టర్ కేంద్రాల సంఖ్య.

> cl తరగతి (cl) [1] 'kmeans'

క్లస్టరింగ్‌ను విశ్లేషించడం:

> str (cl) 9 $ క్లస్టర్ జాబితా: పేరు పెట్టబడిన Int [1:50] 5 3 3 5 3 5 4 5 3 5 ... ..- attr (*, 'names') = chr [1:50] ' అలబామా '' అలాస్కా '' అరిజోనా '' అర్కాన్సాస్ '... $ కేంద్రాలు: సంఖ్య [1: 5, 1: 4] 2.95 6.11 12.14 5.59 11.3 ... ..- attr (*,' dimnames ') = 2 జాబితా .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'హత్య' 'దాడి' 'అర్బన్ పాప్' 'అత్యాచారం . 3 $ ifault: int 0 - attr (*, 'class') = chr 'kmeans'

Str () ఫంక్షన్ క్మీన్స్ యొక్క నిర్మాణాన్ని ఇస్తుంది, దీనిలో లోపలి, బెట్వీన్స్ మొదలైన వివిధ పారామితులు ఉంటాయి, వీటిని విశ్లేషించడం ద్వారా మీరు క్మీన్స్ పనితీరును తెలుసుకోవచ్చు.

betweenss: చతురస్రాల మొత్తం మధ్య, అంటే ఇంట్రాక్లస్టర్ సారూప్యత

లోపల: చదరపు మొత్తంలో అనగా ఇంటర్‌క్లస్టర్ సారూప్యత

totwithinss: అన్ని సమూహాల లోపలి మొత్తం మొత్తం, అంటే మొత్తం ఇంట్రా-క్లస్టర్ సారూప్యత

మంచి క్లస్టరింగ్, ప్రారంభంలో ఎంచుకున్న క్లస్టర్ల సంఖ్యపై ఆధారపడి ఉండే బెట్వీన్స్ యొక్క తక్కువ విలువ మరియు అధిక విలువను కలిగి ఉంటుంది. ‘K’ యొక్క సరైన విలువను ఎలా కనుగొనవచ్చో చూద్దాం.

‘K’ యొక్క సరైన విలువను కనుగొనడం

‘K’ యొక్క సరైన విలువ మనకు కనీస వక్రీకరణతో కూడిన సమూహ సమూహాలను ఇస్తుంది. ఎక్కువ వక్రీకరణ, అధ్వాన్నంగా సమూహాలు ఏర్పడతాయి.

వక్రీకరణ:

వక్రీకరణను ప్రతి సమూహాల నుండి ‘లోపల’ పరంగా లెక్కించవచ్చు. ఒక నిర్దిష్ట క్లస్టర్ యొక్క ‘లోపల’ విలువ తక్కువ, ఎక్కువ జనసాంద్రత కలిగి ఉంటుంది, తద్వారా కనీస వక్రీకరణ.

kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }

ఈ ఫంక్షన్ డేటా మరియు k యొక్క విలువను తీసుకుంటుంది మరియు దాని కోసం ‘km $ totwithinss’ ను అందిస్తుంది. ‘కిమీ $ టోట్‌వితిన్స్’ అనేది మొత్తం-క్లస్టర్ మొత్తంలో చతురస్రాలు, తద్వారా సృష్టించబడిన మొత్తం 5 క్లస్టర్‌లతో సహా.మొత్తం (లోపల). ‘కిమీ $ టోట్వితిన్స్’ విలువ ఎక్కువ, వక్రీకరణ ఎక్కువగా ఉంటుంది.

K = 5 కొరకు, లోపల 24417.02

> kmeans.wss.k (నేరం, 5) [1] 24417.02

K యొక్క విలువను 5 నుండి 10 కి పెంచుదాం మరియు వ్యత్యాసాన్ని గమనించండి.

> kmeans.wss.k (నేరం, 10) [1] 11083.04

K విలువ పెరిగేకొద్దీ వక్రీకరణ తగ్గుతుందని చూడవచ్చు.

మేము ‘km $ totwithinss’ యొక్క విభిన్న విలువలను తీసివేసి, వక్రీకరణకు మరియు k విలువకు మధ్య ఉన్న సంబంధాన్ని కనుగొనడానికి వాటిని గ్రాఫ్‌లో ప్లాట్ చేయవచ్చు. కింది ఫంక్షన్ మనకు అలా చేస్తుంది:

> kmeans.dis maxk = 10> dis = kmeans.dis (నేరం, maxk)> ప్లాట్ (1: maxk, dis, type = 'b', xlab = 'సమూహాల సంఖ్య', + ylab = 'వక్రీకరణ', + col = 'నీలం')

తా డా !!! ఈ విధంగా మన దగ్గర ప్రసిద్ధ మోచేయి వక్రత ఉంది.

మోచేయి కర్వ్:

జావాలో ఓవర్లోడింగ్ vs ఓవర్లోడింగ్

K యొక్క ప్రతి విలువకు ‘k’, సమూహాల సంఖ్య మరియు ‘టోట్వితిన్స్’ (లేదా వక్రీకరణ) మధ్య ఉన్న ప్లాట్లు ఇది. క్లస్టర్ సంఖ్య తక్కువగా ఉన్నప్పుడు మీరు చూడవచ్చు, క్రమంగా వక్రీకరణ తగ్గుతుంది, కాని మేము k యొక్క విలువను పెంచుతూనే, వక్రీకరణ విలువలను తగ్గించే రేటు స్థిరంగా మారుతుంది.

K యొక్క ఈ విలువ మించి వక్రీకరణ రేటు స్థిరంగా మారుతుంది. ఇక్కడ k = 4.

R మాకు క్లస్టర్డ్ ఫలితాలను ఎలా ఇచ్చిందో అర్థం చేసుకోవడానికి కొన్ని యానిమేషన్‌ను వర్తింపజేద్దాం.

> లైబ్రరీ (యానిమేషన్)> cl<- kmeans.ani(crime, 4)

Kmeans క్లస్టరింగ్ అల్గోరిథం:

K- అంటే క్లస్టరింగ్ పనిచేసే అల్గోరిథం అర్థం చేసుకుందాం:

దశ # 1. K = 4 అయితే, మేము 4 యాదృచ్ఛిక పాయింట్లను ఎన్నుకుంటాము మరియు వాటిని క్లస్టర్లు సృష్టించడానికి క్లస్టర్ కేంద్రాలుగా భావించాము.

దశ # 2. మేము స్థలం నుండి యాదృచ్ఛిక డేటా పాయింట్‌ను తీసుకుంటాము మరియు మొత్తం 4 క్లస్టర్‌ల కేంద్రాల నుండి దాని దూరాన్ని తెలుసుకుంటాము. డేటా పాయింట్ గ్రీన్ క్లస్టర్ కేంద్రానికి దగ్గరగా ఉంటే, అది ఆకుపచ్చ రంగులో ఉంటుంది మరియు అదేవిధంగా అన్ని పాయింట్లు 4 క్లస్టర్లలో వర్గీకరించబడతాయి.

దశ # 3. ఇప్పుడు మేము అన్ని గ్రీన్ పాయింట్ల సెంట్రాయిడ్ను లెక్కించి, ఆ పాయింట్‌ను ఆ క్లస్టర్‌కు క్లస్టర్ సెంటర్‌గా కేటాయించాము.

అదేవిధంగా, మేము అన్ని 4 రంగుల (క్లస్టర్డ్) పాయింట్ల కోసం సెంట్రాయిడ్లను లెక్కిస్తాము మరియు కొత్త సెంట్రాయిడ్లను క్లస్టర్ కేంద్రాలుగా కేటాయిస్తాము.

దశ # 4. దశ -2 మరియు స్టెప్ -3 పునరుక్తిగా నడుస్తాయి, క్లస్టర్ కేంద్రాలు ఒక సమయంలో కలుస్తాయి మరియు ఇకపై కదలవు.

ఈ విధంగా, మేము కన్వర్జ్డ్ క్లస్టర్స్ కేంద్రాలకు చేరుకుంటాము.

డేటా 4 క్లస్టర్లుగా విభజించబడిందని చూడవచ్చు. క్లస్టర్ కేంద్రాలు:

> cl $ కేంద్రాలు మర్డర్ అస్సాల్ట్ అర్బన్ పాప్ రేప్ టెక్సాస్ 4.740741 104.8519 62.96296 16.10 లూసియానా 10.907143 219.9286 71.71429 25.95 సౌత్ కరోలినా 13.375000 284.5000 46.25000 25.05 న్యూ మెక్సికో 11.040000 298.0000 77.60000 32.68

క్లస్టర్ కేంద్రంగా ‘న్యూ మెక్సికో’ తో క్లస్టర్ -4 అత్యధిక జనాభాతో భారీ నేరాల రేటును కలిగి ఉంది.

క్లస్టర్ -3 మరియు క్లస్టర్ -2 ఫాలో అప్.

ప్రతి రాష్ట్రానికి ఒక క్లస్టర్ కేటాయించబడుతుంది, దాని ఆధారంగా మనం ఇప్పుడు దాని నేర ర్యాంకింగ్‌ను can హించగలము. అవుట్పుట్ ఇలా ఉంది:

మాకు ప్రశ్న ఉందా? దయచేసి వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.

సంబంధిత పోస్ట్లు:

క్రైమ్ డేటాసెట్‌లో K- అంటే క్లస్టరింగ్ అమలు చేయడం

యుఎస్ క్రైమ్ డేటాసెట్‌లో క్మీన్స్ క్లస్టరింగ్ అమలు

‘K’ యొక్క సరైన విలువను కనుగొనడం

కేటగిరీలు

Popular Articles

ప్రాజెక్ట్ నిర్వహణలో గాంట్ చార్ట్ అంటే ఏమిటి?

పప్పెట్ అంటే ఏమిటి? - పప్పెట్ ఉపయోగించి కాన్ఫిగరేషన్ మేనేజ్‌మెంట్

DevOps సాధనాలను అర్థం చేసుకోవడం - DevOps లో పాల్గొన్న అభివృద్ధి, పరీక్ష మరియు విస్తరణ సాంకేతికతలు

గూగుల్ క్లౌడ్ ప్రైసింగ్ - గూగుల్ క్లౌడ్ ప్లాట్‌ఫాం ప్రైసింగ్ కాలిక్యులేటర్

యంత్ర అభ్యాసంలో బయాస్-వైవిధ్యం అంటే ఏమిటి?

పైథాన్ ఇటిరేటర్స్: పైథాన్‌లో ఇటేరేటర్ అంటే ఏమిటి మరియు దానిని ఎలా ఉపయోగించాలి?

CSS లో అస్పష్టత గురించి మీరు తెలుసుకోవలసిన ప్రతిదీ

జావాలో జెనెరిక్స్ అంటే ఏమిటి? - బిగినర్స్ గైడ్

జావాలో సమూహ తరగతిని ఎలా అమలు చేయాలి?

స్క్రమ్‌లో స్ప్రింట్ ప్రణాళికలు ఏమిటి?

జావాలో ఫలిత సెట్ ఇంటర్ఫేస్ అంటే ఏమిటి?

ప్రాజెక్ట్ నిర్వహణ సాధనాలు - ప్రాజెక్ట్ నిర్వాహకుల సహాయక సహాయాలు