ఈ బ్లాగులో, K- అంటే క్లస్టరింగ్ అంటే ఏమిటి మరియు వివిధ US రాష్ట్రాల్లో సేకరించిన క్రిమినల్ డేటాపై దీన్ని ఎలా అమలు చేయవచ్చో మీరు అర్థం చేసుకుంటారు. 1973 లో 50 యుఎస్ రాష్ట్రాలలో ప్రతి 100,000 మంది నివాసితులకు అరెస్టులలో దాడి, హత్య మరియు అత్యాచారం వంటి నేరాలు ఈ డేటాలో ఉన్నాయి. డేటాను విశ్లేషించడంతో పాటు మీరు కూడా నేర్చుకుంటారు:
- సమూహాల యొక్క సరైన సంఖ్యను కనుగొనడం.
- వక్రీకరణను తగ్గించడం
- మోచేయి వక్రతను సృష్టించడం మరియు విశ్లేషించడం.
- K- అంటే అల్గోరిథం యొక్క యంత్రాంగాన్ని అర్థం చేసుకోవడం.
విశ్లేషణతో ప్రారంభిద్దాం. డేటా ఇలా ఉంది:

ఈ డేటాసెట్ను డౌన్లోడ్ చేయడానికి చిత్రంపై క్లిక్ చేయండి
ఈ డేటాసెట్ కావాలా? డౌన్లోడ్ చేయడానికి పై చిత్రంపై క్లిక్ చేయండి.
మొదట విశ్లేషణ కోసం డేటాను సిద్ధం చేద్దాం. అలా చేయడానికి, మేము డేటాలో ఉన్న ఏదైనా NA విలువలను తీసివేసి, డేటాను మాతృకగా మార్చాలి.
> క్రైమ్ 0 క్రైమ్ స్ట్రింగ్ (క్రైమ్) సంఖ్య [1:50, 1: 4] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ... - attr (*, 'dimnames') = 2 జాబితా .. $: chr [1 : 50] 'అలబామా' 'అలాస్కా' 'అరిజోనా' 'అర్కాన్సాస్' ... .. $: chr [1: 4] 'హత్య' 'దాడి' 'అర్బన్ పాప్' 'రేప్'
క్లస్టర్ల సంఖ్యను 5 గా తీసుకుందాం. Kmeans () ఫంక్షన్ ఇన్పుట్ డేటాను మరియు డేటాను క్లస్టర్ చేయవలసిన క్లస్టర్ల సంఖ్యను తీసుకుంటుంది. వాక్యనిర్మాణం: kmeans (డేటా, k) ఇక్కడ k అనేది క్లస్టర్ కేంద్రాల సంఖ్య.
> cl తరగతి (cl) [1] 'kmeans'
క్లస్టరింగ్ను విశ్లేషించడం:
> str (cl) 9 $ క్లస్టర్ జాబితా: పేరు పెట్టబడిన Int [1:50] 5 3 3 5 3 5 4 5 3 5 ... ..- attr (*, 'names') = chr [1:50] ' అలబామా '' అలాస్కా '' అరిజోనా '' అర్కాన్సాస్ '... $ కేంద్రాలు: సంఖ్య [1: 5, 1: 4] 2.95 6.11 12.14 5.59 11.3 ... ..- attr (*,' dimnames ') = 2 జాబితా .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'హత్య' 'దాడి' 'అర్బన్ పాప్' 'అత్యాచారం . 3 $ ifault: int 0 - attr (*, 'class') = chr 'kmeans'
Str () ఫంక్షన్ క్మీన్స్ యొక్క నిర్మాణాన్ని ఇస్తుంది, దీనిలో లోపలి, బెట్వీన్స్ మొదలైన వివిధ పారామితులు ఉంటాయి, వీటిని విశ్లేషించడం ద్వారా మీరు క్మీన్స్ పనితీరును తెలుసుకోవచ్చు.
betweenss: చతురస్రాల మొత్తం మధ్య, అంటే ఇంట్రాక్లస్టర్ సారూప్యత
లోపల: చదరపు మొత్తంలో అనగా ఇంటర్క్లస్టర్ సారూప్యత
totwithinss: అన్ని సమూహాల లోపలి మొత్తం మొత్తం, అంటే మొత్తం ఇంట్రా-క్లస్టర్ సారూప్యత
మంచి క్లస్టరింగ్, ప్రారంభంలో ఎంచుకున్న క్లస్టర్ల సంఖ్యపై ఆధారపడి ఉండే బెట్వీన్స్ యొక్క తక్కువ విలువ మరియు అధిక విలువను కలిగి ఉంటుంది. ‘K’ యొక్క సరైన విలువను ఎలా కనుగొనవచ్చో చూద్దాం.
‘K’ యొక్క సరైన విలువను కనుగొనడం
‘K’ యొక్క సరైన విలువ మనకు కనీస వక్రీకరణతో కూడిన సమూహ సమూహాలను ఇస్తుంది. ఎక్కువ వక్రీకరణ, అధ్వాన్నంగా సమూహాలు ఏర్పడతాయి.
వక్రీకరణ:
వక్రీకరణను ప్రతి సమూహాల నుండి ‘లోపల’ పరంగా లెక్కించవచ్చు. ఒక నిర్దిష్ట క్లస్టర్ యొక్క ‘లోపల’ విలువ తక్కువ, ఎక్కువ జనసాంద్రత కలిగి ఉంటుంది, తద్వారా కనీస వక్రీకరణ.
kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }
ఈ ఫంక్షన్ డేటా మరియు k యొక్క విలువను తీసుకుంటుంది మరియు దాని కోసం ‘km $ totwithinss’ ను అందిస్తుంది. ‘కిమీ $ టోట్వితిన్స్’ అనేది మొత్తం-క్లస్టర్ మొత్తంలో చతురస్రాలు, తద్వారా సృష్టించబడిన మొత్తం 5 క్లస్టర్లతో సహా.మొత్తం (లోపల)
. ‘కిమీ $ టోట్వితిన్స్’ విలువ ఎక్కువ, వక్రీకరణ ఎక్కువగా ఉంటుంది.
K = 5 కొరకు, లోపల 24417.02
> kmeans.wss.k (నేరం, 5) [1] 24417.02
K యొక్క విలువను 5 నుండి 10 కి పెంచుదాం మరియు వ్యత్యాసాన్ని గమనించండి.
> kmeans.wss.k (నేరం, 10) [1] 11083.04
K విలువ పెరిగేకొద్దీ వక్రీకరణ తగ్గుతుందని చూడవచ్చు.
మేము ‘km $ totwithinss’ యొక్క విభిన్న విలువలను తీసివేసి, వక్రీకరణకు మరియు k విలువకు మధ్య ఉన్న సంబంధాన్ని కనుగొనడానికి వాటిని గ్రాఫ్లో ప్లాట్ చేయవచ్చు. కింది ఫంక్షన్ మనకు అలా చేస్తుంది:
> kmeans.dis maxk = 10> dis = kmeans.dis (నేరం, maxk)> ప్లాట్ (1: maxk, dis, type = 'b', xlab = 'సమూహాల సంఖ్య', + ylab = 'వక్రీకరణ', + col = 'నీలం')
తా డా !!! ఈ విధంగా మన దగ్గర ప్రసిద్ధ మోచేయి వక్రత ఉంది.
మోచేయి కర్వ్:
జావాలో ఓవర్లోడింగ్ vs ఓవర్లోడింగ్
K యొక్క ప్రతి విలువకు ‘k’, సమూహాల సంఖ్య మరియు ‘టోట్వితిన్స్’ (లేదా వక్రీకరణ) మధ్య ఉన్న ప్లాట్లు ఇది. క్లస్టర్ సంఖ్య తక్కువగా ఉన్నప్పుడు మీరు చూడవచ్చు, క్రమంగా వక్రీకరణ తగ్గుతుంది, కాని మేము k యొక్క విలువను పెంచుతూనే, వక్రీకరణ విలువలను తగ్గించే రేటు స్థిరంగా మారుతుంది.
K యొక్క ఈ విలువ మించి వక్రీకరణ రేటు స్థిరంగా మారుతుంది. ఇక్కడ k = 4.
R మాకు క్లస్టర్డ్ ఫలితాలను ఎలా ఇచ్చిందో అర్థం చేసుకోవడానికి కొన్ని యానిమేషన్ను వర్తింపజేద్దాం.
> లైబ్రరీ (యానిమేషన్)> cl<- kmeans.ani(crime, 4)
Kmeans క్లస్టరింగ్ అల్గోరిథం:
K- అంటే క్లస్టరింగ్ పనిచేసే అల్గోరిథం అర్థం చేసుకుందాం:
దశ # 1. K = 4 అయితే, మేము 4 యాదృచ్ఛిక పాయింట్లను ఎన్నుకుంటాము మరియు వాటిని క్లస్టర్లు సృష్టించడానికి క్లస్టర్ కేంద్రాలుగా భావించాము.
దశ # 2. మేము స్థలం నుండి యాదృచ్ఛిక డేటా పాయింట్ను తీసుకుంటాము మరియు మొత్తం 4 క్లస్టర్ల కేంద్రాల నుండి దాని దూరాన్ని తెలుసుకుంటాము. డేటా పాయింట్ గ్రీన్ క్లస్టర్ కేంద్రానికి దగ్గరగా ఉంటే, అది ఆకుపచ్చ రంగులో ఉంటుంది మరియు అదేవిధంగా అన్ని పాయింట్లు 4 క్లస్టర్లలో వర్గీకరించబడతాయి.
దశ # 3. ఇప్పుడు మేము అన్ని గ్రీన్ పాయింట్ల సెంట్రాయిడ్ను లెక్కించి, ఆ పాయింట్ను ఆ క్లస్టర్కు క్లస్టర్ సెంటర్గా కేటాయించాము.
అదేవిధంగా, మేము అన్ని 4 రంగుల (క్లస్టర్డ్) పాయింట్ల కోసం సెంట్రాయిడ్లను లెక్కిస్తాము మరియు కొత్త సెంట్రాయిడ్లను క్లస్టర్ కేంద్రాలుగా కేటాయిస్తాము.
దశ # 4. దశ -2 మరియు స్టెప్ -3 పునరుక్తిగా నడుస్తాయి, క్లస్టర్ కేంద్రాలు ఒక సమయంలో కలుస్తాయి మరియు ఇకపై కదలవు.
ఈ విధంగా, మేము కన్వర్జ్డ్ క్లస్టర్స్ కేంద్రాలకు చేరుకుంటాము.
డేటా 4 క్లస్టర్లుగా విభజించబడిందని చూడవచ్చు. క్లస్టర్ కేంద్రాలు:
> cl $ కేంద్రాలు మర్డర్ అస్సాల్ట్ అర్బన్ పాప్ రేప్ టెక్సాస్ 4.740741 104.8519 62.96296 16.10 లూసియానా 10.907143 219.9286 71.71429 25.95 సౌత్ కరోలినా 13.375000 284.5000 46.25000 25.05 న్యూ మెక్సికో 11.040000 298.0000 77.60000 32.68
క్లస్టర్ కేంద్రంగా ‘న్యూ మెక్సికో’ తో క్లస్టర్ -4 అత్యధిక జనాభాతో భారీ నేరాల రేటును కలిగి ఉంది.
క్లస్టర్ -3 మరియు క్లస్టర్ -2 ఫాలో అప్.
ప్రతి రాష్ట్రానికి ఒక క్లస్టర్ కేటాయించబడుతుంది, దాని ఆధారంగా మనం ఇప్పుడు దాని నేర ర్యాంకింగ్ను can హించగలము. అవుట్పుట్ ఇలా ఉంది:
మాకు ప్రశ్న ఉందా? దయచేసి వ్యాఖ్యల విభాగంలో పేర్కొనండి మరియు మేము మిమ్మల్ని సంప్రదిస్తాము.
సంబంధిత పోస్ట్లు: