స్పీచ్ రికగ్నిషన్ పైథాన్: స్పీచ్‌ను టెక్స్ట్‌కు ఎలా అనువదించాలి?



ఈ బ్లాగ్ పైథాన్‌లో ప్రసంగ గుర్తింపు యొక్క భావనను నమూనా ప్రోగ్రామ్‌తో స్పీచ్ రికగ్నిషన్ ఉపయోగించి ప్రసంగాన్ని టెక్స్ట్‌లోకి అనువదిస్తుంది.

ప్రసంగం ప్రపంచవ్యాప్తంగా కమ్యూనికేషన్ యొక్క అత్యంత సాధారణ సాధనం. ప్రపంచంలోని జనాభాలో ఎక్కువ మంది ఒకరితో ఒకరు సంభాషించుకోవడానికి ప్రసంగం మీద ఆధారపడతారు. మేము ఒక నమూనాను నిర్మిస్తున్నామని అనుకుందాం మరియు వ్రాతపూర్వక విధానానికి బదులుగా మన వ్యవస్థ ప్రసంగానికి ప్రతిస్పందించాలని మేము కోరుకుంటున్నాము, ఇది చాలా కష్టమవుతుంది మరియు ప్రాసెస్ చేయడానికి చాలా డేటా అవసరం. ప్రసంగాన్ని టెక్స్ట్‌కు అనువదించడం ద్వారా ప్రసంగ గుర్తింపు వ్యవస్థ ఈ అడ్డంకిని అధిగమిస్తుంది. ఈ బ్లాగులో, మేము ప్రసంగ గుర్తింపు ద్వారా వెళ్తాము పైథాన్‌లో మాడ్యూల్ . అదే జాబితా ఇక్కడ ఉంది:

స్పీచ్ రికగ్నిషన్ ఎలా పనిచేస్తుంది?

ప్రసంగ గుర్తింపు వ్యవస్థ ప్రాథమికంగా మాట్లాడే మాటలను వచనానికి అనువదిస్తుంది. ప్రసంగ గుర్తింపు వ్యవస్థ యొక్క వివిధ నిజ జీవిత ఉదాహరణలు ఉన్నాయి. ఉదాహరణకు- సిరి, ఇది ప్రసంగాన్ని ఇన్‌పుట్‌గా తీసుకొని టెక్స్ట్‌లోకి అనువదిస్తుంది.





ప్రసంగ గుర్తింపు వ్యవస్థను ఉపయోగించడం వల్ల ప్రయోజనం ఏమిటంటే అది అక్షరాస్యత యొక్క అడ్డంకిని అధిగమిస్తుంది. ప్రసంగ గుర్తింపు నమూనా అక్షరాస్యత మరియు నిరక్షరాస్యులైన ప్రేక్షకులకు కూడా ఉపయోగపడుతుంది, ఎందుకంటే ఇది మాట్లాడే మాటలపై దృష్టి పెడుతుంది.

ప్రసంగ గుర్తింపు వ్యవస్థను ఉపయోగించి ప్రపంచవ్యాప్తంగా అంతరించిపోతున్న అన్ని భాషల జాబితాను కూడా మేము తయారు చేయవచ్చు. ఇది చాలా చమత్కారంగా మరియు సంక్లిష్టంగా కనిపించనప్పటికీ, ప్రసంగ గుర్తింపు వ్యవస్థ తయారీలో చాలా సవాళ్లను ఎదుర్కొంటుంది.



స్పీచ్ రికగ్నిషన్ ఎదుర్కొన్న సవాళ్లు సిస్టమ్

ప్రసంగం విషయానికి వస్తే మనకు చాలా వైవిధ్య వనరులు ఉన్నందున ప్రసంగ గుర్తింపు వ్యవస్థను తయారు చేయడం కష్టమవుతుంది.

మాట్లాడే శైలి

ప్రతి వ్యక్తి వ్యక్తికి వైవిధ్యమైన మాట్లాడే శైలి ఉంటుంది, వాటిలో స్వరాలు కూడా ఉంటాయి. మనందరికీ తెలిసినట్లుగా, ఇంగ్లీష్ మాట్లాడటానికి మనకు వేర్వేరు స్వరాలు ఉన్నాయి. ప్రపంచంలో సర్వసాధారణమైన భాష మాట్లాడేటప్పుడు అమెరికన్ ఇంగ్లీష్, బ్రిటిష్ ఇంగ్లీష్ మరియు మరెన్నో స్వరాలు ఉన్నాయి. ప్రసంగ గుర్తింపు వ్యవస్థకు ప్రసంగాన్ని పూర్తిగా అనువదించడం కూడా ఉచ్చారణ కష్టతరం చేస్తుంది.



పర్యావరణం

పర్యావరణం వ్యవస్థకు చాలా నేపథ్య శబ్దాన్ని జోడిస్తుంది. ఆడిటోరియంతో పోలిస్తే ఒక వివిక్త గది నేపథ్య శబ్దాలలో చాలా వైవిధ్యతను కలిగి ఉంటుంది. ప్రతిధ్వని కూడా వ్యవస్థలో చాలా శబ్దాన్ని జోడించగలదు.

స్పీకర్ లక్షణాలు

పాత వ్యక్తి యొక్క స్వరం శిశువు యొక్క స్వరంతో సమానంగా ఉండకపోవచ్చు. ఒక వ్యక్తి యొక్క ప్రసంగం యొక్క లక్షణాలు కఠినత్వం మరియు స్పష్టతతో సహా అనేక అంశాలపై ఆధారపడి ఉంటాయి.

భాషా పరిమితులు

అనువాదం విషయానికి వస్తే కొన్ని మాట్లాడే ఉచ్చారణలకు ఆచరణీయమైన అర్ధం ఉండకపోవచ్చు.

ఈ సవాళ్లను అధిగమించిన తరువాత, ఏదైనా ప్రసంగ గుర్తింపు వ్యవస్థ ప్రసంగాన్ని వచనానికి అనువదించడం చాలా సాధించవచ్చు. ప్రసంగ గుర్తింపు ఎలా పనిచేస్తుందో ఇప్పుడు మనకు తెలుసు, భిన్నంగా చూద్దాం పైథాన్‌లో ప్రసంగ గుర్తింపు కోసం ఇవి అందుబాటులో ఉన్నాయి.

పైథాన్‌లో ప్రసంగ గుర్తింపు కోసం ప్యాకేజీలు అందుబాటులో ఉన్నాయి

  • apiai

  • మాటలు గుర్తుపట్టుట

  • Google_speech_cloud

  • అసెంబ్లీ

    ఫైబొనాక్సీ సి ++ కోడ్
  • పాకెట్స్ఫిన్క్స్

  • వాట్సన్_ డెవలపర్_క్లౌడ్

  • తెలుపు

మేము ఈ బ్లాగులోని స్పీచ్ రికగ్నిషన్ ప్యాకేజీ వివరాల ద్వారా వెళ్తాము, సంవత్సరాలుగా స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ ఎలా అభివృద్ధి చెందాయో అర్థం చేసుకోవడానికి మెమరీ లేన్ ను పరిశీలించండి.

ప్రసంగ గుర్తింపు యొక్క మొట్టమొదటి నమూనా వాస్తవానికి ఒక బొమ్మ, దీనికి పేరు పెట్టారు రేడియో రెక్స్ ఇది 1920 లలో వచ్చింది. ఇది ఒక కుక్క ఇంట్లో కూర్చున్న కుక్కను కలిగి ఉంది, ఇది రెక్స్ అనే పదాన్ని ఎవరైనా పలికిన వెంటనే పాప్ అవుట్ అవుతుంది.

మోడల్‌తో ఉన్న ఏకైక సమస్య ఏమిటంటే, వసంతకాలం విద్యుదయస్కాంతానికి అనుసంధానించబడి ఉంది, ఇది 500hz చుట్టూ శక్తికి సున్నితంగా ఉంటుంది. పూర్తిగా ఫ్రీక్వెన్సీ డిటెక్టర్ కావడంతో, దీనిని రిమోట్గా స్పీచ్ రికగ్నిషన్ మోడల్ అని పిలుస్తారు.

1962 లో, ఐబిఎం a తో ముందుకు వచ్చింది షూబాక్స్ వివిక్త పదాలను గుర్తించగలిగిన మోడల్ మరియు కొన్ని అంకగణిత ఆపరేషన్లను కూడా చేయగలిగింది.

అప్పుడు వచ్చింది హార్పీ CMU నుండి, ఇది 1000 పదాల పదజాలం నుండి కనెక్ట్ చేయబడిన ప్రసంగాన్ని గుర్తించగలిగింది. 1980 లలో ప్రజలు గణాంక నమూనాలను ఉపయోగించడం ప్రారంభించారు మరియు ఎక్కువగా ఉపయోగించిన యంత్ర అభ్యాస నమూనాలలో దాచిన మార్కోవ్ మోడల్ ఒకటి.

లోతైన న్యూరల్ నెట్‌వర్క్‌లను ప్రవేశపెట్టిన తరువాత, చాలావరకు స్పీచ్ రికగ్నిషన్ మోడల్స్ న్యూరల్ నెట్‌వర్క్‌లలో పనిచేస్తాయి. నాడీ నెట్‌వర్క్‌లతో అవకాశాలు gin హించలేము, పదజాలం 10 కే పదాలు మరియు మరిన్ని వరకు వెళ్ళవచ్చు.

పైథాన్‌లో స్పీచ్ రికగ్నిషన్‌ను ఎలా ఇన్‌స్టాల్ చేయాలి?

స్పీచ్ రికగ్నిషన్ ప్యాకేజీని వ్యవస్థాపించడానికి పైథాన్, కింది ఆదేశాన్ని టెర్మినల్‌లో అమలు చేయండి మరియు అది మీ సిస్టమ్‌లో ఇన్‌స్టాల్ చేయబడుతుంది.

ఇన్స్టాలేషన్-స్పీచ్ రికగ్నిషన్ పైథాన్-ఎడురేకా

దీనికి మరొక విధానం, మీరు ఉపయోగిస్తుంటే ప్రాజెక్ట్ ఇంటర్‌ప్రెటర్ నుండి ప్యాకేజీని జోడించవచ్చు

ప్యాకేజీకి రికగ్నైజర్ క్లాస్ ఉంది, ఇది ప్రాథమికంగా మేజిక్ జరిగే చోట ఉంటుంది. ఇది ప్రాథమికంగా ప్రసంగాన్ని గుర్తించడానికి ఉపయోగించే తరగతి. వేర్వేరు API లను ఉపయోగించి వివిధ ఆడియో మూలాలను చదవగల ఏడు పద్ధతులు క్రిందివి.

  • గుర్తించండి_బింగ్ ()
  • గుర్తించండి_గోగల్ ()
  • గుర్తించండి_గోగల్_క్లౌడ్ ()
  • గుర్తించండి_హండిఫై ()
  • గుర్తించండి_బిఎం ()
  • గుర్తించండి_విట్ ()
  • గుర్తింపు_స్ఫింక్స్ ()

ఇప్పుడు, స్పీచ్ రికగ్నిషన్ సిస్టమ్‌ను ఆఫ్‌లైన్‌లో అమలు చేయడానికి గుర్తింపు_స్ఫిన్క్స్ ఉపయోగించవచ్చు. దీనికి పాకెట్స్ఫిన్క్స్ యొక్క సంస్థాపన అవసరం.

స్పీచ్ రికగ్నిషన్‌ను sr గా గుర్తించండి # గుర్తింపు తరగతి r = sr.Recognizer ()

మైక్రోఫోన్ల నుండి ఇన్పుట్ తీసుకోవడం

మైక్రోఫోన్‌లను ఉపయోగించడానికి, మేము ప్యూడో మాడ్యూల్‌ను కూడా ఇన్‌స్టాల్ చేయాలి. ఆడియో ఫైల్ వంటి ఇతర ఇన్పుట్ పద్ధతికి బదులుగా మైక్రోఫోన్ నుండి ఇన్పుట్ ప్రసంగాన్ని పొందడానికి మేము మైక్రోఫోన్ తరగతిని ఉపయోగిస్తాము.

చాలా ప్రాజెక్టుల కోసం, మేము డిఫాల్ట్ మైక్రోఫోన్‌లను ఉపయోగించవచ్చు. మీరు డిఫాల్ట్ మైక్రోఫోన్‌ను ఉపయోగించకూడదనుకుంటే,మీరు list_microphone_names పద్ధతిని ఉపయోగించి మైక్రోఫోన్ పేర్ల జాబితాను పొందవచ్చు.

మైక్రోఫోన్ నుండి ఇన్పుట్ను సంగ్రహించడానికి మేము వినే పద్ధతిని ఉపయోగిస్తాము.

స్పీచ్ రికగ్నిషన్‌ను sr r = sr.Recognizer () తో sr.Microphone () తో మూలంగా దిగుమతి చేయండి: ఆడియో = sr.listen (మూలం)

పైథాన్‌లో ప్యూడోను ఎలా ఇన్‌స్టాల్ చేయాలి?

పైథాన్‌లో ప్యూడోను ఇన్‌స్టాల్ చేయడానికి, టెర్మినల్‌లో కింది ఆదేశాన్ని అమలు చేయండి లేదా మీరు పైచార్మ్ ఉపయోగిస్తుంటే సెట్టింగులలోని ప్రాజెక్ట్ ఇంటర్‌ప్రెటర్ నుండి ప్యాకేజీని జోడించండి.

కేసు ఉపయోగించండి

ప్రసంగాన్ని గుర్తించడానికి మరియు కింది వాటిని అమలు చేయడానికి పైథాన్లోని స్పీచ్ రికగ్నిషన్ మాడ్యూల్ ఉపయోగించి మేము ఒక ప్రోగ్రామ్ చేస్తాము:

  1. ప్రసంగాన్ని టెక్స్ట్‌గా మార్చండి
  2. వెబ్ బ్రౌజర్ మాడ్యూల్ ఉపయోగించి URL ని తెరవండి
  3. url లో శోధించడానికి ప్రసంగ గుర్తింపును ఉపయోగించి ప్రశ్నను పంపండి

పై సమస్య ప్రకటన కోసం ప్రోగ్రామ్ క్రింది ఉంది:

స్పీచ్_రెగ్నిషన్‌ను sr దిగుమతి వెబ్ బ్రౌజర్‌గా wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () తో sr.Microphone () తో మూలంగా: print ('[search edureka: search youtube]') r2.recognize_google (ఆడియో) లో 'ఎడురేకా' ఉంటే ఆడియో = r3.listen (మూలం): r2 = sr.Recognizer () url = 'https://www.edureka.co/' sr తో ముద్రించండి ('ఇప్పుడు మాట్లాడండి') . మైక్రోఫోన్ () మూలంగా: ప్రింట్ ('మీ ప్రశ్నను శోధించండి') ఆడియో = r2.listen (మూలం) ప్రయత్నించండి: get = r2.recognize_google (ఆడియో) ప్రింట్ (పొందండి) wb.get (). ఓపెన్_న్యూ (url + పొందండి) తప్ప sr.UnknownValueError: sr.RequestError తప్ప e: print ('fail'. ఫార్మాట్ (e)) r1.recognize_google (ఆడియో) లో 'వీడియో' ఉంటే: r1 = sr.Recognizer () url = ' https://www.youtube.com/results?search_query= 'sr.Microphone () తో మూలంగా: ప్రింట్ (' వీడియో కోసం శోధించండి ') ఆడియో = r2.listen (మూలం) ప్రయత్నించండి: get = r1.recognize_google (ఆడియో ) ముద్రించండి (పొందండి) wb.get (). sr.UnknownValueError తప్ప ఓపెన్_న్యూ (url + పొందండి): sr.RequestError తప్ప ప్రింట్ ('అర్థం కాలేదు'): ప్రింట్ (ఫలితాలను పొందడంలో విఫలమైంది '. ఫార్మాట్ (ఇ) )

చిత్రంలో చూపిన విధంగా మీరు అవుట్పుట్ పొందుతారు. మీరు ఎడురేకా అని చెబితే, మేము url వేరియబుల్‌లో వ్రాసిన ఎడురేకా url లో మీరు శోధించదలిచిన ప్రశ్నను చెప్పమని ఇది మిమ్మల్ని అడుగుతుంది. మీరు పైథాన్ అని చెబితే మీరు ఈ క్రింది వెబ్ పేజీని బ్రౌజర్‌లో తెరుస్తారు.

ఈ బ్లాగులో, స్పీచ్ రికగ్నిషన్ ప్యాకేజీని ఉపయోగించి ప్రసంగాన్ని టెక్స్ట్‌కు అనువదించడానికి పైథాన్‌లో ప్రసంగ గుర్తింపును ఎలా ఉపయోగించవచ్చో చర్చించాము. ప్రసంగ గుర్తింపు లేదా ఆబ్జెక్ట్ డిజెక్షన్ వంటి భావనలకు గంట అవసరంగా మారింది ఇది వ్యవస్థను రూపొందించడానికి అపారమైన ప్రసంగ డేటాను శిక్షణ ఇవ్వగల మరియు పరీక్షించగల ప్రసంగ గుర్తింపు వ్యవస్థలకు అనూహ్యమైన అవకాశాలను అందిస్తుంది.మీరు నమోదు చేసుకోవచ్చు లోతైన నాడీ నెట్‌వర్క్‌ల కోసం మీ నైపుణ్యాలను నేర్చుకోవటానికి మరియు మీ అభ్యాసాన్ని కిక్‌స్టార్ట్ చేయడానికి.

ఏదైనా ప్రశ్నలు ఉన్నాయా? వ్యాఖ్యలలో వాటిని ప్రస్తావించండి, మేము మిమ్మల్ని సంప్రదిస్తాము.