Idadi ya programu na umuhimu wa violesura vya sauti inakua kwa kasi
Teknolojia

Idadi ya programu na umuhimu wa violesura vya sauti inakua kwa kasi

Familia moja ya Marekani huko Portland, Oregon hivi majuzi iligundua kuwa msaidizi wa sauti wa Alex alirekodi mazungumzo yao ya faragha na kuyatuma kwa rafiki. Mmiliki wa nyumba hiyo, aliyepewa jina la Danielle na vyombo vya habari, aliwaambia waandishi wa habari kwamba "hatawahi kuunganisha kifaa hiki tena kwa sababu hawezi kuaminiwa."

Alexa, zinazotolewa na spika za Echo (1) na vifaa vingine katika makumi ya mamilioni ya nyumba za Marekani, huanza kurekodi inaposikia jina lake au "neno la simu" likisemwa na mtumiaji. Hii ina maana kwamba hata kama neno "Alexa" limetajwa kwenye tangazo la TV, kifaa kinaweza kuanza kurekodi. Hiyo ndivyo ilivyotokea katika kesi hii, anasema Amazon, msambazaji wa vifaa.

"Mazungumzo mengine yalitafsiriwa na msaidizi wa sauti kama amri ya kutuma ujumbe," kampuni hiyo ilisema katika taarifa. Wakati fulani, Alexa aliuliza kwa sauti kubwa: "Kwa nani?" Kuendelea kwa mazungumzo ya familia kuhusu kuweka sakafu kwa mbao ngumu kulipaswa kutambuliwa na mashine kama kitu kwenye orodha ya mawasiliano ya mteja.” Angalau ndivyo Amazon inavyofikiria. Kwa hivyo, tafsiri imepunguzwa kwa mfululizo wa ajali.

Wasiwasi, hata hivyo, unabaki. Kwa sababu kwa sababu fulani, katika nyumba ambayo bado tulihisi raha, tunapaswa kuingia aina fulani ya "hali ya sauti", angalia kile tunachosema, ni nini TV inatangaza na, bila shaka, ni nini msemaji huyu mpya kwenye kifua. droo anasema. sisi.

Hata hivyo, Licha ya kutokamilika kwa teknolojia na wasiwasi wa faragha, pamoja na kuongezeka kwa umaarufu wa vifaa kama Amazon Echo, watu wanaanza kuzoea wazo la kuingiliana na kompyuta kwa kutumia sauti zao..

Kama Werner Vogels, CTO wa Amazon, alivyobainisha wakati wa kipindi chake cha AWS re:Invent mwishoni mwa 2017, teknolojia kufikia sasa imepunguza uwezo wetu wa kuingiliana na kompyuta. Tunaandika manenomsingi kwenye Google kwa kutumia kibodi, kwa kuwa hii bado ndiyo njia ya kawaida na rahisi zaidi ya kuingiza taarifa kwenye mashine.

Vogels alisema. -

nne kubwa

Wakati wa kutumia injini ya utafutaji ya Google kwenye simu, labda tuliona ishara ya kipaza sauti na wito wa kuzungumza muda mrefu uliopita. Hii Google sasa (2), ambayo inaweza kutumika kulazimisha hoja ya utafutaji, kuandika ujumbe kwa sauti, n.k. Katika miaka ya hivi karibuni, Google, Apple na Amazon zimeimarika sana. teknolojia ya utambuzi wa sauti. Visaidizi vya sauti kama Alexa, Siri na Msaidizi wa Google sio tu kurekodi sauti yako, lakini pia kuelewa unachowaambia na kujibu maswali.

Google Msaidizi inapatikana bila malipo kwa watumiaji wote wa Android. Programu inaweza, kwa mfano, kuweka kengele, kuangalia utabiri wa hali ya hewa na kuangalia njia kwenye ramani za Google. Kiendelezi cha mazungumzo cha majimbo ya Google Msaidizi Mratibu wa Google () - usaidizi wa kawaida kwa mtumiaji wa kifaa. Inapatikana hasa kwenye simu na vifaa mahiri vya nyumbani. Tofauti na Google Msaidizi, inaweza kushiriki katika ubadilishanaji wa njia mbili. Mratibu alianza kufanya kazi mnamo Mei 2016 kama sehemu ya programu ya ujumbe ya Google ya Allo, na vile vile katika spika ya sauti ya Google Home (3).

3. Google Home

Mfumo wa IOS pia una msaidizi wake wa kawaida, Siri, ambayo ni programu iliyojumuishwa na mifumo ya uendeshaji ya Apple iOS, watchOS, tvOS homepod, na macOS. Siri ilijadili kwa mara ya kwanza na iOS 5 na iPhone 4s mnamo Oktoba 2011 kwenye mkutano wa Let's Talk iPhone.

Programu inategemea interface ya mazungumzo: inatambua hotuba ya asili ya mtumiaji (pamoja na iOS 11 inawezekana pia kuingiza amri kwa mikono), hujibu maswali na kukamilisha kazi. Shukrani kwa kuanzishwa kwa kujifunza mashine, msaidizi baada ya muda inachambua matakwa ya kibinafsi mtumiaji kutoa matokeo na mapendekezo muhimu zaidi. Siri inahitaji muunganisho wa Mtandao mara kwa mara - vyanzo vikuu vya habari hapa ni Bing na Wolfram Alpha. iOS 10 ilianzisha usaidizi kwa viendelezi vya watu wengine.

Mwingine wa nne kubwa Cortana. Ni msaidizi mahiri wa kibinafsi iliyoundwa na Microsoft. Inatumika kwenye Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, na mifumo ya iOS. Cortana alitambulishwa kwa mara ya kwanza katika Mkutano wa Wasanidi Programu wa Microsoft Build mnamo Aprili 2014 huko San Francisco. Jina la programu linatokana na jina la mhusika kutoka mfululizo wa mchezo wa Halo. Cortana inapatikana katika Kiingereza, Kiitaliano, Kihispania, Kifaransa, Kijerumani, Kichina na Kijapani.

Watumiaji wa programu iliyotajwa tayari Alexa lazima pia wazingatie vizuizi vya lugha - msaidizi wa kidijitali anaongea Kiingereza, Kijerumani, Kifaransa na Kijapani pekee.

Amazon Virtual Assistant ilitumika kwa mara ya kwanza katika Amazon Echo na Amazon Echo Dot spika mahiri zilizotengenezwa na Amazon Lab126. Huwasha mwingiliano wa sauti, uchezaji wa muziki, kuunda orodha ya mambo ya kufanya, mpangilio wa kengele, utiririshaji wa podikasti, uchezaji wa kitabu cha sauti na hali ya hewa ya wakati halisi, trafiki, michezo na taarifa nyingine za habari kama vile habari (4). Alexa inaweza kudhibiti vifaa vingi mahiri ili kuunda mfumo wa otomatiki wa nyumbani. Inaweza pia kutumika kufanya ununuzi rahisi katika duka la Amazon.

4. Nini Watumiaji Hutumia Mwangwi Kwa (Kulingana na Utafiti)

Watumiaji wanaweza kuboresha matumizi ya Alexa kwa kusakinisha "ujuzi" wa Alexa (), vipengele vya ziada vilivyotengenezwa na wahusika wengine, vinavyojulikana zaidi kama programu kama vile hali ya hewa na programu za sauti katika mipangilio mingineyo. Vifaa vingi vya Alexa hukuruhusu kuamsha msaidizi wako wa mtandaoni na nenosiri la kuamka, linaloitwa.

Leo, Amazon inatawala soko la spika mahiri (5). IBM, ambayo ilianzisha huduma mpya mwezi Machi 2018, inajaribu kuingia nne bora Msaidizi wa Watson, iliyoundwa kwa ajili ya makampuni ambayo yanataka kuunda mifumo yao ya wasaidizi pepe na udhibiti wa sauti. Je, ni faida gani ya suluhisho la IBM? Kulingana na wawakilishi wa kampuni, kwanza kabisa, juu ya fursa kubwa zaidi za ubinafsishaji na ulinzi wa faragha.

Kwanza, Msaidizi wa Watson hajawekwa chapa. Makampuni yanaweza kuunda masuluhisho yao kwenye jukwaa hili na kuyaweka lebo kwa chapa zao.

Pili, wanaweza kutoa mafunzo kwa mifumo yao ya usaidizi kwa kutumia seti zao za data, ambayo IBM inasema hurahisisha kuongeza vipengele na amri kwenye mfumo huo kuliko teknolojia nyingine za VUI (kiolesura cha sauti).

Tatu, Msaidizi wa Watson haitoi IBM taarifa kuhusu shughuli za mtumiaji - watengenezaji wa suluhu kwenye jukwaa wanaweza tu kuweka data muhimu kwao wenyewe. Wakati huo huo, mtu yeyote anayejenga vifaa, kwa mfano na Alexa, anapaswa kujua kwamba data zao za thamani zitaisha kwenye Amazon.

Msaidizi wa Watson tayari ana utekelezaji kadhaa. Mfumo huo ulitumiwa, kwa mfano, na Harman, ambayo iliunda msaidizi wa sauti kwa gari la dhana ya Maserati (6). Katika Uwanja wa Ndege wa Munich, msaidizi wa IBM huwezesha roboti ya Pilipili kusaidia abiria kuzunguka. Mfano wa tatu ni Chameleon Technologies, ambapo teknolojia ya sauti hutumiwa katika mita ya nyumbani yenye akili.

6. Msaidizi wa Watson katika gari la dhana ya Maserati

Inafaa kuongeza kuwa teknolojia ya msingi hapa pia sio mpya. Msaidizi wa Watson inajumuisha uwezo wa usimbaji fiche wa bidhaa zilizopo za IBM, Mazungumzo ya Watson, na Wakala wa Watson Virtual, pamoja na API za uchanganuzi wa lugha na gumzo.

Amazon sio tu kiongozi katika teknolojia ya sauti nzuri, lakini inaigeuza kuwa biashara ya moja kwa moja. Walakini, kampuni zingine zimejaribu ujumuishaji wa Echo mapema zaidi. Sisense, kampuni katika tasnia ya BI na uchanganuzi, ilianzisha ujumuishaji wa Echo mnamo Julai 2016. Kwa upande wake, kuanzisha Roxy aliamua kuunda programu yake ya kudhibiti sauti na maunzi kwa tasnia ya ukarimu. Mapema mwaka huu, Synqq ilianzisha programu ya kuandika madokezo ambayo hutumia usindikaji wa sauti na lugha asili ili kuongeza madokezo na maingizo ya kalenda bila kulazimika kuyaandika kwenye kibodi.

Biashara zote hizi ndogo zina matarajio makubwa. Zaidi ya yote, hata hivyo, walijifunza kwamba si kila mtumiaji anataka kuhamisha data zao kwa Amazon, Google, Apple au Microsoft, ambao ni wachezaji muhimu zaidi katika kujenga majukwaa ya mawasiliano ya sauti.

Wamarekani wanataka kununua

Mnamo mwaka wa 2016, utafutaji wa sauti ulichangia 20% ya utafutaji wote wa simu ya Google. Watu wanaotumia teknolojia hii kila siku wanataja urahisi na kufanya kazi nyingi miongoni mwa manufaa yake makubwa. (kwa mfano, uwezo wa kutumia injini ya utafutaji wakati wa kuendesha gari).

Wachambuzi wa Visiongain wanakadiria thamani ya sasa ya soko ya wasaidizi mahiri wa kidijitali kuwa dola bilioni 1,138. Kuna mbinu nyingi zaidi kama hizo. Kulingana na Gartner, hadi mwisho wa 2018 tayari 30% ya mwingiliano wetu na teknolojia itakuwa kupitia mazungumzo na mifumo ya sauti.

Kampuni ya utafiti ya Uingereza IHS Markit inakadiria kuwa soko la wasaidizi wa kidijitali wanaotumia AI litafikia vifaa bilioni 4 ifikapo mwisho wa mwaka huu, na idadi hiyo inaweza kupanda hadi bilioni 2020 ifikapo 7.

Kulingana na ripoti kutoka kwa eMarketer na VoiceLabs, Wamarekani milioni 2017 walitumia udhibiti wa sauti angalau mara moja kwa mwezi katika 35,6. Hii inamaanisha ongezeko la karibu 130% kuliko mwaka uliopita. Soko la msaidizi wa kidijitali pekee linatarajiwa kukua ifikapo 2018% katika 23. Hii ina maana kwamba utakuwa tayari unazitumia. Wamarekani milioni 60,5, ambayo itasababisha fedha halisi kwa wazalishaji wao. RBC Capital Markets inakadiria kuwa kiolesura cha Alexa kitazalisha hadi $2020 bilioni katika mapato kwa Amazon ifikapo 10.

Osha, oka, safi!

Miunganisho ya sauti inazidi kuingia kwa ujasiri katika soko la vifaa vya nyumbani na soko la vifaa vya elektroniki vya watumiaji. Hii inaweza tayari kuonekana wakati wa maonyesho ya IFA ya mwaka jana 2017. Kampuni ya Marekani ya Neato Robotics ilianzisha, kwa mfano, kisafishaji cha utupu cha roboti ambacho kinaunganisha kwenye moja ya majukwaa kadhaa ya smart nyumbani, ikiwa ni pamoja na mfumo wa Amazon Echo. Kwa kuzungumza na spika mahiri ya Echo, unaweza kuagiza mashine kusafisha nyumba yako yote nyakati mahususi za mchana au usiku.

Bidhaa zingine zilizoamilishwa kwa sauti zilionyeshwa kwenye onyesho hilo, kuanzia TV mahiri zinazouzwa chini ya chapa ya Toshiba na kampuni ya Kituruki ya Vestel hadi mablanketi ya kupasha joto na kampuni ya Ujerumani ya Beurer. Mengi ya vifaa hivi vya kielektroniki vinaweza pia kuwashwa kwa mbali kwa kutumia simu mahiri.

Walakini, kulingana na wawakilishi wa Bosch, ni mapema sana kusema ni chaguzi gani za msaidizi wa nyumbani zitakuwa kubwa. Katika IFA 2017, kikundi cha kiufundi cha Ujerumani kilionyesha mashine za kuosha (7), oveni na mashine za kahawa zinazounganishwa na Echo. Bosch pia inataka vifaa vyake viendane na majukwaa ya sauti ya Google na Apple katika siku zijazo.

7. Mashine ya kuosha ya Bosch inayounganisha na Amazon Echo

Kampuni kama vile Fujitsu, Sony na Panasonic zinatengeneza suluhu zao za usaidizi wa sauti zinazotegemea AI. Sharp inaongeza teknolojia hii kwenye oveni na roboti ndogo zinazoingia sokoni. Nippon Telegraph & Telephone inakodisha maunzi na watengenezaji wa vinyago ili kurekebisha mfumo wa kijasusi bandia unaodhibitiwa na sauti.

Dhana ya zamani. Je, wakati wake umefika?

Kwa kweli, dhana ya Kiolesura cha Mtumiaji wa Sauti (VUI) imekuwepo kwa miongo kadhaa. Yeyote aliyetazama Star Trek au 2001: A Space Odyssey miaka iliyopita pengine alitarajia kwamba karibu mwaka wa 2000 sote tungedhibiti kompyuta kwa sauti zetu. Pia, haikuwa waandishi wa hadithi za kisayansi pekee ambao waliona uwezo wa aina hii ya kiolesura. Mnamo 1986, watafiti wa Nielsen waliwauliza wataalamu wa IT ni nini walidhani itakuwa mabadiliko makubwa zaidi katika miingiliano ya watumiaji kufikia mwaka wa 2000. Mara nyingi walionyesha maendeleo ya miingiliano ya sauti.

Kuna sababu za kutumaini suluhisho kama hilo. Mawasiliano ya maneno ni, baada ya yote, njia ya asili zaidi kwa watu kubadilishana mawazo kwa uangalifu, kwa hivyo kuitumia kwa mwingiliano wa mashine ya binadamu inaonekana kama suluhisho bora zaidi hadi sasa.

Moja ya VUI ya kwanza, inayoitwa sanduku la viatu, iliundwa mapema miaka ya 60 na IBM. Ilikuwa mtangulizi wa mifumo ya kisasa ya utambuzi wa sauti. Hata hivyo, maendeleo ya vifaa vya VUI yalipunguzwa na mipaka ya nguvu za kompyuta. Kuchambua na kutafsiri hotuba ya mwanadamu kwa wakati halisi kunahitaji juhudi nyingi, na ilichukua zaidi ya miaka hamsini kufikia mahali ambapo iliwezekana.

Vifaa vilivyo na interface ya sauti vilianza kuonekana katika uzalishaji wa wingi katikati ya miaka ya 90, lakini havikupata umaarufu. Simu ya kwanza yenye udhibiti wa sauti (dialing) ilikuwa Philips Sparkiliyotolewa mwaka 1996. Hata hivyo, kifaa hiki cha ubunifu na rahisi kutumia hakikuwa huru kutokana na mapungufu ya teknolojia.

Simu nyingine zilizo na mifumo ya kiolesura cha sauti (zilizoundwa na makampuni kama vile RIM, Samsung au Motorola) huingia sokoni mara kwa mara, hivyo basi kuruhusu watumiaji kupiga kwa sauti au kutuma ujumbe mfupi wa maandishi. Wote, hata hivyo, walihitaji kukariri amri maalum na kutamka kwa kulazimishwa, fomu ya bandia, ilichukuliwa kwa uwezo wa vifaa vya wakati huo. Hii ilitoa idadi kubwa ya makosa, ambayo, kwa upande wake, ilisababisha kutoridhika kwa mtumiaji.

Hata hivyo, sasa tunaingia katika enzi mpya ya kompyuta, ambapo maendeleo katika kujifunza kwa mashine na akili bandia yanafungua uwezo wa mazungumzo kama njia mpya ya kuingiliana na teknolojia (8). Idadi ya vifaa vinavyounga mkono mwingiliano wa sauti imekuwa jambo muhimu ambalo limekuwa na athari kubwa katika maendeleo ya VUI. Leo, karibu 1/3 ya watu duniani tayari wanamiliki simu mahiri zinazoweza kutumika kwa aina hii ya tabia. Inaonekana watumiaji wengi wako tayari kurekebisha violesura vyao vya sauti.

8. Historia ya kisasa ya maendeleo ya interface ya sauti

Hata hivyo, kabla ya kuzungumza na kompyuta kwa uhuru, kama mashujaa wa A Space Odyssey walivyofanya, ni lazima tushinde matatizo kadhaa. Mashine bado si nzuri sana katika kushughulikia nuances za lugha. Mbali na hilo watu wengi bado wanajisikia vibaya kutoa amri za sauti kwa injini ya utafutaji.

Takwimu zinaonyesha kuwa wasaidizi wa sauti hutumiwa hasa nyumbani au kati ya marafiki wa karibu. Hakuna hata mmoja wa wale waliohojiwa aliyekiri kutumia utafutaji wa sauti katika maeneo ya umma. Walakini, kizuizi hiki kinaweza kutoweka na kuenea kwa teknolojia hii.

swali gumu kitaalam

Tatizo ambalo mifumo (ASR) inakabiliwa nayo ni kutoa data muhimu kutoka kwa ishara ya hotuba na kuihusisha na neno fulani ambalo lina maana fulani kwa mtu. Sauti zinazotolewa ni tofauti kila wakati.

Tofauti ya ishara ya usemi ni mali yake ya asili, shukrani ambayo sisi, kwa mfano, tunatambua lafudhi au lafudhi. Kila kipengele cha mfumo wa utambuzi wa hotuba kina kazi maalum. Kulingana na ishara iliyosindika na vigezo vyake, mfano wa acoustic huundwa, unaohusishwa na mfano wa lugha. Mfumo wa utambuzi unaweza kufanya kazi kwa misingi ya idadi ndogo au kubwa ya mifumo, ambayo huamua ukubwa wa msamiati ambao hufanya kazi. Wanaweza kuwa kamusi ndogo katika kesi ya mifumo inayotambua maneno au amri za mtu binafsi, na pia hifadhidata kubwa zenye usawa wa lugha seti na kwa kuzingatia modeli ya lugha (sarufi).

Matatizo yanayokabiliwa na violesura vya sauti hapo kwanza kuelewa hotuba kwa usahihi, ambamo, kwa mfano, mfuatano mzima wa kisarufi mara nyingi huachwa, makosa ya kiisimu na kifonetiki, makosa, upungufu, kasoro za usemi, homonimu, marudio yasiyohalalishwa, n.k.. Mifumo hii yote ya ACP lazima ifanye kazi haraka na kwa uhakika. Angalau hayo ni matarajio.

Chanzo cha matatizo pia ni ishara za acoustic isipokuwa hotuba inayotambuliwa ambayo huingia kwenye pembejeo ya mfumo wa utambuzi, i.e. kila aina kuingiliwa na kelele. Katika kesi rahisi, unahitaji chuja nje. Kazi hii inaonekana ya kawaida na rahisi - baada ya yote, ishara mbalimbali zinachujwa na kila mhandisi wa umeme anajua nini cha kufanya katika hali hiyo. Walakini, hii lazima ifanyike kwa uangalifu na kwa uangalifu ikiwa matokeo ya utambuzi wa usemi ni kukidhi matarajio yetu.

Uchujaji unaotumiwa sasa hufanya iwezekanavyo kuondoa, pamoja na ishara ya hotuba, kelele ya nje iliyochukuliwa na kipaza sauti na mali ya ndani ya ishara ya hotuba yenyewe, ambayo inafanya kuwa vigumu kuitambua. Hata hivyo, tatizo ngumu zaidi la kiufundi hutokea wakati kuingiliwa kwa ishara ya hotuba iliyochambuliwa ni ... ishara nyingine ya hotuba, yaani, kwa mfano, majadiliano makubwa karibu. Swali hili linajulikana katika fasihi kama kinachojulikana kama . Hii tayari inahitaji matumizi ya njia ngumu, kinachojulikana. deconvolution (kufungua) ishara.

Shida za utambuzi wa usemi haziishii hapo. Inafaa kufahamu kuwa hotuba hubeba aina nyingi tofauti za habari. Sauti ya mwanadamu inaonyesha jinsia, umri, wahusika tofauti wa mmiliki au hali ya afya yake. Kuna idara pana ya uhandisi wa biomedical inayohusika na utambuzi wa magonjwa anuwai kulingana na tabia ya matukio ya akustisk inayopatikana katika ishara ya hotuba.

Pia kuna programu ambapo dhumuni kuu la uchanganuzi wa sauti wa mawimbi ya usemi ni kutambua mzungumzaji au kuthibitisha kuwa yeye ndiye anayedai kuwa (sauti badala ya ufunguo, nenosiri au msimbo wa PUK). Hii inaweza kuwa muhimu, haswa kwa teknolojia mahiri za ujenzi.

Sehemu ya kwanza ya mfumo wa utambuzi wa hotuba ni kipaza sauti. Walakini, ishara iliyochukuliwa na kipaza sauti kawaida hubaki ya matumizi kidogo. Uchunguzi unaonyesha kwamba sura na mwendo wa wimbi la sauti hutofautiana sana kulingana na mtu, kasi ya hotuba, na kwa kiasi fulani hali ya interlocutor - wakati kwa kiasi kidogo huonyesha maudhui ya amri zinazozungumzwa.

Kwa hiyo, ishara lazima ifanyike kwa usahihi. Acoustic za kisasa, fonetiki na sayansi ya kompyuta kwa pamoja hutoa seti tajiri ya zana zinazoweza kutumika kuchakata, kuchanganua, kutambua na kuelewa ishara ya usemi. Wigo wa nguvu wa ishara, kinachojulikana spectrogram zenye nguvu. Ni rahisi kuzipata, na usemi unaowasilishwa katika mfumo wa taswira inayobadilika ni rahisi kutambua kwa kutumia mbinu zinazofanana na zile zinazotumiwa katika utambuzi wa picha.

Vipengele rahisi vya hotuba (kwa mfano, amri) vinaweza kutambuliwa na kufanana rahisi kwa spectrograms nzima. Kwa mfano, kamusi ya simu ya rununu iliyoamilishwa kwa sauti ina maneno na vifungu vya maneno machache tu hadi mia chache, kwa kawaida huwa yamewekwa awali ili viweze kutambuliwa kwa urahisi na kwa ufanisi. Hii inatosha kwa kazi rahisi za udhibiti, lakini inapunguza sana matumizi ya jumla. Mifumo iliyojengwa kulingana na mpango, kama sheria, inasaidia tu spika maalum ambazo sauti zimefunzwa maalum. Kwa hivyo ikiwa kuna mtu mpya ambaye anataka kutumia sauti yake kudhibiti mfumo, kuna uwezekano mkubwa hatakubaliwa.

Matokeo ya operesheni hii inaitwa spectrogramu 2-W, yaani, wigo wa pande mbili. Kuna shughuli moja zaidi katika kizuizi hiki ambayo inafaa kuzingatia - mgawanyiko. Kwa ujumla, tunazungumza juu ya kuvunja ishara ya hotuba inayoendelea katika sehemu ambazo zinaweza kutambuliwa tofauti. Ni kutokana na uchunguzi huu wa mtu binafsi tu kwamba utambuzi wa yote unafanywa. Utaratibu huu ni muhimu kwa sababu haiwezekani kutambua hotuba ndefu na ngumu kwa wakati mmoja. Kiasi kizima tayari kimeandikwa juu ya ni sehemu gani za kutofautisha katika ishara ya hotuba, kwa hivyo hatutaamua sasa ikiwa sehemu zinazotofautishwa ziwe fonimu (sauti sawa), silabi, au labda alofoni.

Mchakato wa utambuzi wa kiotomatiki daima unarejelea baadhi ya vipengele vya vitu. Mamia ya seti za vigezo tofauti zimejaribiwa kwa ishara ya usemi. Ishara ya usemi ina imegawanywa katika viunzi vinavyotambulika na kuwa na vipengele vilivyochaguliwaambapo muafaka huu unawasilishwa katika mchakato wa utambuzi, tunaweza kutekeleza (kwa kila fremu kando) uainishaji, i.e. ikikabidhi kitambulisho kwa fremu, ambayo itawakilisha katika siku zijazo.

Hatua inayofuata mkusanyiko wa muafaka katika maneno tofauti - mara nyingi kulingana na kinachojulikana. mfano wa mifano ya Markov isiyo wazi (HMM-). Kisha inakuja montage ya maneno sentensi kamili.

Sasa tunaweza kurudi kwenye mfumo wa Alexa kwa muda. Mfano wake unaonyesha mchakato wa hatua nyingi wa "uelewa" wa mashine ya mtu - kwa usahihi: amri iliyotolewa na yeye au swali lililoulizwa.

Kuelewa maneno, kuelewa maana, na kuelewa dhamira ya mtumiaji ni vitu tofauti kabisa.

Kwa hiyo, hatua inayofuata ni kazi ya moduli ya NLP (), kazi ambayo ni utambuzi wa dhamira ya mtumiaji, i.e. maana ya amri/swali katika mazingira ambayo lilitamkwa. Ikiwa nia imetambuliwa, basi mgawo wa kinachojulikana ujuzi na uwezo, yaani kipengele mahususi kinachotumika na msaidizi mahiri. Katika kesi ya swali kuhusu hali ya hewa, vyanzo vya data ya hali ya hewa huitwa, ambayo inabakia kusindika kuwa hotuba (TTS - utaratibu). Matokeo yake, mtumiaji husikia jibu la swali lililoulizwa.

Sauti? Sanaa za picha? Au labda zote mbili?

Mifumo inayojulikana zaidi ya mwingiliano wa kisasa inategemea mpatanishi anayeitwa kiolesura cha picha cha mtumiaji (kiolesura cha picha). Kwa bahati mbaya, GUI sio njia dhahiri zaidi ya kuingiliana na bidhaa ya dijiti. Hii inahitaji kwamba watumiaji kwanza wajifunze jinsi ya kutumia kiolesura na kukumbuka maelezo haya kwa kila mwingiliano unaofuata. Katika hali nyingi, sauti ni rahisi zaidi, kwa sababu unaweza kuingiliana na VUI kwa kuzungumza na kifaa. Kiolesura ambacho hakiwalazimishi watumiaji kukariri na kukariri amri fulani au mbinu za mwingiliano husababisha matatizo machache.

Bila shaka, upanuzi wa VUI haimaanishi kuachana na miingiliano ya kitamaduni zaidi - badala yake, miingiliano ya mseto itapatikana ambayo inachanganya njia kadhaa za kuingiliana.

Kiolesura cha sauti hakifai kwa kazi zote katika muktadha wa simu ya mkononi. Pamoja nayo, tutamwita rafiki anayeendesha gari, na hata kumtuma SMS, lakini kuangalia uhamisho wa hivi karibuni inaweza kuwa vigumu sana - kutokana na kiasi cha habari zinazopitishwa kwenye mfumo () na zinazozalishwa na mfumo (mfumo). Kama Rachel Hinman anavyopendekeza katika kitabu chake Mobile Frontier, kutumia VUI kunakuwa na ufanisi zaidi wakati wa kufanya kazi ambapo kiasi cha taarifa ya ingizo na matokeo ni kidogo.

Simu mahiri iliyounganishwa kwenye Mtandao ni rahisi lakini pia haifai (9). Kila wakati mtumiaji anataka kununua kitu au kutumia huduma mpya, atalazimika kupakua programu nyingine na kuunda akaunti mpya. Sehemu ya matumizi na ukuzaji wa violesura vya sauti imeundwa hapa. Badala ya kulazimisha watumiaji kusakinisha programu nyingi tofauti au kuunda akaunti tofauti kwa kila huduma, wataalam wanasema VUI itahamisha mzigo wa kazi hizi ngumu hadi kwa msaidizi wa sauti anayeendeshwa na AI. Itakuwa rahisi kwake kufanya shughuli ngumu. Tutampa amri tu.

9. Kiolesura cha sauti kupitia simu mahiri

Leo, zaidi ya simu na kompyuta zimeunganishwa kwenye Mtandao. Vidhibiti vya halijoto mahiri, taa, kettles na vifaa vingine vingi vilivyounganishwa vya IoT pia vimeunganishwa kwenye mtandao (10). Kwa hivyo, kuna vifaa visivyotumia waya vinavyotuzunguka ambavyo vinajaza maisha yetu, lakini si vyote vinavyofaa katika kiolesura cha picha cha mtumiaji. Kutumia VUI itakusaidia kuwaunganisha kwa urahisi katika mazingira yetu.

10. Muunganisho wa sauti na Mtandao wa Mambo

Kuunda kiolesura cha mtumiaji wa sauti hivi karibuni kutakuwa ustadi muhimu wa mbunifu. Hili ni tatizo la kweli - haja ya kutekeleza mifumo ya sauti itakuhimiza kuzingatia zaidi juu ya muundo wa makini, yaani, kujaribu kuelewa nia ya awali ya mtumiaji, kutarajia mahitaji na matarajio yao katika kila hatua ya mazungumzo.

Sauti ni njia bora ya kuingiza data-huruhusu watumiaji kutoa amri kwa mfumo haraka kwa masharti yao wenyewe. Kwa upande mwingine, skrini hutoa njia ya ufanisi ya kuonyesha habari: inaruhusu mifumo ya kuonyesha kiasi kikubwa cha habari kwa wakati mmoja, kupunguza mzigo kwenye kumbukumbu ya watumiaji. Ni jambo la busara kwamba kuzichanganya katika mfumo mmoja kunasikika kuwa za kutia moyo.

Spika mahiri kama Amazon Echo na Google Home hazitoi onyesho hata kidogo. Kuboresha kwa kiasi kikubwa usahihi wa utambuzi wa sauti kwa umbali wa wastani, huruhusu uendeshaji usio na mikono, ambayo kwa hiyo huongeza kubadilika kwao na ufanisi - ni ya kuhitajika hata kwa watumiaji ambao tayari wana simu mahiri na udhibiti wa sauti. Walakini, ukosefu wa skrini ni kizuizi kikubwa.

Milio pekee ndiyo inaweza kutumika kuwafahamisha watumiaji kuhusu amri zinazowezekana, na kusoma matokeo kwa sauti kunachosha isipokuwa kwa kazi za kimsingi zaidi. Kuweka kipima muda kwa kutumia amri ya sauti wakati wa kupika ni vizuri, lakini si lazima kukufanya uulize ni muda gani umesalia. Kupata utabiri wa hali ya hewa wa kawaida huwa jaribio la kumbukumbu kwa mtumiaji, ambaye anapaswa kusikiliza na kuchukua mfululizo wa ukweli wiki nzima, badala ya kuzichukua kutoka skrini kwa mtazamo.

wabunifu tayari suluhisho la mseto, Echo Show (11), ambayo iliongeza skrini ya kuonyesha kwenye kipaza sauti mahiri cha Echo. Hii inapanua sana utendaji wa vifaa. Walakini, Echo Show bado haina uwezo wa kufanya kazi za kimsingi ambazo zimekuwa zinapatikana kwa muda mrefu kwenye simu mahiri na kompyuta kibao. Haiwezi (bado) kuvinjari wavuti, kuonyesha hakiki, au kuonyesha yaliyomo kwenye toroli ya ununuzi ya Amazon, kwa mfano.

Onyesho la taswira ni njia mwafaka zaidi ya kuwapa watu habari nyingi kuliko sauti tu. Kubuni kwa kipaumbele cha sauti kunaweza kuboresha pakubwa mwingiliano wa sauti, lakini hatimaye, kutotumia kiholela menyu ya kuona kwa ajili ya maingiliano itakuwa kama kupigana ukiwa umefungwa mkono mmoja nyuma yako. Kwa sababu ya uchangamano unaokuja wa violesura vya sauti na onyesho mahiri kutoka mwisho hadi mwisho, wasanidi programu wanapaswa kuzingatia kwa umakini mbinu mseto ya violesura.

Kuongeza ufanisi na kasi ya uzalishaji wa hotuba na mifumo ya utambuzi imefanya iwezekane kuzitumia katika matumizi na maeneo kama vile, kwa mfano:

• kijeshi (amri za sauti katika ndege au helikopta, kwa mfano, F16 VISTA),

• unukuzi wa maandishi otomatiki (hotuba hadi maandishi),

• mifumo ya habari inayoingiliana (Hotuba kuu, milango ya sauti),

• vifaa vya rununu (simu, simu mahiri, kompyuta za mkononi),

• roboti (Mifumo ya Cleverbot - ASR iliyochanganywa na akili bandia),

• gari (udhibiti bila mikono wa vijenzi vya gari, kama vile Blue & Me),

• maombi ya nyumbani (mifumo mahiri ya nyumbani).

Jihadharini na usalama!

Magari, vifaa vya nyumbani, mifumo ya joto/ubaridi na usalama wa nyumbani, na vifaa vingi vya nyumbani vinaanza kutumia violesura vya sauti, mara nyingi vinavyotegemea AI. Katika hatua hii, data iliyopatikana kutoka kwa mamilioni ya mazungumzo na mashine inatumwa kwa mawingu ya kompyuta. Ni wazi kwamba wauzaji wanavutiwa nao. Na si wao tu.

Ripoti ya hivi majuzi kutoka kwa wataalamu wa usalama wa Symantec inapendekeza kwamba watumiaji wa amri ya sauti wasidhibiti vipengele vya usalama kama vile kufuli za milango, achilia mbali mifumo ya usalama ya nyumbani. Vile vile huenda kwa kuhifadhi nywila au maelezo ya siri. Usalama wa akili bandia na bidhaa mahiri bado haujasomwa vya kutosha.

Wakati vifaa kote nyumbani vinasikiliza kila neno, hatari ya udukuzi wa mfumo na matumizi mabaya huwa wasiwasi mkubwa. Mshambulizi akipata ufikiaji wa mtandao wa ndani au anwani zake za barua pepe zinazohusiana, mipangilio ya kifaa mahiri inaweza kubadilishwa au kuwekwa upya kwa mipangilio ya kiwandani, jambo ambalo litasababisha upotevu wa taarifa muhimu na kufutwa kwa historia ya mtumiaji.

Kwa maneno mengine, wataalamu wa usalama wanaogopa kwamba AI na VUI zinazoendeshwa kwa sauti bado hazina akili za kutosha kutulinda dhidi ya vitisho vinavyoweza kutokea na kutufunga midomo mtu asiyemfahamu anapouliza kitu.

Kuongeza maoni