Število aplikacij in pomen glasovnih vmesnikov strmo narašča

Vsebina

velika štiri
Američani želijo kupiti
Operite, pecite, očistite!
Star koncept. Je končno prišel njen čas?
tehnično težko vprašanje
Glas? Grafična umetnost? Ali pa morda oboje?
Pazite na varnost!

Ameriška družina v Portlandu v Oregonu je pred kratkim izvedela, da je Alexov glasovni pomočnik posnel njihove zasebne klepete in jih poslal prijatelju. Lastnica hiše, ki so jo mediji poimenovali Danielle, je novinarjem povedala, da "te naprave ne bo nikoli več vklopila, ker ji ni mogoče zaupati."

Alexa, ki ga zagotavljajo zvočniki Echo (1) in drugi pripomočki v desetinah milijonov ameriških domov, začne snemati, ko zasliši svoje ime ali "klicno besedo", ki jo izgovori uporabnik. To pomeni, da tudi če je v televizijskem oglasu omenjena beseda "Alexa", lahko naprava začne snemati. Prav to se je zgodilo v tem primeru, pravi Amazon, distributer strojne opreme.

"Preostali del pogovora je glasovni pomočnik interpretiral kot ukaz za pošiljanje sporočila," so sporočili iz podjetja. "V nekem trenutku je Alexa glasno vprašala: "Komu?" Nadaljevanje družinskega pogovora o parketu bi moral stroj dojemati kot točko na strankinem seznamu stikov.« Vsaj tako meni Amazon. Tako je prevod reduciran na vrsto nesreč.

Anksioznost pa ostaja. Ker iz nekega razloga moramo v hiši, kjer smo se še vedno počutili sproščeno, vstopiti v nekakšen »glasovni način«, gledati, kaj govorimo, kaj oddaja televizija in seveda, kaj je ta novi zvočnik na prsih predali pravi . nas.

Vendar pa Kljub tehnološkim nepopolnostim in pomislekom glede zasebnosti, z naraščanjem priljubljenosti naprav, kot je Amazon Echo, se ljudje začenjajo navaditi na zamisel o interakciji z računalniki z uporabo svojega glasu..

Kot je Werner Vogels, tehnični direktor Amazona, poudaril na svoji seji AWS re:Invent konec leta 2017, je tehnologija doslej omejila našo zmožnost interakcije z računalniki. Ključne besede v Google vnašamo s tipkovnico, saj je to še vedno najpogostejši in najpreprostejši način vnosa informacij v stroj.

je rekel Vogels. -

velika štiri

Pri uporabi Googlovega iskalnika na telefonu smo verjetno že zdavnaj opazili znak mikrofona s pozivom k govoru. tole Google zdaj (2), ki se lahko uporablja za narekovanje iskalne poizvedbe, glasovno vnos sporočila itd. V zadnjih letih so se Google, Apple in Amazon močno izboljšali tehnologija za prepoznavanje glasu. Glasovni pomočniki, kot so Alexa, Siri in Google Assistant, ne snemajo samo vašega glasu, ampak tudi razumejo, kaj jim rečete, in odgovarjajo na vprašanja.

Asistent Google je brezplačno na voljo vsem uporabnikom Androida. Aplikacija lahko na primer nastavi alarm, preveri vremensko napoved in preveri pot na Google zemljevidih. Pogovorna razširitev stanja Google Now Google Assistant () – virtualna pomoč uporabniku opreme. Na voljo je predvsem na mobilnih in pametnih domačih napravah. Za razliko od Google Now lahko sodeluje v dvosmerni izmenjavi. Pomočnik je debitiral maja 2016 kot del Googlove aplikacije za sporočanje Allo, pa tudi v glasovnem zvočniku Google Home (3).

3. Google Home

Sistem IOS ima tudi svojega virtualnega pomočnika, Siri, ki je program, vključen v Applove operacijske sisteme iOS, watchOS, tvOS homepod in macOS. Siri je z iOS 5 in iPhone 4s debitiral oktobra 2011 na konferenci Let's Talk iPhone.

Programska oprema temelji na pogovornem vmesniku: prepoznava naravni govor uporabnika (pri iOS 11 je možno tudi ročno vnašati ukaze), odgovarja na vprašanja in opravlja naloge. Zahvaljujoč uvedbi strojnega učenja, pomočnik skozi čas analizira osebne preference uporabniku zagotovi ustreznejše rezultate in priporočila. Siri zahteva stalno internetno povezavo - glavna vira informacij tukaj sta Bing in Wolfram Alpha. iOS 10 je predstavil podporo za razširitve tretjih oseb.

Še ena izmed velikih štirih Cortana. Gre za inteligentnega osebnega pomočnika, ki ga je ustvaril Microsoft. Podprt je na platformah Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android in iOS. Cortana je bila prvič predstavljena na Microsoft Build Developer Conference aprila 2014 v San Franciscu. Ime programa izhaja iz imena lika iz serije iger Halo. Cortana je na voljo v angleščini, italijanščini, španščini, francoščini, nemščini, kitajščini in japonščini.

Uporabniki že omenjenega programa Alexa upoštevati morajo tudi jezikovne omejitve – digitalni pomočnik govori samo angleško, nemško, francosko in japonsko.

Amazon Virtual Assistant je bil prvič uporabljen v pametnih zvočnikih Amazon Echo in Amazon Echo Dot, ki jih je razvil Amazon Lab126. Omogoča glasovno interakcijo, predvajanje glasbe, ustvarjanje seznama opravil, nastavitev alarma, pretakanje podcastov, predvajanje zvočnih knjig in informacije o vremenu, prometu, športu in drugih novicah v realnem času, kot so novice (4). Alexa lahko nadzoruje več pametnih naprav za ustvarjanje sistema za avtomatizacijo doma. Uporabite ga lahko tudi za priročno nakupovanje v trgovini Amazon.

4. Za kaj uporabniki uporabljajo Echo (glede na raziskave)

Uporabniki lahko izboljšajo izkušnjo Alexa z namestitvijo Alexa "skills" (), dodatnih funkcij, ki so jih razvile tretje osebe, ki jih v drugih nastavitvah pogosteje imenujemo aplikacije, kot so vremenski in zvočni programi. Večina naprav Alexa vam omogoča, da aktivirate svojega virtualnega pomočnika z geslom za prebujanje, imenovanim .

Danes Amazon zagotovo prevladuje na trgu pametnih zvočnikov (5). IBM, ki je marca 2018 predstavil novo storitev, se skuša uvrstiti med najboljše štiri Watsonov pomočnik, zasnovan za podjetja, ki želijo ustvariti lastne sisteme virtualnih pomočnikov z glasovnim upravljanjem. Kakšna je prednost rešitve IBM? Kot pravijo predstavniki podjetja, najprej o veliko večjih možnostih za personalizacijo in varovanje zasebnosti.

Prvič, Watson Assistant ni blagovne znamke. Podjetja lahko na tej platformi ustvarijo svoje rešitve in jih označijo z lastno blagovno znamko.

Drugič, lahko usposobijo svoje podporne sisteme z uporabo lastnih podatkovnih nizov, za katere IBM pravi, da olajša dodajanje funkcij in ukazov temu sistemu kot druge tehnologije VUI (glasovni uporabniški vmesnik).

Tretjič, Watson Assistant IBM-u ne posreduje informacij o dejavnosti uporabnikov - razvijalci rešitev na platformi lahko hranijo le dragocene podatke zase. Medtem bi se morali vsi, ki gradijo naprave, na primer z Alexo, zavedati, da bodo njihovi dragoceni podatki končali na Amazonu.

Watson Assistant ima že več implementacij. Sistem je na primer uporabil Harman, ki je ustvaril glasovnega pomočnika za konceptni avtomobil Maserati (6). Na letališču v Münchnu IBM-ov pomočnik poganja robota Pepper, ki potnikom pomaga pri premikanju. Tretji primer je Chameleon Technologies, kjer je glasovna tehnologija uporabljena v pametnem domačem merilniku.

6. Watsonov pomočnik v konceptnem avtomobilu Maserati

Velja dodati, da osnovna tehnologija tukaj tudi ni nova. Watson Assistant vključuje zmožnosti šifriranja za obstoječe izdelke IBM, Watson Conversation in Watson Virtual Agent ter API-je za analizo jezika in klepet.

Amazon ni le vodilni na področju pametne glasovne tehnologije, ampak jo spreminja v neposreden posel. Vendar so nekatera podjetja eksperimentirala z integracijo Echo že veliko prej. Sisense, podjetje v BI in analitiki, je julija 2016 predstavilo integracijo Echo. Po drugi strani se je startup Roxy odločil ustvariti lastno glasovno vodeno programsko in strojno opremo za gostinsko industrijo. V začetku tega leta je Synqq predstavil aplikacijo za beleženje, ki uporablja glasovno obdelavo in obdelavo naravnega jezika za dodajanje zapiskov in koledarskih vpisov, ne da bi jih bilo treba vnašati na tipkovnico.

Vsa ta mala podjetja imajo visoke ambicije. Predvsem pa so izvedeli, da ne želi vsak uporabnik svojih podatkov prenesti na Amazon, Google, Apple ali Microsoft, ki so najpomembnejši akterji pri gradnji platform za glasovno komunikacijo.

Američani želijo kupiti

Leta 2016 je glasovno iskanje predstavljalo 20 % vseh Googlovih mobilnih iskanj. Ljudje, ki to tehnologijo uporabljajo vsakodnevno, med njenimi največjimi prednostmi navajajo njeno priročnost in večopravilnost. (na primer možnost uporabe iskalnika med vožnjo avtomobila).

Analitiki Visiongaina trenutno tržno vrednost pametnih digitalnih pomočnikov ocenjujejo na 1,138 milijarde dolarjev.Takšnih mehanizmov je vedno več. Po Gartnerjevih podatkih že do konca leta 2018 30 % naših interakcij s tehnologijo bo prek pogovorov z glasovnimi sistemi.

Britansko raziskovalno podjetje IHS Markit ocenjuje, da bo trg digitalnih pomočnikov, ki jih poganja umetna inteligenca, do konca tega leta dosegel 4 milijarde naprav, do leta 2020 pa bi to število naraslo na 7 milijard.

Po poročilih eMarketerja in VoiceLabsa je leta 2017 35,6 milijona Američanov uporabljalo glasovno upravljanje vsaj enkrat na mesec. To pomeni skoraj 130-odstotno povečanje v primerjavi s prejšnjim letom. Samo trg digitalnih pomočnikov naj bi narasel do leta 2018 v 23. To pomeni, da jih boste že uporabljali. 60,5 milijona Američanov, kar bo imelo za posledico konkreten denar za njihove proizvajalce. RBC Capital Markets ocenjuje, da bo vmesnik Alexa do leta 2020 ustvaril do 10 milijard dolarjev prihodkov za Amazon.

Operite, pecite, očistite!

Glasovni vmesniki vse bolj pogumno vstopajo na trge gospodinjskih aparatov in zabavne elektronike. To je bilo mogoče videti že med lansko razstavo IFA 2017. Ameriško podjetje Neato Robotics je denimo predstavilo robotski sesalnik, ki se poveže z eno od več platform za pametni dom, vključno s sistemom Amazon Echo. Če se pogovarjate s pametnim zvočnikom Echo, lahko stroju naročite, da očisti vašo celotno hišo ob določenih urah dneva ali noči.

Na razstavi so bili predstavljeni tudi drugi glasovno aktivirani izdelki, od pametnih televizorjev, ki jih pod blagovno znamko Toshiba prodaja turško podjetje Vestel, do ogrevanih odej nemškega podjetja Beurer. Veliko teh elektronskih naprav je mogoče aktivirati tudi na daljavo s pametnimi telefoni.

Vendar je po besedah predstavnikov Boscha še prezgodaj govoriti, katera od možnosti domačih pomočnikov bo postala prevladujoča. Na IFA 2017 je nemška tehnična skupina predstavila pralne stroje (7), pečice in aparate za kavo, ki se povezujejo z Echo. Bosch si prav tako želi, da bi bile njegove naprave v prihodnosti združljive z glasovnimi platformami Google in Apple.

7. Bosch pralni stroj, ki se poveže z Amazon Echo

Podjetja, kot so Fujitsu, Sony in Panasonic, razvijajo lastne rešitve glasovnega pomočnika, ki temeljijo na umetni inteligenci. Sharp to tehnologijo dodaja pečicam in majhnim robotom, ki vstopajo na trg. Nippon Telegraph & Telephone najame izdelovalce strojne opreme in igrač, da prilagodijo glasovno voden sistem umetne inteligence.

Star koncept. Je končno prišel njen čas?

Dejansko koncept glasovnega uporabniškega vmesnika (VUI) obstaja že desetletja. Kdor je pred leti gledal Zvezdne steze ali 2001: Odiseja v vesolju, je verjetno pričakoval, da bomo okoli leta 2000 vsi upravljali računalnike s svojimi glasovi. Prav tako niso bili samo pisci znanstvene fantastike tisti, ki so videli potencial te vrste vmesnika. Leta 1986 so raziskovalci podjetja Nielsen vprašali strokovnjake za IT, kaj bo po njihovem mnenju največja sprememba uporabniških vmesnikov do leta 2000. Najpogosteje so opozarjali na razvoj glasovnih vmesnikov.

Obstajajo razlogi za upanje na takšno rešitev. Verbalna komunikacija je navsezadnje najbolj naraven način za ljudi za zavestno izmenjavo misli, zato se zdi, da je uporaba za interakcijo človek-stroj najboljša rešitev doslej.

Eden prvih VUI-jev, imenovan škatla za čevlje, je v zgodnjih 60. letih prejšnjega stoletja ustvaril IBM. Bil je predhodnik današnjih sistemov za prepoznavanje glasu. Vendar je bil razvoj naprav VUI omejen z mejami računalniške moči. Razčlenitev in razlaga človeškega govora v realnem času zahteva veliko truda in trajalo je več kot petdeset let, da smo prišli do točke, ko je to dejansko postalo mogoče.

Naprave z glasovnim vmesnikom so se začele pojavljati v množični proizvodnji sredi 90-ih, vendar niso pridobile priljubljenosti. Prvi telefon z glasovnim upravljanjem (klicanje) je bil Philips Sparkizdano leta 1996. Vendar pa ta inovativna naprava, ki je enostavna za uporabo, ni bila brez tehnoloških omejitev.

Drugi telefoni, opremljeni z oblikami glasovnega vmesnika (ki so jih ustvarila podjetja, kot so RIM, Samsung ali Motorola), redno prihajajo na trg, kar uporabnikom omogoča glasovno klicanje ali pošiljanje besedilnih sporočil. Vse pa so si zahtevale zapomniti določene ukaze in jih izgovarjati v prisiljeni, umetni obliki, prilagojeni zmožnostim takratnih naprav. To je povzročilo veliko število napak, kar pa je povzročilo nezadovoljstvo uporabnikov.

Vendar pa zdaj vstopamo v novo obdobje računalništva, v katerem napredek v strojnem učenju in umetni inteligenci odkleneta potencial pogovora kot novega načina interakcije s tehnologijo (8). Število naprav, ki podpirajo glasovno interakcijo, je postalo pomemben dejavnik, ki je močno vplival na razvoj VUI. Danes ima skoraj 1/3 svetovnega prebivalstva že pametne telefone, ki jih je mogoče uporabiti za tovrstno vedenje. Videti je, da je večina uporabnikov končno pripravljena prilagoditi svoje glasovne vmesnike.

8. Sodobna zgodovina razvoja glasovnega vmesnika

Preden pa se lahko prosto pogovarjamo z računalnikom, kot so to storili junaki Vesoljske odiseje, moramo premagati številne težave. Stroji še vedno niso zelo dobri pri obvladovanju jezikovnih odtenkov. Poleg tega mnogi ljudje se še vedno počutijo neprijetno dajati glasovne ukaze iskalniku.

Statistični podatki kažejo, da se glasovni pomočniki uporabljajo predvsem doma ali med bližnjimi prijatelji. Nobeden od intervjuvanih ni priznal, da bi uporabljal glasovno iskanje na javnih mestih. Vendar pa bo ta blokada verjetno izginila s širjenjem te tehnologije.

tehnično težko vprašanje

Problem, s katerim se soočajo sistemi (ASR), je izluščiti uporabne podatke iz govornega signala in jih povezati z določeno besedo, ki ima za človeka določen pomen. Ustvarjeni zvoki so vsakič drugačni.

Spremenljivost govornega signala je njegova naravna lastnost, zahvaljujoč kateri na primer prepoznamo naglas ali intonacijo. Vsak element sistema za prepoznavanje govora ima določeno nalogo. Na podlagi obdelanega signala in njegovih parametrov se izdela akustični model, ki je povezan z jezikovnim modelom. Sistem za prepoznavanje lahko deluje na podlagi majhnega ali velikega števila vzorcev, kar določa velikost besedišča, s katerim deluje. Morda so majhni slovarji v primeru sistemov, ki prepoznajo posamezne besede ali ukaze, pa tudi velike baze podatkov ki vsebuje ekvivalent jezikovnega niza in upošteva jezikovni model (slovnico).

Težave, s katerimi se soočajo predvsem glasovni vmesniki pravilno razumeti govor, pri katerem so na primer pogosto izpuščena celotna slovnična zaporedja, pojavljajo se jezikovne in fonetične napake, napake, opustitve, govorne napake, homonimi, neupravičena ponavljanja itd. Vsi ti sistemi ACP morajo delovati hitro in zanesljivo. Vsaj taka so pričakovanja.

Vir težav so tudi zvočni signali, razen prepoznanega govora, ki vstopajo na vhod sistema za prepoznavanje, t.j. vse vrste motnje in hrup. V najpreprostejšem primeru jih potrebujete filtrirati. Ta naloga se zdi rutinska in lahka – navsezadnje se različni signali filtrirajo in vsak elektronik ve, kaj storiti v takšni situaciji. Vendar je treba to narediti zelo previdno in previdno, če naj rezultat prepoznavanja govora izpolni naša pričakovanja.

Trenutno uporabljeno filtriranje omogoča, da skupaj z govornim signalom odstranimo zunanji šum, ki ga zajame mikrofon, in notranje lastnosti samega govornega signala, zaradi česar ga je težko prepoznati. Veliko bolj kompleksen tehnični problem pa nastane, ko je motnja v analiziranem govornem signalu ... drug govorni signal, to je na primer glasne razprave naokoli. To vprašanje je v literaturi znano kot ti. Že to zahteva uporabo kompleksnih metod, t.i. dekonvolucija (razpletanje) signala.

Težave s prepoznavanjem govora se tu ne končajo. Zavedati se je treba, da govor nosi veliko različnih vrst informacij. Človeški glas nakazuje spol, starost, različne lastnosti lastnika ali njegovo zdravstveno stanje. Obstaja obsežen oddelek za biomedicinsko tehniko, ki se ukvarja z diagnostiko različnih bolezni na podlagi značilnih akustičnih pojavov, ki jih najdemo v govornem signalu.

Obstajajo tudi aplikacije, pri katerih je glavni namen akustične analize govornega signala identificirati govorca ali preveriti, ali je to, za katerega trdi, da je (glas namesto ključa, gesla ali kode PUK). To je lahko pomembno, zlasti za pametne gradbene tehnologije.

Prva komponenta sistema za prepoznavanje govora je mikrofon. Vendar signal, ki ga zajame mikrofon, običajno ostane malo uporaben. Študije kažejo, da se oblika in potek zvočnega vala močno razlikujeta glede na osebo, hitrost govora, deloma pa tudi razpoloženje sogovornika – v manjši meri pa odražata samo vsebino izgovorjenih ukazov.

Zato je treba signal pravilno obdelati. Sodobna akustika, fonetika in računalništvo skupaj zagotavljajo bogat nabor orodij, ki jih je mogoče uporabiti za obdelavo, analizo, prepoznavanje in razumevanje govornega signala. Dinamični spekter signala, ti dinamični spektrogrami. Pridobiti jih je dokaj enostavno, govor, predstavljen v obliki dinamičnega spektrograma, pa je relativno enostavno prepoznati s tehnikami, podobnimi tistim, ki se uporabljajo pri prepoznavanju slik.

Preproste elemente govora (na primer ukaze) je mogoče prepoznati po preprosti podobnosti celotnih spektrogramov. Na primer, glasovno aktiviran slovar mobilnega telefona vsebuje le nekaj deset do nekaj sto besed in besednih zvez, običajno vnaprej zloženih, tako da jih je mogoče enostavno in učinkovito prepoznati. To zadostuje za preprosta nadzorna opravila, vendar močno omejuje celotno aplikacijo. Sistemi, zgrajeni po shemi, praviloma podpirajo samo določene zvočnike, za katere so glasovi posebej usposobljeni. Torej, če je nekdo nov, ki želi uporabiti svoj glas za nadzor sistema, najverjetneje ne bo sprejet.

Rezultat te operacije se imenuje 2-W spektrogram, torej dvodimenzionalni spekter. V tem bloku je še ena dejavnost, na katero je vredno biti pozoren - segmentacija. Na splošno govorimo o razbijanju neprekinjenega govornega signala na dele, ki jih je mogoče prepoznati ločeno. Šele iz teh posameznih diagnoz se oblikuje prepoznavanje celote. Ta postopek je potreben, ker dolgega in zapletenega govora ni mogoče identificirati naenkrat. O tem, katere segmente v govornem signalu ločiti, so že napisani celi zvezki, zato se zdaj ne bomo odločali, ali naj bodo razločeni segmenti fonemi (zvočni ustrezniki), zlogi ali morda alofoni.

Postopek samodejnega prepoznavanja se vedno nanaša na nekatere značilnosti predmetov. Za govorni signal je bilo testiranih na stotine nizov različnih parametrov. Govorni signal je razdeljen na prepoznane okvirje in imeti izbrane funkcijepri čemer so ti okvirji predstavljeni v procesu prepoznavanja, lahko izvedemo (za vsak okvir posebej) razvrstitev, tj. dodelitev identifikatorja okvirju, ki ga bo predstavljal v prihodnosti.

Naslednja faza sestavljanje okvirjev v ločene besede - največkrat temelji na t.i. model implicitnih markovskih modelov (HMM-). Potem pride na vrsto montaža besed popolne stavke.

Zdaj se lahko za trenutek vrnemo na sistem Alexa. Njegov primer prikazuje večstopenjski proces strojnega "razumevanja" človeka - natančneje: ukaz ali zastavljeno vprašanje.

Razumevanje besed, razumevanje pomena in razumevanje namena uporabnika so popolnoma različne stvari.

Zato je naslednji korak delo modula NLP (), katerega naloga je prepoznavanje namena uporabnika, tj. pomen ukaza/vprašanja v kontekstu, v katerem je bilo izrečeno. Če je namen ugotovljen, potem dodelitev tako imenovanih veščin in sposobnosti, torej posebna funkcija, ki jo podpira pametni pomočnik. V primeru vprašanja o vremenu se pokličejo viri vremenskih podatkov, ki jih je treba še obdelati v govor (TTS - mehanizem). Posledično uporabnik sliši odgovor na zastavljeno vprašanje.

Glas? Grafična umetnost? Ali pa morda oboje?

Večina znanih sodobnih interakcijskih sistemov temelji na posredniku, ki se imenuje grafični uporabniški vmesnik (grafični vmesnik). Na žalost GUI ni najbolj očiten način interakcije z digitalnim izdelkom. To zahteva, da se uporabniki najprej naučijo uporabljati vmesnik in si te informacije zapomnijo pri vsaki naslednji interakciji. V mnogih situacijah je glas veliko bolj priročen, saj lahko komunicirate z VUI preprosto tako, da govorite z napravo. Vmesnik, ki ne sili uporabnikov, da si zapomnijo in zapomnijo določene ukaze ali metode interakcije, povzroča manj težav.

Seveda pa širitev VUI ne pomeni opuščanja bolj tradicionalnih vmesnikov – na voljo bodo hibridni vmesniki, ki združujejo več načinov interakcije.

Glasovni vmesnik ni primeren za vse naloge v mobilnem kontekstu. Z njim bomo poklicali prijatelja, ki vozi avto, in mu celo poslali SMS, vendar je lahko preverjanje zadnjih nakazil pretežko - zaradi količine informacij, ki se posredujejo sistemu () in generirajo sistem (sistem). Kot predlaga Rachel Hinman v svoji knjigi Mobile Frontier, postane uporaba VUI najbolj učinkovita pri izvajanju nalog, kjer je količina vhodnih in izhodnih informacij majhna.

Pametni telefon, povezan z internetom, je priročen, a tudi neprijeten (9). Vsakič, ko želi uporabnik nekaj kupiti ali uporabiti novo storitev, mora prenesti drugo aplikacijo in ustvariti nov račun. Tu je ustvarjeno polje za uporabo in razvoj glasovnih vmesnikov. Namesto da bi prisilili uporabnike, da namestijo veliko različnih aplikacij ali ustvarijo ločene račune za vsako storitev, strokovnjaki pravijo, da bo VUI breme teh okornih nalog prestavil na glasovnega pomočnika, ki ga poganja umetna inteligenca. Zanj bo priročno opravljati naporne dejavnosti. Mi mu bomo samo ukazali.

9. Glasovni vmesnik prek pametnega telefona

Danes je z internetom povezano več kot le telefon in računalnik. V omrežje so povezani tudi pametni termostati, luči, grelniki vode in številne druge naprave, vgrajene v internet stvari (10). Tako so povsod okoli nas brezžične naprave, ki polnijo naša življenja, vendar se vse ne prilegajo naravno v grafični uporabniški vmesnik. Uporaba VUI vam bo pomagala, da jih enostavno integrirate v naše okolje.

10. Glasovni vmesnik z internetom stvari

Ustvarjanje glasovnega uporabniškega vmesnika bo kmalu postalo ključna oblikovalska veščina. To je resnična težava - potreba po implementaciji glasovnih sistemov vas bo spodbudila, da se bolj osredotočite na proaktivno zasnovo, to je, da poskušate razumeti začetne namere uporabnika, predvideti njihove potrebe in pričakovanja v vsaki fazi pogovora.

Glas je učinkovit način za vnos podatkov – omogoča uporabnikom, da sistemu hitro izdajo ukaze pod lastnimi pogoji. Po drugi strani pa zaslon zagotavlja učinkovit način za prikaz informacij: omogoča sistemom, da prikažejo veliko količino informacij hkrati, kar zmanjšuje obremenitev pomnilnika uporabnikov. Logično je, da njihovo združevanje v en sistem zveni spodbudno.

Pametni zvočniki, kot sta Amazon Echo in Google Home, sploh ne ponujajo vizualnega prikaza. Občutno izboljšajo natančnost prepoznavanja glasu na zmernih razdaljah, omogočajo prostoročno delovanje, kar posledično poveča njihovo prilagodljivost in učinkovitost – zaželeni so tudi za uporabnike, ki že imajo pametne telefone z glasovnim upravljanjem. Vendar je pomanjkanje zaslona velika omejitev.

Za obveščanje uporabnikov o možnih ukazih je mogoče uporabiti samo piske, glasno branje izpisa pa postane dolgočasno, razen pri najosnovnejših opravilih. Nastavitev časovnika z glasovnim ukazom med kuhanjem je odlična, vendar ni potrebno vprašati, koliko časa je še ostalo. Pridobivanje redne vremenske napovedi postane preizkus spomina za uporabnika, ki mora ves teden poslušati in vpijati vrsto dejstev, namesto da bi jih na prvi pogled pobral z zaslona.

Oblikovalci so že hibridna rešitev, Echo Show (11), ki je osnovnemu pametnemu zvočniku Echo dodal zaslon. To močno razširi funkcionalnost opreme. Vendar je Echo Show še vedno veliko manj sposoben opravljati osnovnih funkcij, ki so že dolgo na voljo na pametnih telefonih in tablicah. Na primer (še) ne more brskati po spletu, prikazovati ocene ali prikazovati vsebine nakupovalnega vozička Amazon.

Vizualni prikaz je sam po sebi učinkovitejši način za zagotavljanje množice informacij ljudem kot le zvok. Oblikovanje z glasovno prednostjo lahko močno izboljša glasovno interakcijo, vendar bo dolgoročno, če samovoljno ne uporabljate vizualnega menija zaradi interakcije, kot da bi se borili z eno roko, vezano za hrbtom. Zaradi grozeče kompleksnosti inteligentnih glasovnih in zaslonskih vmesnikov od konca do konca bi morali razvijalci resno razmisliti o hibridnem pristopu do vmesnikov.

Povečanje učinkovitosti in hitrosti sistemov za generiranje in prepoznavanje govora je omogočilo njihovo uporabo v takšnih aplikacijah in na področjih, kot so na primer:

• vojaški (glasovni ukazi v letalih ali helikopterjih, na primer F16 VISTA),

• samodejno prepisovanje besedila (govor v besedilo),

• interaktivni informacijski sistemi (Prime Speech, glasovni portali),

• mobilne naprave (telefoni, pametni telefoni, tablice),

• robotika (Cleverbot - sistemi ASR v kombinaciji z umetno inteligenco),

• avtomobilska (prostoročni nadzor avtomobilskih komponent, kot sta Blue & Me),

• domače aplikacije (sistemi za pametni dom).

Pazite na varnost!

Avtomobilska industrija, gospodinjski aparati, sistemi za ogrevanje/hlajenje in varnost doma ter številni gospodinjski aparati začenjajo uporabljati glasovne vmesnike, pogosto na osnovi umetne inteligence. Na tej stopnji se pošljejo podatki, pridobljeni iz milijonov pogovorov s stroji računalniški oblaki. Jasno je, da jih zanimajo tržniki. In ne samo oni.

Nedavno poročilo varnostnih strokovnjakov Symantec priporoča, da uporabniki glasovnih ukazov ne nadzorujejo varnostnih funkcij, kot so ključavnice vrat, kaj šele domači varnostni sistemi. Enako velja za shranjevanje gesel ali zaupnih podatkov. Varnost umetne inteligence in pametnih izdelkov še ni dovolj raziskana.

Ko naprave po vsem domu poslušajo vsako besedo, postane nevarnost vdora v sistem in zlorabe velika skrb. Če napadalec pridobi dostop do lokalnega omrežja ali povezanih e-poštnih naslovov, se lahko nastavitve pametne naprave spremenijo ali ponastavijo na tovarniške nastavitve, kar bo povzročilo izgubo dragocenih informacij in izbris uporabniške zgodovine.

Z drugimi besedami, varnostni strokovnjaki se bojijo, da umetna inteligenca in VUI, ki jih poganja glas, še nista dovolj pametna, da bi nas zaščitila pred morebitnimi grožnjami in zadržala jezik za zaprtimi rokami, ko neznanec nekaj vpraša.