Počet aplikací a význam hlasových rozhraní rychle roste

Obsah

velká čtyřka
Američané chtějí nakupovat
Myjte, pečte, čistěte!
Starý koncept. Přišel konečně její čas?
technicky obtížná otázka
Hlas? Grafika? Nebo možná obojí?
Pozor na bezpečnost!

Americká rodina z Portlandu v Oregonu se nedávno dozvěděla, že Alexův hlasový asistent nahrál jejich soukromé chaty a poslal je příteli. Majitelka domu, kterou média nazvala Danielle, novinářům řekla, že „to zařízení už nikdy nepřipojí, protože jí nelze věřit“.

Alexa, poskytované reproduktory Echo (1) a dalšími zařízeními v desítkách milionů domácností v USA, začne nahrávat, když zaslechne své jméno nebo „volací slovo“ vyslovené uživatelem. To znamená, že i když je v televizní reklamě uvedeno slovo „Alexa“, zařízení může začít nahrávat. Přesně to se stalo v tomto případě, říká Amazon, distributor hardwaru.

"Zbytek konverzace interpretoval hlasový asistent jako příkaz k odeslání zprávy," uvedla společnost v prohlášení. "V určitém okamžiku se Alexa hlasitě zeptala: "Komu?" Pokračování rodinné konverzace o dřevěných podlahách měl stroj vnímat jako položku na seznamu kontaktů zákazníka.“ Alespoň to si myslí Amazon. Překlad se tak redukuje na sérii nehod.

Úzkost však zůstává. Protože z nějakého důvodu, v domě, kde jsme se stále cítili dobře, musíme vstoupit do jakéhosi „hlasového režimu“, sledovat, co říkáme, co vysílá televize a samozřejmě, co tento nový reproduktor na hrudi šuplíky říká . nás.

Nicméně, Navzdory technologickým nedokonalostem a obavám o soukromí si lidé s rostoucí popularitou zařízení, jako je Amazon Echo, začínají zvykat na myšlenku interakce s počítači pomocí hlasu..

Jak poznamenal Werner Vogels, technický ředitel společnosti Amazon během své relace AWS re:Invent na konci roku 2017, technologie dosud omezovala naši schopnost interakce s počítači. Klíčová slova zadáváme do Googlu pomocí klávesnice, protože je to stále nejběžnější a nejjednodušší způsob zadávání informací do stroje.

řekl Vogels. -

velká čtyřka

Při používání vyhledávače Google v telefonu jsme si pravděpodobně již dávno všimli znaku mikrofonu s výzvou k mluvení. Tento Nyní Google (2), které lze použít k diktování vyhledávacího dotazu, zadání zprávy hlasem atd. V posledních letech se společnosti Google, Apple a Amazon výrazně zlepšily technologie rozpoznávání hlasu. Hlasoví asistenti jako Alexa, Siri a Google Assistant nejen nahrávají váš hlas, ale také rozumějí tomu, co jim říkáte, a odpovídají na otázky.

Google Now je k dispozici zdarma všem uživatelům Androidu. Aplikace umí například nastavit budík, zkontrolovat předpověď počasí a zkontrolovat trasu na Google maps. Konverzační rozšíření stavů Chytrých karet Google Asistent Google () – virtuální pomoc uživateli zařízení. Je k dispozici především na mobilních zařízeních a zařízeních pro chytrou domácnost. Na rozdíl od Google Now se může účastnit obousměrné výměny. Asistent debutoval v květnu 2016 jako součást aplikace pro zasílání zpráv Google Allo a také v hlasovém reproduktoru Google Home (3).

3. Domovská stránka Google

Systém IOS má také svého vlastního virtuálního asistenta, Siri, což je program, který je součástí operačních systémů Apple iOS, watchOS, tvOS homepod a macOS. Siri debutovala s iOS 5 a iPhone 4s v říjnu 2011 na konferenci Let's Talk iPhone.

Software je založen na konverzačním rozhraní: rozpoznává přirozenou řeč uživatele (s iOS 11 je také možné zadávat příkazy ručně), odpovídá na otázky a plní úkoly. Díky zavedení strojového učení časem asistent analyzuje osobní preference uživateli poskytovat relevantnější výsledky a doporučení. Siri vyžaduje neustálé připojení k internetu – hlavními zdroji informací jsou zde Bing a Wolfram Alpha. iOS 10 zavedl podporu pro rozšíření třetích stran.

Další z velké čtyřky Cortana. Je to inteligentní osobní asistent vytvořený společností Microsoft. Je podporován na platformách Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android a iOS. Cortana byla poprvé představena na konferenci Microsoft Build Developer Conference v dubnu 2014 v San Franciscu. Název programu pochází ze jména postavy z herní série Halo. Cortana je k dispozici v angličtině, italštině, španělštině, francouzštině, němčině, čínštině a japonštině.

Uživatelé již zmíněného programu Alexa musí počítat i s jazykovými omezeními – digitální asistent mluví pouze anglicky, německy, francouzsky a japonsky.

Virtuální asistent Amazon byl poprvé použit v chytrých reproduktorech Amazon Echo a Amazon Echo Dot vyvinutých společností Amazon Lab126. Umožňuje hlasovou interakci, přehrávání hudby, vytváření seznamu úkolů, nastavení budíku, streamování podcastů, přehrávání audioknih a informace o počasí, dopravě, sportu a dalších zprávách v reálném čase, jako jsou zprávy (4). Alexa může ovládat více chytrých zařízení a vytvořit systém domácí automatizace. Lze jej také použít k pohodlnému nakupování v obchodě Amazon.

4. K čemu uživatelé používají Echo (podle výzkumu)

Uživatelé mohou vylepšit zkušenosti s Alexou instalací „dovedností“ Alexa (), dalších funkcí vyvinutých třetími stranami, běžněji označovaných jako aplikace, jako je počasí a zvukové programy v jiných nastaveních. Většina zařízení Alexa umožňuje aktivovat virtuálního asistenta pomocí hesla pro probuzení, které se nazývá .

Amazon dnes rozhodně dominuje na trhu chytrých reproduktorů (5). Do první čtyřky se snaží dostat IBM, která novou službu představila v březnu 2018 Watsonův asistent, určený pro společnosti, které chtějí vytvářet vlastní systémy virtuálních asistentů s hlasovým ovládáním. Jaká je výhoda řešení IBM? Podle zástupců společnosti především na mnohem větší možnosti personalizace a ochrany soukromí.

Za prvé, Watson Assistant není značkový. Společnosti mohou na této platformě vytvářet vlastní řešení a označovat je vlastní značkou.

Za druhé, mohou trénovat své asistenční systémy pomocí vlastních datových sad, což podle IBM usnadňuje přidávání funkcí a příkazů do tohoto systému než u jiných technologií VUI (hlasové uživatelské rozhraní).

Za třetí, Watson Assistant neposkytuje IBM informace o aktivitě uživatelů – vývojáři řešení na platformě si mohou cenná data ponechat pouze pro sebe. Mezitím by si každý, kdo staví zařízení, například s Alexou, měl uvědomit, že jeho cenná data skončí na Amazonu.

Watson Assistant již má několik implementací. Systém používala například společnost Harman, která vytvořila hlasového asistenta pro koncepční vůz Maserati (6). Na mnichovském letišti pohání asistent IBM robota Pepper, který pomáhá cestujícím pohybovat se. Třetím příkladem je Chameleon Technologies, kde je hlasová technologie použita v měřiči chytré domácnosti.

6. Watson Assistant v koncepčním voze Maserati

Stojí za to dodat, že základní technologie zde také není nová. Watson Assistant zahrnuje možnosti šifrování pro stávající produkty IBM, Watson Conversation a Watson Virtual Agent, stejně jako rozhraní API pro jazykovou analýzu a chat.

Amazon je nejen lídrem v oblasti chytrých hlasových technologií, ale přeměňuje je v přímé podnikání. Některé společnosti však s integrací Echo experimentovaly mnohem dříve. Sissense, společnost v oboru BI a analytiky, představila integraci Echo v červenci 2016. Startup Roxy se na oplátku rozhodl vytvořit vlastní software a hardware s hlasovým ovládáním pro odvětví pohostinství. Začátkem tohoto roku společnost Synqq představila aplikaci pro psaní poznámek, která využívá zpracování hlasu a přirozeného jazyka k přidávání poznámek a záznamů v kalendáři, aniž byste je museli psát na klávesnici.

Všechny tyto malé podniky mají vysoké ambice. Hlavně se ale dozvěděli, že ne každý uživatel chce svá data přenášet do Amazonu, Googlu, Applu nebo Microsoftu, což jsou nejdůležitější hráči při budování platforem hlasové komunikace.

Američané chtějí nakupovat

V roce 2016 tvořilo hlasové vyhledávání 20 % všech mobilních vyhledávání Google. Lidé, kteří tuto technologii používají denně, uvádějí mezi její největší výhody její pohodlí a multitasking. (například možnost používat vyhledávač při řízení auta).

Analytici Visiongain odhadují současnou tržní hodnotu chytrých digitálních asistentů na 1,138 miliardy dolarů.Takových mechanismů je stále více. Podle Gartneru již do konce roku 2018 30 % našich interakcí s technologií bude prostřednictvím konverzací s hlasovými systémy.

Britská výzkumná společnost IHS Markit odhaduje, že trh s digitálními asistenty poháněnými umělou inteligencí dosáhne do konce letošního roku 4 miliard zařízení a toto číslo by mohlo do roku 2020 vzrůst na 7 miliard.

Podle zpráv z eMarketer a VoiceLabs v roce 2017 používalo hlasové ovládání alespoň jednou za měsíc 35,6 milionu Američanů. To znamená nárůst o téměř 130 % oproti předchozímu roku. Očekává se, že samotný trh digitálních asistentů v roce 2018 poroste o 23 %. To znamená, že je již budete používat. 60,5 milionu Američanů, což přinese konkrétní peníze pro jejich výrobce. RBC Capital Markets odhaduje, že rozhraní Alexa přinese Amazonu do roku 2020 tržby až 10 miliard dolarů.

Myjte, pečte, čistěte!

Hlasová rozhraní stále odvážněji vstupují na trhy domácích spotřebičů a spotřební elektroniky. Bylo to vidět již na loňské výstavě IFA 2017. Americká společnost Neato Robotics představila například robotický vysavač, který se připojuje k jedné z více platforem chytré domácnosti, včetně systému Amazon Echo. Mluvením s chytrým reproduktorem Echo můžete dát stroji pokyn, aby uklízel celý váš dům v určitou denní nebo noční dobu.

Na výstavě byly předvedeny další hlasově aktivované produkty, od chytrých televizorů prodávaných pod značkou Toshiba tureckou společností Vestel až po vyhřívané přikrývky německé společnosti Beurer. Mnoho z těchto elektronických zařízení lze aktivovat také na dálku pomocí chytrých telefonů.

Která z možností domácího asistenta se stane dominantní, je však podle zástupců Bosch příliš brzy. Na veletrhu IFA 2017 německá technická skupina předvedla pračky (7), trouby a kávovary, které se připojují k Echo. Bosch také chce, aby jeho zařízení byla v budoucnu kompatibilní s hlasovými platformami Google a Apple.

7. Pračka Bosch, která se připojuje k Amazon Echo

Společnosti jako Fujitsu, Sony a Panasonic vyvíjejí vlastní řešení hlasových asistentů založená na umělé inteligenci. Sharp přidává tuto technologii do pecí a malých robotů vstupujících na trh. Nippon Telegraph & Telephone najímá výrobce hardwaru a hraček, aby přizpůsobili hlasem ovládaný systém umělé inteligence.

Starý koncept. Přišel konečně její čas?

Ve skutečnosti je koncept hlasového uživatelského rozhraní (VUI) již desítky let. Kdo před lety sledoval Star Trek nebo 2001: Vesmírnou odyseu, pravděpodobně očekával, že kolem roku 2000 budeme všichni ovládat počítače svými hlasy. Také to nebyli jen spisovatelé sci-fi, kteří viděli potenciál tohoto typu rozhraní. V roce 1986 se výzkumníci společnosti Nielsen zeptali IT profesionálů, co by podle nich byla největší změna v uživatelských rozhraních do roku 2000. Nejčastěji poukazovali na vývoj hlasových rozhraní.

Existují důvody, proč v takové řešení doufat. Verbální komunikace je koneckonců nejpřirozenější způsob, jak si lidé vědomě vyměňují myšlenky, takže její využití pro interakci člověk-stroj se zatím jeví jako nejlepší řešení.

Jedno z prvních VUI, tzv botník, byl vytvořen na počátku 60. let společností IBM. Byl to předchůdce dnešních systémů rozpoznávání hlasu. Vývoj VUI zařízení byl ale limitován limity výpočetního výkonu. Analýza a interpretace lidské řeči v reálném čase vyžaduje velké úsilí a trvalo více než padesát let, než se to stalo možným.

Zařízení s hlasovým rozhraním se začala objevovat v masové výrobě v polovině 90. let, ale nezískala si oblibu. První telefon s hlasovým ovládáním (vytáčením) byl Philips Sparkvyšlo v roce 1996. Toto inovativní a snadno použitelné zařízení však nebylo prosté technologických omezení.

Na trh se pravidelně dostávají další telefony vybavené formou hlasového rozhraní (vytvořené společnostmi jako RIM, Samsung nebo Motorola), které uživatelům umožňují vytáčet hlasem nebo posílat textové zprávy. Všechny ale vyžadovaly zapamatovat si konkrétní povely a vyslovovat je vynucenou, umělou formou, přizpůsobenou možnostem tehdejších zařízení. To generovalo velké množství chyb, které následně vedlo k nespokojenosti uživatelů.

Nyní však vstupujeme do nové éry výpočetní techniky, ve které pokroky ve strojovém učení a umělé inteligenci odemykají potenciál konverzace jako nového způsobu interakce s technologiemi (8). Počet zařízení podporujících hlasovou interakci se stal důležitým faktorem, který měl velký vliv na vývoj VUI. Dnes již téměř 1/3 světové populace vlastní chytré telefony, které lze pro tento typ chování využít. Vypadá to, že většina uživatelů je konečně připravena přizpůsobit svá hlasová rozhraní.

8. Novodobá historie vývoje hlasového rozhraní

Než však budeme moci volně mluvit s počítačem, jako to udělali hrdinové Vesmírné odyssey, musíme překonat řadu problémů. Stroje stále nejsou příliš dobré ve zvládání jazykových nuancí. kromě mnoho lidí se stále cítí nepohodlně při zadávání hlasových příkazů vyhledávači.

Statistiky ukazují, že hlasoví asistenti jsou využíváni především doma nebo mezi blízkými přáteli. Žádný z dotázaných nepřiznal používání hlasového vyhledávání na veřejných místech. Tato blokáda však s rozšířením této technologie pravděpodobně zmizí.

technicky obtížná otázka

Problém, kterému systémy (ASR) čelí, spočívá v získávání užitečných dat z řečového signálu a jejich přiřazování k určitému slovu, které má pro člověka určitý význam. Produkované zvuky jsou pokaždé jiné.

Variabilita řečového signálu je jeho přirozená vlastnost, díky které například rozeznáváme přízvuk nebo intonaci. Každý prvek systému rozpoznávání řeči má specifický úkol. Na základě zpracovávaného signálu a jeho parametrů je vytvořen akustický model, který je spojen s jazykovým modelem. Systém rozpoznávání může fungovat na základě malého nebo velkého množství vzorů, což určuje velikost slovní zásoby, se kterou pracuje. Oni mohou být malé slovníky v případě systémů, které rozpoznávají jednotlivá slova nebo příkazy, stejně jako velké databáze obsahující ekvivalent jazykové sady a zohledňující jazykový model (gramatiku).

Problémy, kterým čelí především hlasová rozhraní správně rozumět řeči, ve kterých se často vynechávají např. celé gramatické posloupnosti, naráží se na jazykové a fonetické chyby, chyby, opomenutí, vady řeči, homonyma, neodůvodněné opakování atd. Všechny tyto ACP systémy musí fungovat rychle a spolehlivě. Alespoň taková jsou očekávání.

Zdrojem obtíží jsou i akustické signály jiné než rozpoznaná řeč, které vstupují na vstup rozpoznávacího systému, tzn. všechny druhy rušení a šum. V nejjednodušším případě je potřebujete odfiltrovat. Tento úkol se zdá být rutinní a snadný – vždyť různé signály jsou filtrovány a každý elektronik ví, co má v takové situaci dělat. To však musí být provedeno velmi opatrně a pečlivě, má-li výsledek rozpoznávání řeči splnit naše očekávání.

V současnosti používané filtrování umožňuje odstranit spolu s řečovým signálem i vnější šum zachycený mikrofonem a vnitřní vlastnosti samotného řečového signálu, které znesnadňují jeho rozpoznání. Mnohem složitější technický problém však nastává, když rušením analyzovaného řečového signálu je ... jiný řečový signál, tedy například hlasité diskuse kolem. Tato otázka je v literatuře známá jako tzv. To již vyžaduje použití složitých metod, tzv. dekonvoluce (rozplést) signál.

Problémy s rozpoznáváním řeči tím nekončí. Stojí za to si uvědomit, že řeč nese mnoho různých typů informací. Lidský hlas napovídá o pohlaví, věku, různých povahách majitele nebo o jeho zdravotním stavu. Existuje rozsáhlé oddělení biomedicínského inženýrství zabývající se diagnostikou různých onemocnění na základě charakteristických akustických jevů nacházejících se v řečovém signálu.

Existují také aplikace, kde je hlavním účelem akustické analýzy řečového signálu identifikovat mluvčího nebo ověřit, že je tím, za koho se vydává (hlas namísto klíče, hesla nebo PUK kódu). To může být důležité zejména pro technologie chytrých budov.

První složkou systému rozpoznávání řeči je mikrofon. Signál snímaný mikrofonem však většinou zůstává málo využitelný. Studie ukazují, že tvar a průběh zvukové vlny se velmi liší v závislosti na osobě, rychlosti řeči a částečně náladě účastníka rozhovoru – přičemž v malé míře odrážejí samotný obsah mluvených příkazů.

Proto musí být signál správně zpracován. Moderní akustika, fonetika a informatika společně poskytují bohatou sadu nástrojů, které lze použít ke zpracování, analýze, rozpoznání a porozumění řečovému signálu. Dynamické spektrum signálu, tzv dynamické spektrogramy. Je poměrně snadné je získat a řeč prezentovaná ve formě dynamického spektrogramu je poměrně snadno rozpoznatelná pomocí technik podobných těm, které se používají při rozpoznávání obrazu.

Jednoduché prvky řeči (například příkazy) lze rozpoznat podle prosté podobnosti celých spektrogramů. Například hlasem aktivovaný slovník mobilního telefonu obsahuje pouze několik desítek až několik stovek slov a frází, obvykle předem naskládaných tak, aby je bylo možné snadno a efektivně identifikovat. To je dostatečné pro jednoduché řídicí úlohy, ale značně to omezuje celkovou aplikaci. Systémy postavené podle schématu zpravidla podporují pouze konkrétní reproduktory, pro které jsou hlasy speciálně vyškoleny. Pokud se tedy objeví někdo nový, kdo chce svůj hlas ovládat systém, s největší pravděpodobností nebude přijat.

Výsledek této operace se nazývá spektrogram 2-W, tedy dvourozměrné spektrum. V tomto bloku je další aktivita, která stojí za pozornost - segmentace. Obecně řečeno, mluvíme o rozdělení signálu souvislé řeči na části, které lze rozpoznat samostatně. Teprve z těchto jednotlivých diagnóz se pozná celek. Tento postup je nezbytný, protože není možné identifikovat dlouhou a složitou řeč na jeden zátah. O tom, které segmenty v řečovém signálu rozlišit, již byly napsány celé svazky, takže nyní nebudeme řešit, zda rozlišované segmenty mají být fonémy (zvukové ekvivalenty), slabiky nebo třeba alofony.

Proces automatického rozpoznávání se vždy týká některých vlastností objektů. Pro řečový signál byly testovány stovky sad různých parametrů rozdělené do rozpoznaných rámců a mít vybrané funkcepřičemž tyto snímky jsou prezentovány v procesu rozpoznávání, můžeme provést (pro každý snímek zvlášť) kategorizace, tj. přiřazení identifikátoru k rámu, který jej bude v budoucnu reprezentovat.

Další fáze sestavování rámů do samostatných slov - nejčastěji na základě tzv. model implicitních Markovových modelů (HMM-). Pak přichází montáž slov kompletní věty.

Nyní se můžeme na chvíli vrátit k systému Alexa. Jeho příklad ukazuje vícestupňový proces strojového „chápání“ člověka – přesněji: jím daný příkaz nebo položená otázka.

Porozumění slovům, porozumění významu a porozumění záměru uživatele jsou zcela odlišné věci.

Dalším krokem je proto práce modulu NLP (), jehož úkolem je rozpoznávání záměrů uživatele, tj. význam příkazu/otázky v kontextu, ve kterém byl vysloven. Pokud je záměr identifikován, pak přiřazení tzv. dovedností a schopností, tedy specifická funkce podporovaná chytrým asistentem. V případě dotazu na počasí jsou volány zdroje dat o počasí, které zbývá zpracovat do řeči (TTS - mechanismus). Výsledkem je, že uživatel slyší odpověď na položenou otázku.

Hlas? Grafika? Nebo možná obojí?

Většina známých moderních interakčních systémů je založena na prostředníkovi tzv grafické uživatelské prostředí (grafické rozhraní). GUI bohužel není nejviditelnější způsob interakce s digitálním produktem. To vyžaduje, aby se uživatelé nejprve naučili používat rozhraní a zapamatovali si tyto informace při každé další interakci. V mnoha situacích je hlas mnohem pohodlnější, protože můžete komunikovat s VUI jednoduše mluvením do zařízení. Rozhraní, které nenutí uživatele, aby si zapamatovali a zapamatovali určité příkazy nebo metody interakce, způsobuje méně problémů.

Rozšíření VUI samozřejmě neznamená opuštění tradičnějších rozhraní – spíše budou k dispozici hybridní rozhraní, která kombinují několik způsobů interakce.

Hlasové rozhraní není vhodné pro všechny úkoly v mobilním kontextu. S ním zavoláme kamarádovi, který řídí auto, a dokonce mu pošleme SMS, ale kontrola posledních převodů může být příliš obtížná - kvůli množství informací přenášených do systému () a generovaných systémem (systémem). Jak navrhuje Rachel Hinman ve své knize Mobile Frontier, používání VUI se stává nejúčinnějším při provádění úkolů, kde je množství vstupních a výstupních informací malé.

Chytrý telefon připojený k internetu je pohodlný, ale také nepohodlný (9). Pokaždé, když si chce uživatel něco koupit nebo použít novou službu, musí si stáhnout další aplikaci a vytvořit si nový účet. Vzniklo zde pole pro využití a vývoj hlasových rozhraní. Místo toho, aby uživatelé nutili instalovat mnoho různých aplikací nebo vytvářet samostatné účty pro každou službu, odborníci říkají, že VUI přesune zátěž těchto těžkopádných úkolů na hlasového asistenta s umělou inteligencí. Bude pro něj výhodné provádět namáhavé činnosti. Budeme mu dávat pouze příkazy.

9. Hlasové rozhraní přes chytrý telefon

Dnes je k internetu připojeno více než jen telefon a počítač. K síti jsou připojeny také chytré termostaty, světla, rychlovarné konvice a mnoho dalších zařízení integrovaných do IoT (10). Všude kolem nás jsou tedy bezdrátová zařízení, která naplňují náš život, ale ne všechna přirozeně zapadají do grafického uživatelského rozhraní. Použití VUI vám pomůže je snadno integrovat do našeho prostředí.

10. Hlasové rozhraní s internetem věcí

Vytváření hlasového uživatelského rozhraní se brzy stane klíčovou dovedností návrháře. To je skutečný problém – potřeba implementace hlasových systémů vás povzbudí k tomu, abyste se více zaměřili na proaktivní design, tedy snahu porozumět prvotním záměrům uživatele, předvídat jeho potřeby a očekávání v každé fázi konverzace.

Hlas je efektivní způsob zadávání dat – umožňuje uživatelům rychle zadávat příkazy systému podle jejich vlastních podmínek. Na druhou stranu obrazovka poskytuje efektivní způsob zobrazení informací: umožňuje systémům zobrazovat velké množství informací současně, čímž se snižuje zatížení paměti uživatelů. Je logické, že jejich spojení do jednoho systému zní povzbudivě.

Chytré reproduktory jako Amazon Echo a Google Home vůbec nenabízejí vizuální displej. Výrazně zlepšují přesnost rozpoznávání hlasu na střední vzdálenosti, umožňují hands-free ovládání, což zase zvyšuje jejich flexibilitu a efektivitu – jsou žádoucí i pro uživatele, kteří již mají chytré telefony s hlasovým ovládáním. Obrovským omezením je však absence obrazovky.

K informování uživatelů o možných příkazech lze použít pouze pípnutí a čtení výstupu nahlas se stává únavným, s výjimkou nejzákladnějších úkolů. Nastavení časovače pomocí hlasového příkazu během vaření je skvělé, ale nutit se ptát, kolik času zbývá, není nutné. Získání pravidelné předpovědi počasí se pro uživatele stává testem paměti, který musí celý týden naslouchat a vstřebávat řadu faktů, místo aby je sbíral z obrazovky na první pohled.

Designéři už ano hybridní řešení, Echo Show (11), která k základnímu chytrému reproduktoru Echo přidala displej. To značně rozšiřuje funkčnost zařízení. Echo Show je však stále mnohem méně schopná plnit základní funkce, které jsou již dávno dostupné na chytrých telefonech a tabletech. Neumí (zatím) surfovat po webu, zobrazovat recenze nebo například zobrazovat obsah nákupního košíku Amazon.

Vizuální zobrazení je ze své podstaty efektivnější způsob, jak lidem poskytnout množství informací než jen zvuk. Navrhování s prioritou hlasu může výrazně zlepšit hlasovou interakci, ale z dlouhodobého hlediska bude svévolné nepoužívání vizuální nabídky kvůli interakci jako boj s jednou rukou svázanou za zády. Vzhledem k hrozící složitosti end-to-end inteligentních hlasových a zobrazovacích rozhraní by vývojáři měli vážně uvažovat o hybridním přístupu k rozhraním.

Zvýšení efektivity a rychlosti systémů generování a rozpoznávání řeči umožnilo jejich použití v aplikacích a oblastech, jako jsou například:

• vojenské (hlasové příkazy v letadlech nebo vrtulnících, například F16 VISTA),

• automatický přepis textu (z řeči na text),

• interaktivní informační systémy (Prime Speech, hlasové portály),

• mobilní zařízení (telefony, chytré telefony, tablety),

• robotika (Cleverbot - systémy ASR kombinované s umělou inteligencí),

• automobilový průmysl (hands-free ovládání součástí automobilu, jako je Blue & Me),

• domácí aplikace (systémy pro chytrou domácnost).

Pozor na bezpečnost!

Automobily, domácí spotřebiče, systémy vytápění/chlazení a domácí bezpečnostní systémy a řada domácích spotřebičů začínají používat hlasová rozhraní, často založená na umělé inteligenci. V této fázi jsou odesílána data získaná z milionů konverzací se stroji výpočetní mraky. Je vidět, že o ně mají marketéři zájem. A nejen oni.

Nedávná zpráva bezpečnostních expertů společnosti Symantec doporučuje, aby uživatelé hlasových příkazů neovládali bezpečnostní funkce, jako jsou zámky dveří, natož domácí bezpečnostní systémy. Totéž platí pro ukládání hesel nebo důvěrných informací. Bezpečnost umělé inteligence a chytrých produktů zatím není dostatečně prozkoumána.

Když zařízení v domácnosti poslouchají každé slovo, riziko hacknutí a zneužití systému se stává velkým problémem. Pokud útočník získá přístup k místní síti nebo k ní přidruženým e-mailovým adresám, lze nastavení chytrého zařízení změnit nebo obnovit na tovární nastavení, což povede ke ztrátě cenných informací a smazání uživatelské historie.

Jinými slovy, bezpečnostní profesionálové se obávají, že hlasem řízená umělá inteligence a VUI ještě nejsou dostatečně chytré, aby nás ochránily před potenciálními hrozbami a držely jazyk za zuby, když o něco požádá cizí člověk.