iAnatomija: Ovako funkcioniše „Hey Siri“

21. 10. 2017.

Ovako funkcioniše „Hey Siri“

Na Apple-ovom Machine Learning Journalu, objavljen je novi članak koji otkriva magiju iza funkcije Hey Siri. Neverovatno je na koliko su detalja inženjeri pazili prilikom kreiranja ove funkcije.

Činjenica da je Apple počeo da deli informacije o svom istraživanju veštačke inteligencije, nešto je najbolje što su mogli učiniti, jer su tako tu tehnologiju približili svima. Svi znaju šta Apple razvija, a mnogi njihove proizvode koriste svaki dan, pa su ovi članci – premda napisani u obliku akademskih radova – i dalje razumljivi svakom čitaocu. Tako se u zadnjem članku otkriva tehnološka pozadina funkcije Hey Siri. Pogledajmo o čemu se radi.

Kako to ona funkcioniše?

Mali uređaj za prepoznavanje glasova stalno je uključen i pažljivo sluša i očekuje da čuje te dve reči. Kada čuje „Hey Siri“, ostatak programa identifikuje nastavak govora kao naredbu ili pitanje. Detektor „Hey Siri“-ja koristi Deep Neural Network (DDN, duboku neuronsku mrežu) za pretvaranje akustičnog uzorka vašeg glasa, u svakom trenutku, u distribuciju verovatnoće u odnosu na govorne glasove. Zatim koristi temporalni proces integracije kako bi izračunao rezultat od poverenja da je fraza koju ste izgovorili zaista „Hey Siri“. Ako je rezultat zadovoljavajuć, Siri se aktivira.

Čuvanje energije

Kako bi se izbegao celodnevni rad procesora samo radi osluškivanja ključne fraze, iPhone-ov Always On Processor (AOP, mali, dodatni procesor niske potrošnje energije, deo koprocesora pokreta) ima pristup signalu mikrofona (na 6s-u i novijim modelima). Koristimo mali deo ograničene procesorske snage AOP-a za rad detektora sa malom verzijom akustičnog modela (DNN-a). Kada rezultat pređe donju granicu, koprocesor pokreta aktivira osnovni procesor, koji zatim analizira signal koristeći veći DNN.

Postupak postavljanja

On upoređuje sve moguće nove „Hey Siri“ izgovore na sačuvanim primerima, i to na sledeći način. Detektor stvara vremensku informaciju koja se koristi za pretvaranje akustičnog uzorka u vektor fiksne dužine, i to tako da upoređuje prosek sa uzorcima povezanim sa svakim slučajem. Drugi, posebno uvežban DNN, pretvara ovaj vektor u „govornikov prostor“ u kom su uzorci istog govornika obično bliži jedan drugom, dok su uzorci različitih govornika obično razdvojeniji. Te udaljenosti upoređujemo sa referentnim uzorcima stvorenim tokom prijavljivanja sa jednim drugim pragom, kako bismo utvrdili da li je zvuk koji je aktivirao okidač zapravo „Hey Siri“ i da li ga je izgovorio prijavljeni korisnik.

Još jedna zanimljiva stvar su funkcije automatske osetljivosti. Postoji primarni, odnosno normalan prag, i niži prag koji obično ne aktivira Siri. Ako rezultat prelazi donji prag, ali ne i gornji, sistem na nekoliko sekundi ulazi u stanje pojačane osetljivosti, pa ako korisnik ponovi frazu – čak i bez ikakve promene u glasnoći – Siri će se aktivirati.

Ovaj mehanizam druge šanse uveliko poboljšava upotrebljivost sistema, a da pritom ne povećava stopu lažne uzbune, jer se u ovom osetljivom stanju nalazi samo nekoliko sekundi.

Slične članke i zanimljive objave možete da pročitate u Machine Learning Journalu. Preporučujemo ih svima.

Pročitaj još:

Saznajte sve o novim Apple proizvodima:

Ako želite da pratite dešavanja iz Apple sveta, dodajte nas na Facebook-u, pratite na Twitter-u i dodajte u svoje krugove na Google+ mreži.

izvor: imagazin