Logo sk.androidermagazine.com
Logo sk.androidermagazine.com

Spoločnosť Google aktualizuje technológiu hlasového vyhľadávania, aby bola rýchlejšia a presnejšia

Anonim

Spoločnosť Google vytvorila novú technológiu na podporu hlasového vyhľadávania, ktorá podľa spoločnosti umožní ešte rýchlejšie a presnejšie vyhľadávanie. Nová technológia využíva techniky tréningu Connectist Temporal Classification (CTC) a sekvenčné diskriminačné tréningy. V roku 2012 spoločnosť Google prešla z modelu Gaussian Mixture Model (GMM) na Deep Neural Networks (DNN), čo spoločnosti umožnilo lepšie posúdiť, ktorý zvuk používateľ v tom čase produkoval, a zvýšila presnosť rozpoznávania reči.

Naše vylepšené akustické modely sa spoliehajú na rekurentné neurónové siete (RNN). RNN majú vo svojej topológii slučky spätnej väzby, čo im umožňuje modelovať časové závislosti: keď užívateľ hovorí / u / v predchádzajúcom príklade, jeho artikulačné zariadenie pochádza z a / j / zvuku a z / m / zvuku skôr. Skúste to vysloviť nahlas - „múzeum“ - prúdi veľmi prirodzene jedným dychom a RNN to môžu zachytiť. Typom RNN, ktorý sa tu používa, je RNN s dlhou krátkodobou pamäťou (LSTM), ktorý prostredníctvom pamäťových buniek a sofistikovaného hradlového mechanizmu ukladá informácie lepšie ako iné RNN. Prijatie takýchto modelov už výrazne zlepšilo kvalitu nášho rozpoznávača.

Túto zmenu technológie vykonala spoločnosť Google a teraz sa používa na výkon hlasového vyhľadávania v aplikácii Google na zariadeniach iOS aj Android, ako aj na diktovanie na zariadeniach s Androidom.

Zdroj: Google Research Blog