Az OpenAI által fejlesztett Whisper beszédfelismerő szoftverrel korábban már foglalkoztunk, most azonban megérkezett a technológiát használó első fecske Apple készülékekre is.
Adásunk kezdetén a múlt héten bemutatott EgészségAblak alkalmazást boncolgattuk még egy kicsit, elsősorban hallgatói észrevételekre támaszkodva, de szóba került a hamarosan átalakuló Távszem szolgáltatás is.
Beszéltünk emellett a kijavított Messenger alkalmazásról, és pár szó erejéig az Apple most bemutatott VR sisakjáról, amely a cég tervei szerint legalább akkora jelentőséggel bír majd, mint az iPhone termékcsalád megjelenése.
A műsor hátralévő részében pedig letöltöttük Apple készülékeinkre az Aiko nevű alkalmazást, amely az eszközön vagy külső adathordozón lévő hangfájlokban hallható beszédet, vagy épp a programban rögzített, beszédet tartalmazó hanganyagot képes átalakítani szöveggé, a korábbi megoldásoknál sokkal jobb hatásfokkal és internetkapcsolat nélkül.
Az Aiko lényegében az OpenAI cég Whisper technológiáját használja a művelethez, melynek legnagyobb újdonsága, hogy központozni, írásjeleket használni már pusztán a hangsúlyozás és a szavak közti szünet elemzésével is képes, nem szükséges tehát megmondanunk neki, milyen írásjeleket használjon.
A hangos beszéd írott szöveggé alakítása nem valamely távoli szerveren, hanem helyben a készüléken történik, ez azonban meglehetősen igénybe is veszi az eszköz erőforrásait, elsősorban a memóriát és a processzort. Épp ezért több Apple készüléken is próbálgattuk a szoftvert, hogy kiderítsük, mennyivel pontatlanabb a beszédfelismerés egy gyengébb telefonon, és milyen eredmény születik egy igazán bivalyerős készüléken.
Podcast: Play in new window | Download