Google speech to text - használta valaki?
2021-10-21T19:37:01+02:00
2021-10-22T18:22:48+02:00
2022-07-20T08:11:49+02:00
  • Mint ahogy előttem is írták, egy szövegelős mp3-at nem fog lefordítani semmi. Én először arra gondoltam, hogy akarsz írni egy app-ot, aminek bediktálsz egy mondatot és kiadja a szöveget stringben. Ha ilyen kell, akkor adok forráskódot, de igazából az sem jó semmire, ha kihagysz egy másodpercet a beszéd alatt, már meg is szakad a szöveg-felismerés. Én úgy próbálkoztam vele annó, hogy a háttérben fehérzajt játszottam le halkan, és akkor akármennyit diktálhattam. De fényévekre van az IOS-től, itt ha diktálás alatt azt mondom hogy pont vagy vessző, akkor azt is betűvel írja le...
    Mutasd a teljes hozzászólást!
  • Pont egy fél éve kutattam fel az internetet az összes létező S2T service-ről, appról, működési típusokról, tanítási módszerekről stb.
    Csak egy ilyen output minőségi megjegyzést tennék, hogy ha csak kell valami vacak ami úgy többnyire ok feliratot csinál arra jó. Viszont jó minőségű felirat kell akkor nem akarod alkalmazni. Azért mert ha az audió anyag nem stúdió minőség akkor a háttérzajoktól függően a pontossága drasztikusan csökken, mivel nem tudja felismerni a fonetikai kifejezéseket. Továbbá előfordulhat, hogy nyelvjárásokkal problémái lesznek, vagy bizonyos szavakkal, amiket bizonyos emberek csak úgy ad-hoc kitalálnak. Innen meg persze egyértelmű, hogy bizonyos cégnevek, vagy speciális külföldi kifejezések, szavak nehezen kezelhetőek, mert mikor tanították az AI-t akkor a tanító szótárba ezek nem kerültek bele. Ugyan ez vonatkozik a zaj szűrésre is, tehát ha kutyaugatás van a háttérben, az nyilvánvalóan nincs benne a szótárban, tehát nem fogja tudni felismerni, mint kiszírendő elem, viszont nagy valószínűséggel lehet hogy bezavar a main channel felismerésébe.
    Aztán multi channel problémák, ha egyszerre több beszélő van, és mondjuk keresztbe beszélnek, akkor van olyan S2T ami még 2 channelt talán fel tud ismerni de többet nem. Ráadásul SRT meg pont olyan formátum, ami csak egy TXT file és a speaker channelek nincsenek elkülönítve. Illetve pont ezek miatt is a stúdió minőségnek is vannak hibái, és egy 15-20% WER(Word Error Rate) simán összejön.

    Szóval ha pontosságra van szükséged, akkor a jobb megoldás, hogyha manuálisan vagy félhibrid legépelteted majd text align-al ráülteted a szöveget. Mivel hogy pont ezeket a gép által felismerhetetlen hibákat egy ember jobban le tudja kezelni - 99+% pontosság proofreader-el simán elérhető. Aztán még mindig lehetséges, hogy kerülnek bele elcsúszások, ha nagyon sok felismerhetetlen karakter van, de egy 200ms-os intervallumon belülre már elég könnyen berakja a legvacakabb text align app is.
    Mutasd a teljes hozzászólást!
  • Jol mukodik magyarul is, de penzbe kerul. Kb. 1.5 eve probalkoztam vele.
    Mutasd a teljes hozzászólást!
  • Azonnali kiirás app-ra gondolsz? Vagy mit használtál android 9 alatt?
    Mutasd a teljes hozzászólást!
  • Én Android 9 alatt próbálgattam egy éve, de 1-2-3 szó után abbahagyta a hallgatást és visszaadta a beszédet egy stringben. Bármit csináltam, pár másodpercnél tovább nem volt hajlandó hallgatni. talán majd Android 10-12 környékén jobban fog működni
    Mutasd a teljes hozzászólást!
  • Igen, elboldogul a magyar nyelvvel.
    Ez van a Hírstart Podcast mögött is például:
    Hírstart podcast
    Mutasd a teljes hozzászólást!
  • Sziasztok!

    Nem rég fedeztem fel ezt: 
    Speech-to-Text: Automatic Speech Recognition  |  Google Cloud

    És ha jól értelmezzem akkor magyar nyelvvel is elboldogul? Vagyis ha berakok egy mp4 videóból kimentett mp3 audiófájlt akkor akár src alapú működőképes szövegfordítást kaphatok? 

    Mert a neten kutakodva csak annyit tudtam meg,hogy srt-t lehet vele csinálni megfelelően időzítve... csak arra nem kaptam infót,hogy magyar nyelvvel elboldogul e. 

    Használta bárki?
    Mutasd a teljes hozzászólást!
abcd