Hang bekérése és felismerése

Hang bekérése és felismerése
2012-12-18T21:55:02+01:00
2012-12-22T17:12:40+01:00
2022-10-24T11:55:38+02:00
  • hopsz asszem ezzel még várok egy kicsit :)
    de azért kösz
    Mutasd a teljes hozzászólást!
  • Foglalkoztam ilyennel, és ez eléggé bonyolult és hosszadalmas. Több főlépésből áll a dolog.
    1. A mikrofon bemeneti jeléből tudnod kell felrajzolni a hanghullámokat. Fourier transzformációt nem fogod elkerülni, sőt több egymásutáni alkalmazásban is használnod kell, mert meg kell kapnod hogy 1 adott nyers amplitúdókból álló minta milyen jelek összegéből állítható elő, s ezeket hasonlítod össze majd valamivel. Egyszerű példa, primitív de érthető:
    Régebbi Winamp (5.0 és előtti verziók)-ban használtak hasonló elven működő logikát a kis spektrométer kijelzőjén, amik ha mp3-ból (mert ott viszonylag egyszerűen megtudhatók a maximum frekvenciaértékek) fel tudták állítani relatív 0-át és a relatív maximumot az összes frekvencia sávra. Kis segítség ide: fletcher-munson görbe Vegyél fel 1 hangmintát (1-2sec) mikrofonnal és mentsd el mp3-ba (lehetőleg 192kbps-nl ne legyen kisebb a tömörítés) majd játszd vissza a Winamp-al. Látni fogod szépen kirajzolja pontosan, hogy milyen frekvenciájú jelek összegéből lehet megkapni az éppen hallott mintát.
    2. Össze kell hasonlítanod valami statikus, előzőleg felvett hanghullámok frekvenciáit. Ezek arányszámok lesznek, s az arányok eltérése határozza meg mikor mondod azt hogy 1 adott input megfelel az összehasonlítottnak. Itt kemény mesterséges intelligenciát is alkalmaznod kell, mert ha az illető nem ugyanazt a "szót" mondja, akkor elfognak térni, de a görbékben (meredekség) illetve az fft utáni jelekben lesz hasonlóság akkor is, mert az betűket ugyanúgy ejti. Egyébként tudnod kell, hogy minden embernek megvan a "hangszíne", s ez felismerhető. Rengeteg tesztelés és megfigyelés szükséges ahhoz, hogy egyáltalán elfogadható dolgot produkálj.

    Sok sikert hozzá :)

    Mutasd a teljes hozzászólást!
  • Rákerestem és tényleg van egy pár érdekes dolog.
    Megnézem mindet aztán megpróbálkozom.(max. nem sikerül)
    Kösz a segítséget.
    Mutasd a teljes hozzászólást!
  • Ez nem egy egyszerű témakör.

    Meg lehet csinálni Javaból is, de elég komoly osztályokat kell mögé írnod, nem tudom, hogy találsz-e rá valahol jó külső libet (bár javaban szinte mindenre van).

    Ez a témakör amúgy a neurális hálókhoz tartozik, azon belül is függvény approximáció (MLP, RBF, CMAC, SVM és társaik). Nekem egyszer volt alkalmam kipróbálni egy webkamerán keresztül működő felismerő algoritmust. Megtudta különböztetni a + és a - jelet egymástól és ennek megfelelően 1et vagy -1et kiírni a kimenetre.
    Voltak nehézségei azt elárulom.

    Amúgy Matlab-ban van Neutral Network Toolbox. Hátha azzal gyorsabban jutsz valamire.


    Sok sikert!
    Mutasd a teljes hozzászólást!
  • ez nem épp egy túl jó program, az idézőjeleket sajnos nem ismerte fel.
    Mutasd a teljes hozzászólást!
  • speech recognition algorithm

    keress rá, nekem kapásból vagy 5 egész komoly PDF-et dobott ki.

    Ez nem olyan témakör, amit itt akárki is megír neked 5 sorba. hacsak nem valami 3rd party.

    Külső lib is megfelel, vagy te szeretnél megtanulni fourier transzformálni?

    korrekt hobbi projektnek tűnik. Ess neki
    Mutasd a teljes hozzászólást!
  • Üdv.
    Olyan programot szeretnék írni amely mikrofonon keresztül kér be hang "anyagot" majd felismeri hogy mi is az a hang pontosan és ki is írja. pl.:asszondom neki hogy "a" és kiírja a.
    (Ha nem lehet felismertetni akk. elég ha csak rögzíti)
    A válaszokat előre is köszönöm.
    Mutasd a teljes hozzászólást!
Tetszett amit olvastál? Szeretnél a jövőben is értesülni a hasonló érdekességekről?
abcd