Fordítóprogram fejlesztéshez embert keresek
2004-09-19T12:17:24+02:00
2007-06-21T23:09:37+02:00
2022-07-19T05:32:04+02:00
  • Ez olyan tudásreprezentációnak hangzik.
    Egy mini Cyc-t fejlesztesz?

    Úgy is mondhatjuk. Azt hiszem az ilyesmit ontológiának is hívják. Persze nem akarom nagyon bonyolítani; most első körben csak egy egyszerű kategória hierarchiával kísérletezek, amit tulajdonképpen egyetlen 'is a' reláció feszít ki.
    Nagyon sokat segít a fordításban, ha tudjuk, hogy pl. mely fogalom élőlény, mely tárgy, mely közlekedési eszköz, stb...
    Azután amikor már látom ennek a kategóriahierarchiának a korlátait, esetleg elkezdem a dolgot megbolondítani az 'is a' reláción kívül más relációkkal is.
    Mutasd a teljes hozzászólást!
  • a rendszer egy korpusz alapján képes újabb szabályokat megtanulni, vagy javaslatokat adni létező szabályok módosítására


    Ez olyan tudásreprezentációnak hangzik.

    Egy mini Cyc-t fejlesztesz?
    Mutasd a teljes hozzászólást!
  • E példamondatból következik, hogy két ágra válik a fejlesztés, a jelentés irányította fordításra és a jelentést figyelmen kivül hagyó szintaktikai szintű fordításra.Szvsz.

    Egyébként ez azért is érdekes, mert szvsz. a mostani piacvezető angol-magyar fordító (webforditas.hu by Morphologic) (ellenséges területen végzett felderítésem szerint ) egészen profi szintaktikából, de elég gyenge szemantikából. (A többjelentésű szavaknál legtöbbször melléfog). Így úgy lehet náluk jobb eredményt elérni, ha az ember figyel a szemantikára.
    Mutasd a teljes hozzászólást!
  • Nadamhu te melyik írányba fejlesztesz?

    Hát én próbálkozom figyelembe venni a jelentést is. A morfológiát és a szintaktikát kézzel írt szabálybázisok útján fejlesztem. A szemantikánál is vannak kézzel bevitt szabályok, de itt azzal kísérletezem, hogy a rendszer egy korpusz alapján képes újabb szabályokat megtanulni, vagy javaslatokat adni létező szabályok módosítására. Persze ez még csak elég kezdetleges szemantika...

    Mondandom lényege e mondat első négy betűje és negyedik szavának utolsó két betűje.

    Na igen... Azért a szemantikai modellem még nagyon-nagyon messze van attól, hogy ilyen szintű 'self-reference' - eket észrevegyen.
    Mutasd a teljes hozzászólást!
  • Könyvajánló:
    Magyar Elektronikus Könyvtár
    MEK-04090
    Januae linguae Latinae vestibulum

    Szintaktika, szemantika:
    Mondandom lényege e mondat első négy betűje és negyedik szavának utolsó két betűje.

    E példamondatból következik, hogy két ágra válik a fejlesztés, a jelentés irányította fordításra és a jelentést figyelmen kivül hagyó szintaktikai szintű fordításra.Szvsz.

    Nadamhu te melyik írányba fejlesztesz?

    Mutasd a teljes hozzászólást!
  • Ha egy compiler plugin meghivja a google.com/translate_t és a webforditas.hu cimeket akkor is a lefordított exe már 12 nyelven beszél. Én meg azt hittem a fordítóprogram a legnehezebb része.
    De innentől ez már egy másik topic amit nem én fogok elkezdeni.

    magyar
    angol
    német
    spanyol
    francia
    olasz
    orosz
    portugal
    arab
    kinai
    japán
    koreai
    Mutasd a teljes hozzászólást!
  • Hi!

    Az elvonatkoztatáshoz meg KELL ismerni a különböző agyi (itt értem a neuronsejtek és kapcsolatok) betegségeknek a környezetre ható változásait. Ezzek a "kisérletek" némi alapot nyújthatnak a grammatika és mondatszerkezetek generálásához.

    Példa:
    - Meddig nyúl a nyúl?
    - ???
    - Míg kinyúl.

    A kedvencem: Hogy, hogy hogy?

    p.s.: A back-propagation neural network model csak az idegsejtek közötti LEHETSÉGES kommunikáció EGYSZERŰSÍTÉSE!!!
    Mutasd a teljes hozzászólást!
  • Chomskyval kapcsolatos megjegyzésed arra utal, hogy szerinted egy természetes nyelv szintaktikáját a szemantikájától függetlenül felépíteni lehetetlen,

    Igen. Én úgy képzelem, hogy ha el is különül a kettő, részben közös 'adatbázist' használnak. Ez a közös adatbázis pedig valamilyen kategória - hierarchia, ahol a sok kategória között vannak olyanok, amelyeket inkább szintaktikainak tartunk (pl. főnév, ige, stb), és vannak amiket inkább szemantikaiaknak tartunk, de a kettő nem különül el teljesen. (szerintem)

    A fordítóprogramod fejlesztéséhez sok sikert kívánok!

    Köszönöm!
    Mutasd a teljes hozzászólást!
  • Köszönöm a könyvajánlót. :) Azt hiszem lesz mit olvasnom egy ideig. Remélem meg tudom majd érteni.

    Egy ideig foglalkoztam fogalmakkal, de eléggé sok minden van, amiről nem tudnám megmondani, hogy mi általánosabb mi speciálisabb, mi meddig tart. (Persze ez lehet, hogy csak engem minősít.) Részemről azt hiszem a fogalmakkal kapcsolatban egyelőre igyekszem megmaradni a matematikaiaknál... :)

    Chomskyval kapcsolatos megjegyzésed arra utal, hogy szerinted egy természetes nyelv szintaktikáját a szemantikájától függetlenül felépíteni lehetetlen, vagy inkább arra, hogy sokkal körülményesebb?

    A fordítóprogramod fejlesztéséhez sok sikert kívánok!
    Mutasd a teljes hozzászólást!
  • Az emberi szervezetben 1054 különböző sejttipus van. Ennek 2/3 a koponyán belül.

    Ez szerintem nem zárja ki, hogy bizonyos makroszkópikus jellemzők segítsenek. (Bár kétségtelen, hogy az összes állapot megismerése ezek alapján nem lenne egyszerű.)
    Köszi az infót.
    Mutasd a teljes hozzászólást!
  • Hi!

    Nem tudjátok, hogy az agyi állapotok figyelését mennyire lehet felhasználni a fordításban, helyesírás-ellenőrzésben?

    Az emberi szervezetben 1054 különböző sejttipus van. Ennek 2/3 a koponyán belül.
    Mutasd a teljes hozzászólást!
  • Ti tudtok erről valamit?

    Van egy könyv, amit mostanában lehet kapni (én a Libriben vettem), a címe 'Kognitív idegtudomány'. (Külön érdekessége, hogy magyar tudósok szerkesztették.)
    Brutálisan részletes 800 oldalas könyv.
    Az alapján, amit elolvastam belőle, azt szűrtem le, hogy nagyon intenzíven kutatják a témát, nagyon sok részeredmény, megfigyelés, és ezek alapján felállított alternatív elmélet van, de még mindig nagyon a sötétben tapogatóznak. Szóval olyan fokú egzaktságot senki ne várjon ma még, mint ami ahhoz kell, hogy mi szoftveresek elkezdjük ez alapján modellezni az agyat.
    Én azért ha másért nem ihlet-szerzésnek szoktam olvasgatni, de a fordítóprogramom fejlesztésénél egy az egyben nem tudom felhasználni az abban olvasottakat.

    Egyébként volt abban a könyvben olyasmi is, ami megerősítette egy régi elképzelésemet. A szemantikára már régóta egy olyan modellem van, ahol a fogalmak kategóriákba vannak szervezve (egy fogalom akárhány kategóriába tartozhat, és egy kategória is akárhány kategóriába tartozhat.) (Amúgy a szintaktika is ezen a kategóriarendszeren alapszik, és szerintem ezért egyáltalán nem válik szét a szemantikától olyan mértékben mint ahogy Chomsky sugallja.) Az említett könyvben olvastam, hogy az agyban egyértelműen kimutathatók a kategorizáló alrendszerek. Megfigyelték, hogy külön agyterület aktív, amikor pl. arcokat kategorizálunk be, külön terület aktív élőlények és külön élettelen tárgyak kategorizálásakor.
    Mutasd a teljes hozzászólást!
  • Nem tudjátok, hogy az agyi állapotok figyelését mennyire lehet felhasználni a fordításban, helyesírás-ellenőrzésben?
    Mennyire nyelv-, illetve személy-függetlenek a megfigyelhető paraméterek? (Illetve mennyire stabil? Nehéz-e kiszűrni a zajt?)
    Elképzelhető-e, hogy ha valaki két nyelven beszél és bizonyos fogalmakhoz tartozó agyi mintázatait felvették mindkét nyelven, akkor azok összepárosítása után elképzelhető-e, hogy a jelentés egyértelműsítést elvégezzék csak azáltal, hogy elolvassa a szöveget? (Ezáltal egy nagyjából helyes fordítása meghatározható lehetne a szavaknak. Talán a mondatszerkezetről is megtudható lenne valamilyen információ?)
    A helyesírás ellenőrzésnél akkor lehetne jól használható, hogy személytől függetlenek ezek a jelek. Akkor a fogalmak mintáihoz hozzárendelhető lehetne a helyes forma, majd aki végigolvassa (mondjuk a szemet figyelő kamerák alapján ismerhető lehetne, hogy hol tart a felhasználó), az közben automatikusan javítódna is. (Például sohasem tudom, hogy melyik a szoba és melyik a település a helység és a helyiség közül.) (Esetleg ezeket a mintázatokat tárolva a felolvasásához is segítséget nyújthatna.)
    Szerintem lenne értelme egy a nyelvi rendszerekben jól működő nagy kapacitású számítógépet (az embert) munkára fogni, de nem megterhelően. (Azért muris lenne, hogy úgy menne a fordítás, hogy valakit azért fizetnek, hogy olvassa el magában a szöveget és kész is, a többit a számítógép elvégzi.)
    Sajnos a mest. int. ezen részéről nem igazán tanultam... Ti tudtok erről valamit?
    Előre is köszi az infókat, illetve kiindulási pontokat.
    Mutasd a teljes hozzászólást!
  • Valami ilyesmi lenne amenyire én a kis csöp tudásommal meg tudom írni.
    Mutasd a teljes hozzászólást!
    Csatolt állomány
  • Ltl.h

    /***************************
    Language Translation Library
    Version 0.1
    ***************************/
    Mutasd a teljes hozzászólást!
  • Én itt arra gondoltam, hogy például a dev c++ ba benne lenne, csak programozok részére. Nem fogadna el minden mondatott csak szabványos tömondatokat,

    pontosabban amit le tud fordítani. Nem lehetne vele verseket forítani se regényeket. Hibaüzenetett adna olyan mondatra amit nem tud lefordítani. Csak a

    programom használhatóságát biztosítaná. Lefordítaná a menüket, hibaüzenetket, és amit néhány tőmondatba ki lehet fejezni például a 10- 20 legelterjedtebb

    nyelvre. Egy programozó érti mit nem tud lefordítani és miért, ezért tudja hogyan fogalmazza át úgy, hogy le tudja fordítani. A legjobb program se ér semmit ha nem tudom használni mert nem értem, és ezért nem is fogom megvenni. Ettől csak értékesebb lesz a program.
    Mutasd a teljes hozzászólást!
  • Ez az elképzelés már mások fejében is megfogalmazódott. Arra keress a google-on, hogy 'controlled language'.

    Mindenesetre így nagyon költséges a szövegek létrehozása, ami szerintem nem minden esetben éri meg. Ettől függetlenül el tudom képzelni, hogy lenne valamekkora piaca párhuzamosan a hagyományos gépi fordítóprogramok mellett.
    Egyébként sokkal nehezebb a piacon elterjeszteni egy ilyen megoldást, mint egy fordítóprogramot. Ehhez ugyanis az adott controlled language-t 'szabványosítani' kell, el kell fogadtatni, amit csak nagy cégek tudnak átvinni, tehát ezen a piacon a kis cégek szerintem nem rúghatnak labdába.
    Mutasd a teljes hozzászólást!
  • 0-val akar osztani a 1072. sorban.

    egyebkent valoszinuleg azert, mert ha minden forditando mondatrol irnod kell egy magyarazatot, hogy ebben a mondatban ez a szo most ennek a szonak a szinonimaja, ez az ige a lehetseges jelentesek kozul most erre vonatkozik, akkor kb. ugyan annyi munkad volt vele, mintha kiszotaraztad volna, es a progi ugyan lehet, hogy konyebben leforditja, de mivel te nem ismered az adott nyelvet eleg jol (hisz maskulonben nem akarnal a progival forditattni), akkor siman lehet, hogy amilyen magyarazatot te elegendonek tartasz a tokeletes forditashoz, az nem oldja fel az osszes tobbertelmuseget pl. a szuaheli nyelv eseteben.

    Tyrael
    Mutasd a teljes hozzászólást!
  • Miben van a buktatója? Konkrét példát ha kérhetek.
    Mutasd a teljes hozzászólást!
  • Mert az egy HOAX. Ha elég kitartóan terjesztik ezt az egyrémet, akkor még a végén filmet is csinálnak belőle.
    Lásd John Titor, az időutazó. 2001 körül egy fickó azt irogatta küönböző fórumokon, hogy őt 2036-ból küldte vissza az amerikai kormány, fontos küldetéssel. Sokmindent jósolt a jövőről. Még részleteket is közölt az időutazás technológiájáról. Szegény, nem hittek neki. Be is csavarodott rendesen, annyira hitt az álomvilágában.
    Mutasd a teljes hozzászólást!
  • csak
    Mutasd a teljes hozzászólást!
  • Miért?
    Mutasd a teljes hozzászólást!
  • Hát, ehhez minimum wga kell...
    Mutasd a teljes hozzászólást!
  • Sőt! Ha írok egy programot és a szövegeket scriptek formájába írom bele akkor a compiler lefordithatná mind a 6000 nyelvre.
    Mutasd a teljes hozzászólást!
  • Kisé régi, de ha megvannak a fájlok?

    Ha nem mindenkinek írod hanem csak a programozoknak akkor a programodba mikor beírják a szöveget a programozok beletoldhatnának scripteket is, interaktivan a programoddal, amivel már le lehet pontosan fordítani.
    Lehet olyan egyszerű a script, hogy sok nem programozó is megtanulhatná.
    Ha a script pontosan meghatározza a szót nincs kétértelmüség akkor már csak program kérdése a fordítás szvsz.

    Mutasd a teljes hozzászólást!
  • Szia

    Egyet kell értenem abban, hogy a morfológiai generálás a legkönnyebb rész a fordítási feladatban. Ennél nagyon gyakran sokkal egyszerűbbnek látszó problémák is nagyobb fejtörést okoznak (például a mondatok elkülönítése, amelyet a rövdítések és ismeretlen tulajdonnevek egész halmaza tesz bonyolulttá).
    Az én morfológiai generátorom teljesen általános, céljaim szerint bármely nyelv morfológiája leírható vele. A programozása egy halmazelméleten nyugvó kis beágyazott nyelvvel történik, mert tapasztalataim szerint a halmazelméleti leírás közelíti leginkább a fonomorfológia sajátosságait.
    A generálást és az elemzést nem vontam teljesen össze. Míg a generálást elég biztosan megoldottam szótár nélkül, addig az analízishez mindenképp szótárat kellett használnom.
    Ha szabad megkérdeznem, melyik programnyelvet használtad/használod a fejlesztéséhez? Én a C-t preferálom, de már PROLOG-os megoldáson is gondolkodtam.

    Mutasd a teljes hozzászólást!
  • Szia,

    Szeretném megkérdezni az érintetteket (különösen Nadamhu-t, Khameinit és Szindbádot), hogy hol tartanak a fejlesztésükkel.

    Hat egy kicsit leult a dolog. Ahogy mondod: rengeteg munka egy embernek (kulonosen foallas mellett), ezt nekem is be kellett latnom.

    Én jelenleg egy általános morfológiai generátort fejlesztek,

    Nekem van egy kesz morfologiai elemzo-generalo rendszerem. Altalanos olyan ertelemben, hogy ugyanabban a sajat szabalyleiro nyelvben megfogalmazhato mind a magyar mind az angol morfologia. Es termeszetesen a generator es az analizalo ugyanazt a szabalybazist hasznalja. Nem volt egyszeru kitalalni, hogy ez hogyan mukodjon, de a vegso verzio egesz jora sikeredett. Viszont velemenyem szerint sajnos meg mindig ez a legkonnyebb resze a teljes forditasi feladatanak.
    Mutasd a teljes hozzászólást!
  • Örülök, hogy végre találtam egy NLP-vel foglalkozó topicot!

    Szeretném megkérdezni az érintetteket (különösen Nadamhu-t, Khameinit és Szindbádot), hogy hol tartanak a fejlesztésükkel.
    Én jelenleg egy általános morfológiai generátort fejlesztek, amely az általánossága és a programozhatósága miatt újszerű.
    Fő érdeklődési területem nekem is a szövegfordítás, de egy komplett fordítóprogram megírása véleményem szerint nem egyemberes munka, különösen azért, mert egy-egy részterületen is rengeteg megoldatlan problémával kell szembenézni.
    Szeretném, ha ezez a helyen ismét hasznos és gondolatébresztő tapasztalatcsere bontakozna ki.

    Remélem sikerült felébresztenem a topicot

    AmorOmniaVincit
    Mutasd a teljes hozzászólást!
  • Igen, én is kezdem látni, hogy a két koncepció összefésülve hozhatja a legoptimálisabb eredményeket.

    Khamenei
    Mutasd a teljes hozzászólást!
  • Ez egy extrémen nehéz példa, itt még az ember sem nagyon tudja eldönteni, hogy mi a helyes struktúra, nem hiszem, hogy a programom el tudná. Viszont az általad említett 'Pista xxxx ultet.' esetben minden további nélkül tudni fogja, hogy melyik ültetésről van szó xxx függvényében. (Persze megfelelő méretű tudásbázissal. Persze biztosra még nem mondhatom, amíg nincs teljesen kész, de az ilyenek felismerésére 'megy ki a játék' a szemantika kezelésénél nálam.)
    Mutasd a teljes hozzászólást!
Tetszett amit olvastál? Szeretnél a jövőben is értesülni a hasonló érdekességekről?
abcd