Elnézést, maga a tolmácsgép?

“Az élő tolmáccsal szemben a gép csak akkor lehet majd versenyképes, ha az emberhez hasonlóan minden képességét összehangoltan képes használni.”

Amikor a barátaim megtudták, hogy tolmácsképzésre jelentkezem, többen is rákérdeztek, minek. Szerintük csak idő kérdése, és a gépek minden fordítót és tolmácsot kiütnek a nyeregből – meséli pályakezdő tagunk. A kérdés mindannyiunkat évek óta foglalkoztat. Hogyan készüljünk a jövőre? Mik a kilátásaink? Vannak egyáltalán?

Szoftos interjú Ludányi Zoltán informatikussal: Ludányi Zoltán a Műszaki Egyetemen végzett informatikusként. Már tanulmányai során is érdekelte a beszédtechnológia, a formális nyelvek és a mesterséges intelligencia kérdése. Jelenleg informatikusként dolgozik egy pénzügyi szoftvereket fejlesztő cégnél, ahol többek között az interjúban említett eszközök felhasználásának optimalizálását célzó kísérleteket is folytatnak.

S.L. : Mit gondolsz, a jelenlegi technikai fejlettség mellett pontosan mikorra tehető, hogy gépek tolmácsolnak majd emberek helyett?

L.Z.: Erre jelenleg igazán komolyan vehető vagy igazolható becslést senki se tudna tenni. Míg az informatikában bizonyos technológiai trendek elég jól becsülhetők akár hosszútávon is (ilyen például a számítási kapacitás növekedése), addig a kutatással/tudásalapú iparral kapcsolatban ilyen becslést tenni viszonylag nehéz. Abban szerintem szinte mindannyian egyetértünk, hogy 100 éven belül lesznek „nagyon erős” fordító/tolmácsgépek, olyanok, amelyek az emberi tolmáccsal legalábbis „összemérhetők”. Elképzelhető, hogy egyes dolgokban még 100 év múlva is gyengébbek lesznek, bizonyos tekintetben viszont akár sokkal erősebbek is lehetnek. Ezekre a kihívásokra mindjárt visszatérünk, de arra, hogy ez a trend a következő 100 évben hogyan zajlik majd le, és 5, 10, 20 év múlva milyen fejlődési szinten állunk majd, arra ma szerintem nagy tételben senki se merne fogadni.

Mielőtt kitérünk a tudományos/technikai kihívásokra, érdemes arról is beszélnünk, hogy mindennek milyen gazdasági vonzatai vannak, milyen hajtóereje van. A számítási kapacitás növekedésének a század eleje óta nagy hajtóereje van, például az időjárásjelentéshez nagy kapacitás kell; a 80-as és 90-es években a számítógépes játékipar, ma a mobiltelefon-piac miatt kell egyre kisebb helyre egyre nagyobb számítási kapacitást bezsúfolni. Ezzel az átalakulással párhuzamosan rengeteg pénzt és tudományos kutatási forrást „öntenek” ebbe az iparágba. Nem biztos, hogy a tolmácsolás, azaz a beszélt szöveg értésének, a fordításnak és a mesterséges beszédszintézisnek az együttes alkalmazása teljes terjedelmében ugyanilyen központi kutatási téma jelenleg – főként gazdasági okokra visszavezethetően. A beszélt szöveg értése részben sok figyelmet kap, jó példa erre az iOS-es telefonokon a Siri, az Androidos telefonokon a Google Assistant, vagy az Alexa, az Amazon nemrég megjelent megoldása. Azért mondom, hogy részben, mert ha megnézzük, ezek a megoldások többnyire az angol nyelvre fókuszálnak, ami piaci/gazdasági szempontból érthető is. Egyrészt nem lenne kifizetődő kifejleszteniük például a néhány millió ember által beszélt magyar nyelvre; másrészt az a felhasználói kör, amelyet megcéloznak, többnyire tud angolul, így nincsenek is rákényszerülve, hogy a nagyobb nyelveken kívül más nyelveket is támogassanak. Itt idővel biztos, hogy a piac mérete sok nyelvet be fog még hozni, talán hamarosan (kínai, német, francia, spanyol), de az kevéssé valószínű, hogy ezek a cégek 5-10 éven belül a magyar nyelvre is kihoznának ilyen megoldásokat. Bár a szövegértés támaszt általános, nyelvfüggetlen kihívásokat (pl. zajszűrés), ezzel összemérhető nyelvfüggő kihívásai is vannak. Tehát ha visszatérünk a számítógépes tolmácsolás gazdasági kihívásaira, látjuk, hogy az egyik nagy korlát, amelyikkel szembekerülünk az az, hogy ha lesznek is hamarosan fordítóprogramok, akkor azok csak kevés, széles körben elterjedt nyelvek között lesznek hozzáférhetők. Ez a magyar nyelvvel dolgozó tolmácsoknak biztosan remek hír.

S.L.: Mi a helyzet a fordítással és a beszédszintézissel?

L.Z.: A beszédszintézis talán a legfejlettebb terület, ahol már évtizedek óta rendelkezésre állnak a szükséges tudományos ismeretek, illetve évek óta léteznek nagyon pontos megvalósítások is. Gondoljunk a telefonos kiszolgálórendszerekre, a mesterséges bemondórendszerekre, vagy akár a látássérülteknek kifejlesztett felolvasószoftverekre – ilyen megoldások elfogadható minőségben már évtizedek óta léteznek. Itt megint az az érdekes gazdasági jelenség figyelhető meg, hogy a meglévőknél technológiailag sokkal jobb megoldások is elképzelhetőek lennének, mégsem találkozunk magasabb minőséggel, egyszerűen azért, mert a rosszabb is még „éppen elfogadható”. Ezzel szemben a fordításra ugyanaz igaz, mint a beszédértésre: nem biztos, hogy a fejlettségéről lehet általánosan, nyelvfüggetlenül beszélni, és ez pontosan a nyelvek sokszínűsége miatt van így. Bár a fordításnak is vannak általános, nyelvfüggetlen aspektusai, a feladat jelentős része itt is nyelvfüggő, hiszen a fordítás első lépése az, hogy a gépnek az adott nyelven hallott hangsort szavakra kell bontania, és a szavakon túlmutató információt meg kell értenie, majd utána át kell ültetnie azt egy másik nyelvre. Tovább nehezíti a dolgot, hogy a fordítás nemcsak nyelvfüggő, hanem nyelvpárfüggő is. Ha az elterjedtebb fordítóprogramokra gondolunk, látjuk, hogy például a Google fordítójában az angol a központi nyelv, tehát egy horvát-magyar fordítást valójában horvát-angol-magyar fordításként valósít meg. Ez bizonyos értelemben minőségi romláshoz vezet. Ez a számítógépes tolmácsolás szempontjából megint azért fontos, mert azt jelenti, hogy jobb minőségű fordítások valószínűleg a nagyobb nyelvekre lesznek hozzáférhetők, míg a kisebb nyelvekre – pusztán gazdasági okokból – csak később. Bizonyos fordítóprogramok már nem egy beszélt központi nyelvet használnak közvetítő nyelvként, hanem egy mesterséges nyelvet, amelyben például sokkal kevésbé jellemző a kétértelműség. Ez azért praktikusabb, mert nem nyelvpárokat kell kezelni, hanem minden nyelvből csak a megértés és a szintetizálás folyamatát kell modellezni. Ahogy a szövegértés és a beszédszintézis esetén a szintézis a nyelvtan rögzített, egyszerűbb szabályai miatt könnyebb feladat, mint a szövegértés (mármint a hangok és szavak azonosítása), úgy a fordítás esetén is igaz, hogy a mondatok szintézise egy már ismert, modellezett nyelvből könnyebb, mint egy pontos modell felépítése akár egy írott szövegből.

S.L.: Többször említetted, hogy a felhasználónak is alkalmazkodnia kell a technológiához. Például el kell fogadnia, hogy nem az anyanyelvén beszél a géphez, vagy hogy a visszahallott felolvasó hang “robotikusabb”. Milyen egyéb pontokon kell majd alkalmazkodnia az embernek?

L.Z.: Ez érdekes kérdés, és ahogy látjuk, tényleg sokkal inkább az ember alkalmazkodik a géphez, mint fordítva. Például billentyűzetet és egeret használunk, és általában kevesen mondják azt, hogy ez számukra elfogadhatatlan adaptáció. Az ember alapvető képessége, hogy eszközöket használ, és ez mondjuk már a Siri esetében is látszik, hogy sokkal inkább eszközként, nem pedig egy másik emberként tekintünk rá. Ha valaki azt mondja, hogy utasításokat kell neki adni, csak így vagy úgy érti meg, akkor lehet, hogy 5 percre megrendül a mesterséges intelligencia fejlődésébe vetett hitünk, de 5 perc elteltével vígan alkalmazkodunk a szabályokhoz, és örülünk neki, hogy mindössze pár szót kimondva autóvezetés közben is fel tudunk hívni valakit. Míg eddig főleg a fizikailag megérinthető dolgokban kellett eszközhasználóvá válnunk, addig itt beszédünkben kell azzá válnunk. Az ember azért fogadja el könnyen ezt, mert általában tudja, mi a célja, és elfogadja, hogy azt egy adott módon kell megfogalmaznia. Visszatérve a fenti példára: az Amazonnak csak az a fontos, hogy pl. egyetlen paranccsal tudjunk tejet rendelni, ha látjuk, hogy nincs több a hűtőben. Az Amazon tudja, milyen tejet szoktunk rendelni és honnan, így elég annyit mondanunk, hogy „Alexa, order 3 bottles of milk”, és Alexa már be is tette azt a szokásos heti bevásárlókosarunkba. Jobb lenne nekünk, ha Alexa arra is rendelne, hogy „Ó, már megint elfogyott a tej!”? Valószínűleg jobb lenne, de nem fizetnénk plusz 30.000 forintot egy Alexa 2.0 szoftverért, csak azért, hogy az eredeti angol mondatot megspóroljuk.

Hasonló példa, hogy az egyes kultúrák illemszabályait, sajátosságait nehéz leképezni. Például a japánok esetében biztosan szerencsésebb, ha a magázódási szintek betartásával kommunikálunk. Ne feledkezzünk meg azonban arról a körülményről, hogy a beszélgetőpartnerek mind tisztában vannak azzal, hogy a tolmácsolást gép végzi. Így az elvárások is megváltoznak. A társadalmi elvárás egyes helyzetekhez rendkívül rugalmasan tud idomulni. Én ezt legelőször akkor figyeltem meg, amikor az Ikeában elfogadtuk a tegezést. Szerintem Magyarországon az Ikea volt az első áruház, ahol azt mondták, hogy „légy szíves, tedd ezt vagy azt”. Elsőre furcsa volt, de megszoktuk. Az e-mail-es kommunikációban is elfogadtuk, hogy egy-egy ékezet lemarad, feltéve, hogy az ékezet hiánya nem értelemzavaró. Itt szerintem az a nagy kérdés, hogy a tolmácsolás melyik szintjét célozzuk. A jelenleg zajló fejlesztések azért többségében nem a klasszikus értelemben vett tolmácsolás szintjét célozzák meg, nem bonyolult, összetett mondatok fordítását végzik, inkább csak egyszerűbb, szabályos mondatok megértését és fordítását tűzik ki célul. Biztosan nagy sikere lenne egy olyan mobilappnak, amely az utazásaink során segítene egyszerűbb mondatok lefordításában, tájékozódáskor, kenyérvásárláskor, egyéb helyzetekben. Ez ma reális célkitűzés, hiszen egyszerűbb mondatokat megért a Siri, egyszerű mondatokat viszonylag pontosan fordítanak a fordítóprogramok, és fontos, hogy az ilyen szituációkban a szereplők is elfogadják a kapott kimenet minőségét. Ha pl. a pékségben a fordító app ‘a kérek egy kiló kenyeret’ helyett azt mondja, hogy ‘kérek egy kiló tésztát’, nem történik nagy baj. Egy üzleti vagy politikai tárgyaláson ilyen hibák nyilván nem engedhetők meg. Ha ebben a folyamatban helyettesíteni szeretnénk az embert, nagyon fejlett mesterséges intelligenciára lenne szükség, amely megérti, hogy mit és miért akarunk mondani. Technológiailag itt még nem tartunk, és hogy mikor érjük el a mesterséges intelligenciát, amely erre képes lehet, arra nagyon széles időtávon szóródó optimista és pesszimista becslések vannak, de ezzel kapcsolatban ma nincs közmegegyezés.

S.L.: Említetted, hogy bizonyos kérdésekben a gép akár jobb is lehet, mint az ember. Miben tud jobb lenni a gép?

L.Z.: Még a jelenlegi technológiai fejlettség mellett is be kell látnunk, hogy bizonyos kérdésekben a gép már most is jobb, mint az ember. Bár még nincs mesterséges intelligencia, de azt már tudjuk, hogy a gép nagyságrendekkel gyorsabban tud pl. számolni, mint az ember. Ez általában igaz a tolmácsolással/fordítással kapcsolatban is: ahol mennyiségi kérdés van, ott a gép verhetetlen. A gépnek a memóriájában ott van a teljes szótár, ezredmásodpercek alatt képes benne keresni, illetve a gép – még ha rossz minőségben is –, de sok nyelvet ismerhet. Ezekkel az aspektusokkal az ember már most sem veheti fel a versenyt. Ezenkívül ne feledkezzünk meg arról sem, hogy a gép sosem fárad. Egy gép 24 órát is képes végigtolmácsolni azonos minőségi szinten, percenként váltogatva a nyelvet; erre egy ember nem képes.

S.L.: ... és miben “tud jobb lenni” egyelőre az ember?

L.Z.: A többértelműség értelmezésében. Egyelőre azzal a gép nem tud megbirkózni. Az egyszerűbbtől a bonyolultabb fordítóprogramok felé haladva: az egyszerűbbek csak szavakat fordítanak szavakra, míg a bonyolultabbak megpróbálják több lehetséges szóból kiválasztani azt, amelyik a mondat vagy a bővebb szövegkörnyezet szerint valószínűbb. Például az „ez egy gyönyörű nap” mondatot egy csillagászati vagy sci-fi szövegben a fordítóprogram esetleg már fordíthatja annak, hogy „this is a beautiful sun”. Itt persze az eredeti mondat is használhatta volna az egyértelműbb csillag szót, de a fordítóprogram ettől még tudhatja, hogy ilyen témakörben a nap (kisbetűvel) lehet akár a csillag szinonimája is. Egyes fordítóprogramok nemcsak szavakat, hanem szókapcsolatokat is tartalmaznak, pont azért, hogy elkerüljék az ilyen hibákat. Kifejezések esetén ez nagyon hatékony tud lenni, hiszen olyan kifejezésekről van szó, melyek esetében a szó szerinti fordítás tipikusan helytelen. A még bonyolultabb fordítóprogramok statisztikai alapúak, az alapján próbálják megbecsülni, hogy több lehetséges fordítás közül melyik a helyes, hogy más szövegekben milyen gyakorisággal fordították a szöveget azonos módon. Ennek a módszernek nyilvánvaló hátránya, hogy annyira ad jó fordítást, amennyire a mintakészlet illeszkedik a fordítandó szöveghez. Olyan területeken, ahol sok referenciaszöveg áll rendelkezésre, jó is lehet (pl. uniós jogszabályok, ahol minden jogszabály tényleg minden nyelven, pontosan lefordítva elérhető.) Ugyanakkor szűkebb területtel foglalkozó szakszövegekben nem biztos, hogy a gép rendelkezni fog a jó minőséghez szükséges méretű statisztikai mintával. Itt a tolmácsoknak egyelőre szintén hatalmas előnyük van. A mai technikai trendeket vizsgálva kimondható, hogy sem a szótár- és szabályalapú rendszerek, sem pedig a statisztikai alapú fordítóprogramok nem váltották be a hozzájuk fűzött reményeket, hiszen nem árasztottak el minket a jobbnál jobb minőségű fordítóprogramok. Ma a legtöbb kutatás a mesterséges intelligencia, a gépi tanulásos módszertanok irányába fordul. Hogy ezek ténylegesen mikor és hogyan hozzák meg a várt áttörést, az egyelőre még kérdés.

S.L.: Milyen egyéb kihívásokkal kell megküzdenie a gépi tolmácsolásnak?

L.Z.: Fontos, hogy a tolmács nem kizárólag hang alapján tolmácsol. Először is a tolmácsnak vannak előismeretei. Egy gép is „tehet szert” ilyenekre, de ma azért viszonylag kevés olyan specifikus szemantikus adatbázis érhető el pl. a szépségiparral kapcsolatban, amelyből egy gép tudást meríthetne. A tolmács például egy nem érthető/általa nem értett szó esetén támaszkodni tud a meglévő ismereteire, míg egy ilyen tudásbázis nélküli, tisztán fordításra szakosodott program nem képes erre. Másodszor fontos tényező, hogy a tolmács jelen van, tehát lát is. Tudja a beszélő száját követni, látja a testmozgását stb. Ez a legtöbb gép számára ma szintén nem adott. Ebből két dolog következik: egyrészt a tolmácsgépek olyan környezetben tudják majd felvenni a versenyt a tolmáccsal, ahol a tolmács sem rendelkezik ezekkel az előnyökkel; másrészt az élő tolmáccsal szemben a gép csak akkor lehet majd versenyképes, ha az emberhez hasonlóan minden képességét összehangoltan használja. Így tehát a nagyon jó fordítószoftverek létrehozása után a következő kihívás a különböző egyéb szoftverekkel való összehangolásuk lesz – ez is szép kihívás lesz a tolmácsolásban. Ha ezeket a gazdasági és technikai kihívásokat mind-mind egymás mellé tesszük, azt gondolom, hogy az egyszerűbb, pl. turistákat segítő tolmácsolás (amit ma sem tolmácsok végeznek) hamar lecserélhető lesz gépi tolmácsolásra, azonban a szakmai jellegű tolmácsolás, amelyet Ti végeztek, még sokáig nem fogja elérni a kívánt szintet.

Végül, de nem utolsó sorban itt van a titoktartás kérdése is. Biztos vagyok benne, hogy a politikusok vagy cégek nagy többsége nem akarja majd, hogy a megbeszéléseiken elhangzó információk kiszivárogjanak. Ennek kockázata nyilván egy tolmács esetében is fennáll, de ott egyetlen emberben kell megbízni. Van azonban egy rossz hírem: a Google-t vagy bármelyik nagy céget ez nem fogja érdekelni. Nem fogják odaadni az algoritmust offline használatra, mert félnek attól, hogy a tudás kiszivárog. Nekik az nyújt védelmet, ha a valamiképp előfeldolgozott adat az ő szervereiken értelmeződik és fordul le. Így működik ma a Siri és a többi megoldás is. Ráadásul a beérkező adat nekik szintén érték, tovább gazdagítja az adatbázisukat. Ragaszkodni fognak ahhoz, hogy a tolmácsolás „náluk”, online történjen meg. Már ez önmagában 5-10 évnyi túlélési lehetőséget ad a humán tolmácsoknak attól a naptól számítva, amikor megjelenik a legelső ilyen jellegű tolmácsprogram.

Az interjút készítette: Sotkovszky Lili

A szöveget gondozta: Beták Patrícia, Katona Ádám, Wagner Veronika