MojAndroid
(x) hirdetés

Aki próbált már beszélgetni egy zsúfolt étteremben, konferencián vagy családi összejövetelen, az pontosan ismeri a „cocktail party” jelenséget: az agyad kétségbeesetten próbálja kiszűrni azt az egy-két fontos hangot a háttérzaj tengeréből. Ez egészséges hallással is fárasztó, halláskárosodással viszont sokszor konkrétan kínszenvedés – a beszélgetésből kimaradsz, csak udvariasan mosolyogsz, és próbálsz találgatni, miről van szó.

Egy amerikai kutatócsoport most olyan intelligens fejhallgató-prototípust mutatott be, amely pontosan ezt a problémát célozza: AI segítségével automatikusan megtanulja, kikkel beszélgetsz, és az ő hangjukat kiemeli, miközben a többi hangot, zajt, háttérbeszélgetést radikálisan visszafogja. A fejlesztés különösen ígéretes a nagyothallók számára, de hosszabb távon akár a hétköznapi „sima” felhasználók fülére is rákerülhet.

Mi is pontosan a „cocktail party” probléma?

A jelenség lényege, hogy egyszerre rengeteg hangforrás vesz körül: emberek beszélnek, zene szól, csörömpölnek a poharak, háttérben megy a klíma, a konyhából jön a zaj. Az agyunk alapvetően ügyes abban, hogy arra a hangra fókuszáljon, ami minket érdekel, de ez messze nem tökéletes – és életkorral, hallásromlással ez a képesség drasztikusan gyengül.

A klasszikus aktív zajszűrés (ANC) csak annyit csinál, hogy a monoton, folyamatos zajokat (pl. repülőgép búgása, légkondi, mély moraj) próbálja kioltani. Az emberi beszéd viszont nagyon összetett, változó jel – ha egyszerűen „ráengeded” az ANC-t, azzal a beszélgetőpartner hangját is szét tudod csapni. Éppen ezért az eddigi fejhallgatók és fülhallgatók csak korlátozottan tudtak segíteni ezen a problémán: vagy mindent elnyomtak, vagy túl sok mindent átengedtek.

Az új megközelítés: nem a hangerőt figyeli, hanem a beszélgetés ritmusát

A Washingtoni Egyetem kutatói egy teljesen más oldalról közelítettek: nem azt próbálják megtudni, honnan jön a hang, hanem azt, ki beszél „veled együtt”.

A rendszer két fő AI-modellt használ:

  • Az első modell elemzi a beszélgetés ritmusát – azt, hogy ki mikor szólal meg, mennyi az átfedés az egyes hangok között, milyen váltakozási minta rajzolódik ki. Egy normális társalgásban a résztvevők jellemzően felváltva beszélnek, nem egyszerre ordít mindenki folyamatosan.
  • A második modell az első által kijelölt „beszélgetőpartnereket” külön hangforrásként izolálja, és csak az ő hangjukat erősíti fel, miközben minden mást – más hangokat, háttérzajt, távoli beszélgetéseket – lecsendesít.

A lényeg az, hogy nem kell manuálisan kiválasztanod, kit hallgatsz. Nem kell appban rámutatni a beszélőre, nem kell gombot nyomogatni minden témaváltásnál. Elég, hogy te is aktívan részt veszel a beszélgetésben – a rendszer ebből a „beszélgetős ritmusból” kikövetkezteti, kik azok, akik ténylegesen hozzád beszélnek, és az ő hangjukra fókuszál.

A prototípus már most képes 1–4 beszélgetőpartner hangját kezelni egyszerre, és mindezt úgy, hogy a késleltetés nem zavaró, tehát nem „csúszik szét” a hang a valósághoz képest.

Nem sci-fi hardver: hétköznapi fejhallgatóból építették

Érdekes módon a rendszer nem igényel futurisztikus, egyedi gyártású eszközt. A kutatók kereskedelmi forgalomban kapható zajszűrős fejhallgatót használtak, amit binaurális mikrofonokkal egészítettek ki – tehát mindkét oldalon külön rögzítik a hangokat, térbeli információval együtt. A feldolgozás egy kis beágyazott számítógépen fut, ami a fejhallgatóra csatlakozik.

Ez azért jó hír, mert azt üzeni: nem a hardver a szűk keresztmetszet, hanem az algoritmus. Ha a kódot és a modellt sikerül elég hatékonnyá tenni, a jövőben akár egy apró chipen is elfuthat, ami:

  • simán befér egy vezeték nélküli fülhallgatóba,
  • vagy akár modern hallókészülékbe,
  • sőt, a kutatók szerint okosszemüvegekbe is beépíthető lehet.

Az alapötletet már most elérhetővé tették nyílt forráskóddal, hogy más kutatók és gyártók is tovább tudják vinni – könnyen lehet, hogy pár éven belül több gyártó saját, hasonló „proaktív” hallgatási módot épít a füleseibe.

Miért különösen nagy dolog ez a nagyothallók számára?

Aki hallókészüléket visel, annak a legnagyobb ellenség gyakran nem is a „halkan beszélő ember”, hanem a zajos környezet. A jelenlegi hallókészülékek ugyan rendelkeznek irányított mikrofonos móddal és zajszűréssel, de:

  • nehezen különböztetik meg a fontos és a lényegtelen hangokat,
  • ha felhangosítod a beszélgetőpartner hangját, a zaj nagy része is együtt jön vele,
  • egy étteremben sokszor konkrétan érthetetlenné válik a beszéd.

Az új AI-rendszer ezzel szemben „szociális fókuszra” hangol: nem azt nézi, mennyire hangos valami, hanem azt, hogy a beszélgetés része-e. A kutatások szerint a tesztalanyok egy zajos környezetben több mint kétszer jobbnak értékelték a megértést – vagyis ugyanabban a helyzetben sokkal kevésbé fáradtak el, és sokkal jobban értették a beszélgetést, mint a prototípus nélkül.

Ez nem csak kényelmi kérdés. Halláskárosodásnál nagyon gyakori jelenség, hogy az ember egyre kevésbé jár el társaságba, mert egyszerűen fárasztó és frusztráló mindig visszakérdezni, találgatni, „félmondatokból összerakni” a lényeget. Hosszú távon ez könnyen vezethet elszigetelődéshez, depresszióhoz, romlik az életminőség. Egy ilyen technológia pontosan ezen a ponton tud segíteni: nem kell kivonulni a társaságból, mert végre érteni lehet, miről beszélnek.

Nem ez az első AI-fülesük: hangbuborékok és „rá nézek és csak őt hallom”

Ez a fejlesztés egy hosszabb kutatási vonal újabb lépcsője. Ugyanez a csapat korábban már bemutatott több izgalmas koncepciót is:

  • „Sound bubble”: olyan fejhallgató, amely 3–6 méteres hangbuborékot hoz létre körülötted. A buborékon belüli hangokat átengedi, felerősíti, a buborékon kívüli beszédet és zajt pedig átlagosan kb. 49 dB-lel csillapítja – ez kb. a porszívó és a falevelek zizegése közötti különbség.
  • Target Speech Hearing: olyan rendszer, ahol rá nézel valakire 3–5 másodpercig, a füles pedig „felismeri” az ő hangját, és csak az ő beszédét emeli ki, minden mást drasztikusan visszafog. Utána akár el is fordulhatsz, mozoghattok, a rendszer továbbra is rajta marad az adott hangon.
  • „Szemantikus hallás”: itt a felhasználó hangalapú parancsokkal vagy appból kiválaszthatja, milyen hangokat szeretne hallani (pl. madárcsicsergés, emberi beszéd, sziréna) és mit akar elnyomni (pl. gépzaj, forgalom, zajos társalgás).

Az új, „ritmusfigyelős” fejhallgató abban különbözik ezektől, hogy nem kér külön gesztust vagy beállítást – nem kell buborékméretet választanod, rámutatni a beszélőre, hangosztályt kijelölni. Egyszerűen magától próbál rájönni, kik a beszélgetőpartnereid, és ehhez igazítja a hangképet.

Hol tart most, és mikor lehet ebből valódi termék?

Fontos hangsúlyozni, hogy ez még prototípus. Egyetemi kutatásról beszélünk, amelyet laborban és valódi felhasználókkal is teszteltek, de:

  • dinamikus beszélgetéseknél, ahol sokan szólnak egymás szavába, a rendszer még hajlamos hibázni,
  • ha valaki csak hosszú monológot tart, a ritmus kevésbé „párbeszédszerű”, ez is kihívás,
  • új beszélgetőpartnerek belépése és kilépése szintén nehezíti a dolgát, bár a kutatók szerint ebben meglepően jól teljesített.

A technikai háttér viszont ígéretes: a komplett rendszer elfér egy hordozható hardveren, és már most elég gyors ahhoz, hogy valós időben működjön. A cél az, hogy a jövőben hallókészülékekbe, fülhallgatókba, okosszemüvegekbe kerüljön be egy miniatürizált verzió.

A csapat korábbi projektjei kapcsán már startup alapításán dolgozik, és a kódjaik jelentős részét nyílt forráskódúként publikálják, vagyis reális esély van rá, hogy egy-két generáció múlva valamelyik nagy gyártó beépíti a saját prémium fülesébe.

Hogyan illik ez a mostani AI-füles trendek közé?

Ha megnézzük azokat a funkciókat, amiket ma már a csúcs fülhallgatók kínálnak – adaptív zajszűrés, beszélgetésdetektálás, élő fordítás, hangszín-profilok, stb. –, jól látszik, hogy a hangtechnika is ugyanazzal megy át, mint a mobilfotózás: AI nélkül már nincs igazán komoly fejlesztés.

  • Az egyik oldalon ott vannak az Apple AirPods Pro-hoz hasonló megoldások, amelyek automatikusan halkítanak, ha valaki hozzád beszél, vagy adaptívan keverik a külvilág hangját a zenével.
  • A másikon a Samsung Galaxy Buds-féle irány, ahol élő AI-fordítás, okos zajkezelés, beszéddetektálás jelenik meg.

A washingtoni csapat fejhallgatói ezeket a trendeket lépik meg jóval agresszívebb, kutatási szintű módon: nem csak finomhangolják a zajszűrést, hanem átalakítják azt, ahogyan egyáltalán halljuk a környezetünket – különösen a beszélgetéseket.

Mi jöhet ezután?

Ha a technológia kiforrja magát, több irány is adja magát:

  • Hallókészülékek új generációja: ahol nem csak a hangerőt erősíted fel, hanem konkrétan a beszélgetőpartnereidre fókuszálsz, és a zajt intelligensen nyomja el a rendszer.
  • Munkahelyi használat: open office, zajos irodák, call centerek – ahol fontos, hogy a vevő és a kolléga hangja tiszta legyen, minden más pedig „menjen a háttérbe”.
  • Oktatás, előadások: egy előadóteremben vagy konferencián a rendszer automatikusan az előadó hangját tartja fókuszban, a környezeti zajt minimálisra veszi.
  • „Szuper hallás” hétköznapi felhasználóknak: ha ez a funkció egyszer elérhető lesz egy „sima” prémium fülhallgatóban is, sokan szimplán kényelmi okból fogják bekapcsolni – nem kell üvölteni a bárpultnál, nem fáradsz el annyira egy zajos buliban vagy étteremben.

A technológia természetesen nem tökéletes, és rengeteg etikai, adatvédelmi kérdést is felvet (mennyire oké például, ha kvázi „szuper mikrofonként” viselkedik egy ilyen füles). De egy biztos: a hallássegítő eszközök és a fejhallgatók világa most ugyanott tart, ahol pár éve a kamerák – az AI nem extra feature, hanem az egész élmény alapja lesz.

És ha ez azt jelenti, hogy egy nagyothalló nagyszülő végre újra kényelmesen el tud beszélgetni az unokáival egy zajos étteremben, akkor ez az a fajta jövő, amire szerintem senki nem fog panaszkodni.

(x) hirdetés
2025.12.10.

Ezeket már olvastad?

+