Autókürt, babasírás vagy kiabálás – az emberi fül számára könnyű megkülönböztetni ezeket a hangokat, akár vezetés közben is. Egy önvezető autó számára azonban mindez komoly kihívás lehet. Ezért a Bosch az emberi érzékeléshez hasonló, önálló, tanulásra képes rendszert fejleszt, hogy az önvezető járművek számára se legyen gond megkülönböztetni a szirénahangot egy autóriasztótól.
Amikor autónkkal útnak indulunk, fel sem tűnik, hogy hányféle hangot hallunk menet közben. A közelünkben elhaladó többi jármű és a saját autónk által kibocsátott zaj mellett a közelünkben lévő gyalogosok vagy egy szirénázó mentőautó hangja is mind információt szolgáltat. Ez különösen akkor fontos, amikor nem látunk valamit, hiszen ilyenkor a hangok jelentik a legfontosabb tájékozódási pontot.
Nekünk könnyű, a gépeknek nehéz
Legtöbbünknek fel sem tűnik, annyira magától értetődő, hogy más a hangja egy síró kisbabának, mint egy autó riasztóberendezésének. Az önvezető autók számára azonban jelenleg lehetetlen különbséget tenni a különböző hangok között, nem beszélve azok értelmezéséről és a megfelelő döntések meghozásáról. Ezért fejleszt a Bosch Research kutatócsapata olyan rendszereket, amelyek képesek lesznek minderre, ráadásul mesterséges intelligencia segítségével folyamatosan tanulni is tudnak.
Szemek után füleket fejlesztünk
Az önvezető autók ugyanúgy, mint az emberek, különböző „érzékszervekkel” tájékozódnak, persze a gépek esetében a szemet kamerák, radarok és lidar szenzorok helyettesítik, de szükség van fülekre is. Ezeknek, a gépjárművekre szerelhető külső, okosmikrofonokkal működő rendszereknek a fejlesztésén dolgoznak mérnökeink.
Ezeknek a „gépi füleknek” nem lesz elég, hogy hallják, ami történik a jármű környezetében, értelmezniük is kell majd, hogy egy adott zaj mitől vagy kitől származik, és persze azt is, releváns-e egyáltalán az adott hang az autónk szempontjából. Ezért az érzékelők mesterséges intelligencia alapú algoritmusokat használnak. Az előre feltöltött hangkészlet alapján a rendszer megtanulja felismerni az egyes hangokat és kiszűri azokat, amelyek irrelevánsak számára. Ha pedig már felismerte a jármű például a szirénát, a megoldás továbbítja az információt az autó fedélzeti számítógépére, hogy meghatározzák, mit is kell tennie adott szituációban a járműnek.
Hogyan is működnek a „gépi fülek”?
A Bosch Research csapata mesterséges intelligencia alapú, mély hangelemzési megoldásokat fejleszt, hogy hasznos információkat nyerjenek ki a hangmintákból különböző felhasználási területeken, nem csupán autóipari, hanem például az egészségügyben használható eszközökhöz is.
A hangalapú intelligens forgalomfigyelő képes utcai hangokat megkülönböztetni egymástól, egy olyan zajtérkép segítségével, ami a forgalmi viszonyokról tárol információkat. Többek között az elhaladó járművek számáról, típusáról, haladási irányáról, sebességéről. Az audio alapú forgalomfigyelő megoldás önálló eszközként is használható, de a közterületeken már működő más érzékelőkbe, így kamerákba is integrálható.
Okosan hallgatóznak
A rendszert arra készítik fel, hogy képes legyen tanulni mesterséges intelligencia segítségével. Az ilyen, mély tanuláson alapuló megoldások egyik legérzékenyebb része, hogy nagy mennyiségű címkézett adatra van szükség. Vagyis a gépnek pontosan tudnia kell, milyen hangot hall éppen. Azonban a hatalmas adatmennyiség megjelölése rendkívül nehéz, munkaigényes, ráadásul a hibásan rögzített címkék komoly problémákat okozhatnak.
Címkézés kiiktatva
Az egyik lehetséges megoldás, ha a hangadatokat úgy tudjuk megjelölni, hogy nincs szükség egy adott eseménnyel kapcsolatos időinformációra, csak a hangesemény típusát kell megjelölni. Például azt, hogy kutyaugatást, babasírást, szirénázást rögzítettünk éppen, de nem kell jelölni az esemény kezdetét és végét. Ez a megoldás jelentősen csökkenti a címkézési költségeket és a hibázási lehetőségeket.
A University of Berkeley csapatával együttműködve mérnökeink megtervezték az első olyan, felügyelet nélküli tanulási keretrendszert, amellyel a gépek képesek megkülönböztetni a hangok jellemzőit címkék nélkül. A tanultakat persze finomhangolhatjuk, ha a későbbiekben kis mennyiségű címkézett adattal egészítjük ki, pontosítjuk az információkat. Ez különösen előnyös olyan eszközön, amelyben kis számítási erőforrások állnak rendelkezésre, hiszen ilyenkor fontos a teljesítmény javítása az idő múlásával az új, rögzített adatokkal.
A megoldás kifejlesztése során szakembereink arra is figyelnek, hogy az adatok gyűjtése érzékeny terület. A hangokat megfelelő anonimitás mellett lehet csak szinkronizálni. A kutatás azonban arra is rámutatott, hogy szükség van erre, mert hatalmas lehetőségeket rejt ez a technológia.