Ahoj,
Sice HW od doby co jsem z prumky uz moc nedelam, ale rad se podivam co delaji jini, pripadne muzu i poradit. Co umim:
(0) elektroniku, analogovou (rekneme do 100 MHz) a digitalni, tu ale postaru (tj. sestavovani zarizeni z predem pripravenych chipu). Navrh chipu, ani programovani hradlovyho pole ve VHDL nebo Verilogu jsem jeste nezkousel (kdyby bylo potreba tak se to v kratke dobe naucim). (1) zpracovani signalu, zejmena 1D (zvuk, radar, sonar), trochu i 2D (obrazky, video), ale tam zaostavam tak 10 let. (2) trochu numerickou matematiku a simulovani fyzikalnich soustav (muze se hodit pro model sveta kterym robot previda budoucnost). (3) strojovy uceni (SVM, HMM, neuronovy site) (4) rozpoznavani recniku podle hlasu (to by se vam mohlo hodit do robota), v roce 2002 jsem byl v teamu ktery udelal v te dobe nejlepsiho system na svete (brano neoficialne --- tj. netestovalo se to v soutezi ale az po ni a pak uz se to nikdy nespustilo protoze to bylo prilis zrave na CPU cas a ucastnici workshopu se rozutekli do sveta a nikdo uz nebyl schopen to cele spustit). (5) logiku (Goedlovy vety, apod. k bastleni to primo uzitecny neni (s vyjimkou formalni verifikace), ale je to zajimavy)
Takze bych treba mohl o necem z toho udelat uvodni prednasku, kdyby byl zajem nebo jen tak poradit.
Zajimaji me nasledujici projekty:
http://brmlab.cz/project/bci http://brmlab.cz/project/dna http://brmlab.cz/project/photons http://brmlab.cz/project/quadcopter http://brmlab.cz/project/tesla_coil
David
PS: Zatim dodelavam disertacku, takze opravdu cas budu mit az nekdy na podzim.
Ahoj David!
On 08/16/2010 08:36 PM, David Klusacek wrote:
PS: Zatim dodelavam disertacku, takze opravdu cas budu mit az nekdy na podzim.
To urcite nevadi, casu na hackovanie bude dost :-) Az budes mat cas tak sa zastav na jednom z nasich meetupov (oplati sa sledovat http://brmlab.cz/meetups) a pokecame zoci-voci.
Ahoj!
On Mon, Aug 16, 2010 at 08:36:14PM +0200, David Klusacek wrote:
(4) rozpoznavani recniku podle hlasu (to by se vam mohlo hodit do robota), v roce 2002 jsem byl v teamu ktery udelal v te dobe nejlepsiho system na svete (brano neoficialne --- tj. netestovalo se to v soutezi ale az po ni a pak uz se to nikdy nespustilo protoze to bylo prilis zrave na CPU cas a ucastnici workshopu se rozutekli do sveta a nikdo uz nebyl schopen to cele spustit).
To zni hodne zajimave! Do Turinga budeme urcite rozpoznavani hlasu chtit implementovat, uvitame jakekoliv tipy, az to bude aktualni. :)
Mimochodem, ve stredu bude prvni meetup kolem Tesla Coil, kdybys mel cas si odpocinout od disetracky. :)
a pak uz se to nikdy nespustilo protoze to bylo prilis zrave na CPU cas a ucastnici workshopu se rozutekli do sveta a nikdo uz nebyl schopen to cele spustit).
To zni hodne zajimave! Do Turinga budeme urcite rozpoznavani hlasu chtit implementovat, uvitame jakekoliv tipy, az to bude aktualni. :)
Rad vam o tom neco reknu. Nebo o tom muzem i usporadat nekolik prednasek. Pripadne i muzu neco naprogramovat.
Jen abychom si rozumeli. Je to rozpoznani recnika (byl to on na ktereho jsme to trenovali nebo nebyl (vrati liklihood ratio, pro trenovani potrebujes aspon 30 sekund, pro rozpoznani 5 seknud -- to pak dostanes EER (=equal error rate) okolo 0.7%, kdyz se trening rozsiri na 5 minut a rozpoznava se z minuty tak jsme dosakovali EER 0.1% --- ovsem predpokladalo se ze uzivatele nepodvani, ze se nesnazi menit hlasy nebo nekoho napodobovat (takova data nebyla v trenovaci/testovaci databazi, takze nevime co to v takovem pripade udela))), ne prepis toho co rikal. To delam jako disrtaci, ale zatim to potrebuje enormni vykon (> 1TFLOPS) a velkou pamet a stejne to poradne nefunguje. Takze do robota to zatim neni.
Mimochodem, ve stredu bude prvni meetup kolem Tesla Coil, kdybys mel cas si odpocinout od disetracky. :)
Jo rad prijdu. Jen co mi prozradite adresu.
On Tue, Aug 17, 2010 at 12:32:18AM +0200, David Klusacek wrote:
Jen abychom si rozumeli. Je to rozpoznani recnika (byl to on na ktereho jsme to trenovali nebo nebyl (vrati liklihood ratio, pro trenovani potrebujes aspon 30 sekund, pro rozpoznani 5 seknud -- to pak dostanes EER (=equal error rate) okolo 0.7%, kdyz se trening rozsiri na 5 minut a rozpoznava se z minuty tak jsme dosakovali EER 0.1% --- ovsem predpokladalo se ze uzivatele nepodvani, ze se nesnazi menit hlasy nebo nekoho napodobovat (takova data nebyla v trenovaci/testovaci databazi, takze nevime co to v takovem pripade udela))), ne prepis toho co rikal. To delam jako disrtaci, ale zatim to potrebuje enormni vykon (> 1TFLOPS) a velkou pamet a stejne to poradne nefunguje. Takze do robota to zatim neni.
Aha, pro nas je asi i tech 5 sekund docela dost, asi bychom vytradovali vyssi EER za 1 sekundu delay nebo neco takoveho. Potrebovali bychom recnika rozpoznavat realtime a v prvni iteraci nam vazne jde ciste o jeho rozpoznani.
Pocitam s tim, ze robot bude delat i vypocetne narocnejsi operace, proto planuji vetsinu (krome nejzakladnejsich "reflexu") offloadovat pres wifi na nejaky vykonnejsi strojek. Ale >1TFLOPS asi mit nebude, pokud tvuj algoritmus nejde snadno SIMD-paralelizovat. ;-)
Mimochodem, ve stredu bude prvni meetup kolem Tesla Coil, kdybys mel cas si odpocinout od disetracky. :)
Jo rad prijdu. Jen co mi prozradite adresu.
http://brmlab.cz/hackpoint/letnany :)
Aha, pro nas je asi i tech 5 sekund docela dost, asi bychom vytradovali vyssi EER za 1 sekundu delay nebo neco takoveho. Potrebovali bychom
Tech 5 sekund je 5 sekund signalu ze kteryho se to dela, ne jak dlouho trva vypocet. Zrovna tohle je na beznym PC rychlejsi nez realtime nekolikanasobne. Samozrejme ze to muzes poustet po seknude signalu a sledovat postupne konvergujici score.
recnika rozpoznavat realtime a v prvni iteraci nam vazne jde ciste o jeho rozpoznani.
Jeste jsem zapomel rict ze kdyz delas open set task tak musis mit databazi "background" recniku (rekneme tak 100 az 500 lidi) aby se ten algoritmus naucil odlisnosti od ostatnich. Bez ni to funguje fakt blbe (chybovost okolo 30 az 40%).
Pokud jde o rozpoznani reci... na co to ten robot potrebuje? pred nejakou dobou byly "v mode" pocitace s odemykanim pres webkameru a rozpoznani obliceje. Dotycneho jsme si vyfotili mobilem a pred kameru jsme strcili display toho mobilu (!) s jeho fotkou a bez problemu nas to pustilo dal. Nemusim asi rikat, ze rozpoznani hlasu pujde obejit mozna jeste snadneji, protoze aparatura na zaznam hlasu je velmi dobre dostupna a kvalitni.
I presto bych navrhoval spis rozpoznavani obliceju... Hlavne proto, ze kamera muze lepe urcit i polohu osoby a osobu ktera nemluvi. Zatim mam skript na rozpoznani obliceje (nebo jineho objektu) na fotce: https://kyberia.sk/id/5300190/ je to v PERLu a pouziva to OpenCV... Je to krasne jednoduche. Rozpoznat mezi sebou ruzne obliceje to je vec jina a jeste jsem nezkoumal jak na to... Ale jisotu predstavu mam, nemuselo by to byt tezke udelat pomoci podobneho skriptu.
peace Harvie
On Tue, 17 Aug 2010 00:57:03 +0200, "David Klusacek" klusacek@atrey.karlin.mff.cuni.cz wrote:
Aha, pro nas je asi i tech 5 sekund docela dost, asi bychom vytradovali vyssi EER za 1 sekundu delay nebo neco takoveho. Potrebovali bychom
Tech 5 sekund je 5 sekund signalu ze kteryho se to dela, ne jak dlouho
trva
vypocet. Zrovna tohle je na beznym PC rychlejsi nez realtime nekolikanasobne. Samozrejme ze to muzes poustet po seknude signalu a sledovat postupne konvergujici score.
recnika rozpoznavat realtime a v prvni iteraci nam vazne jde ciste o jeho rozpoznani.
Jeste jsem zapomel rict ze kdyz delas open set task tak musis mit
databazi
"background" recniku (rekneme tak 100 az 500 lidi) aby se ten algoritmus naucil odlisnosti od ostatnich. Bez ni to funguje fakt blbe (chybovost okolo 30 az 40%).
Brmlab mailing list Brmlab@brmlab.cz http://rover.ms.mff.cuni.cz/mailman/listinfo/brmlab
On Tue, Aug 17, 2010 at 04:18:17PM +0200, Tomáš Mudruňka wrote:
Pokud jde o rozpoznani reci... na co to ten robot potrebuje? pred nejakou dobou byly "v mode" pocitace s odemykanim pres webkameru a rozpoznani obliceje. Dotycneho jsme si vyfotili mobilem a pred kameru jsme strcili display toho mobilu (!) s jeho fotkou a bez problemu nas to pustilo dal. Nemusim asi rikat, ze rozpoznani hlasu pujde obejit mozna jeste snadneji, protoze aparatura na zaznam hlasu je velmi dobre dostupna a kvalitni.
Muj cil je takova "obecna AI platforma", takovy roboticky Muaddib. Pozdravi te pri prichodu, na pozadani Ti doveze plechovku Club Matte atd. Nema jit o elektronickeho vratneho.
I presto bych navrhoval spis rozpoznavani obliceju... Hlavne proto, ze kamera muze lepe urcit i polohu osoby a osobu ktera nemluvi. Zatim mam skript na rozpoznani obliceje (nebo jineho objektu) na fotce: https://kyberia.sk/id/5300190/ je to v PERLu a pouziva to OpenCV... Je to krasne jednoduche. Rozpoznat mezi sebou ruzne obliceje to je vec jina a jeste jsem nezkoumal jak na to... Ale jisotu predstavu mam, nemuselo by to byt tezke udelat pomoci podobneho skriptu.
Koukat se na obliceje z vysky Roomby (20-30cm nad zemi) pujde dost blbe.
Koukat se na obliceje z vysky Roomby (20-30cm nad zemi) pujde dost blbe.
to se da korigovat. slysel si o tom projektu, jak prolistujes knihu pred vysokorychlostni kamerou (normalne plnou rychlosti) - takovym tim stylem "hledam penize, ktery jsem zalozil do jedny z tehle 80ti knih" a program pak prevede tu knihu na PDF? tam se taky stretavaji s dost nevyhodnym uhlem.
Robot bi pri nejmensim mohl fotit nezname xichty. Kdyz to bude dobre fungovat, tak muze rict "vetrelec!", nebo na nej zertovne striknout trochu vody z vodni pistolky :-)
peace
On 08/17/2010 04:18 PM, Tomáš Mudruňka wrote:
Pokud jde o rozpoznani reci... na co to ten robot potrebuje? pred nejakou dobou byly "v mode" pocitace s odemykanim pres webkameru a rozpoznani obliceje. Dotycneho jsme si vyfotili mobilem a pred kameru jsme strcili display toho mobilu (!) s jeho fotkou a bez problemu nas to pustilo dal.
Ten mechanizmus bola skor hracka ako realne "zamknutie". Bezne sa to robi tak, ze cloveku povies nech sa pozrie hore, dole, doprava, dolava a pritom nech sa striedavo usmeje a mraci :-) Potom finta s fotkou nezabera.
Nemusim asi rikat, ze rozpoznani hlasu pujde obejit mozna jeste snadneji, protoze aparatura na zaznam hlasu je velmi dobre dostupna a kvalitni.
Tuna to ide dokonca jednoduchsie. Das cloveku precitat konkretny text a zaznam hlasu opat nezafunguje.
Pokud jde o rozpoznani reci... na co to ten robot potrebuje? pred nejakou
Vsak ja vam to nijak nenutim. Staveni robotu me zase az tak nezajima.
Nemusim asi rikat, ze rozpoznani hlasu pujde obejit mozna jeste snadneji, protoze aparatura na zaznam hlasu je velmi dobre dostupna a kvalitni.
V autentikacnich aplikacich se to resi tak, ze krome rozpoznani hlasu je tam i rozpoznani a synteza reci a uzivatel musi odpovidat na nejake otazky. Nektere z nich jsou zcela nepredvidatelne (livness proof) a nektere zavisle na uzivateli, treba jmeno babicky za svobodna (identity proof). Dokud nebudou zcela realisticke TTS programy tak to v principu nepujde obejit. Ovsem muze se stat ze se to splete, hlas prece jen hlas neni tak diskriminujici jako treba cevy na ocnim pozadi.
S tou audio aparaturou: Kdyz vezmes Hi-Fi odmontujes jednu bednu aby to bylo mono a nebude to zrovna 5tipasmova soustava tak to nepozname.
Ale kdyz vezmes treba walkmana a pripojis ho pres levnej zesilovac k repracku tak to pujde poznat z toho ze tam budou chybet frekvence rekneme do 150Hz a od 16kHz vys. Predpokladam ze robot ma slusny mikrofony (aspon do 22 kHz +- 3dB) a ze jich ma nekolik, vzdalenych aspon 10cm.
Stejne tak pokud si vezmes tu nahravku jako ogg nebo mp3jku. Je snadny detekovat ze to bylo takhle zakompresovane. Mozna ze by slo pouzit i nelinearni zkresleni zesilovace (to taky zivy clovek nedela), nebo ruzne parazitni signaly ktere vytvari Σ-Δ prevodniky. To by ale vyzadovalo dost tiche prostredi, jinak by to nebylo meritelne.