中文版
English
副研究員  |  曹昱  
 
contact
education
experience
interests
descriptions
activities
invited_talk
honors
grants
publications
patents
software
supervised
 
 
 
 
 
Research Descriptions
 

本人近年的研究課題包括:(1) 基於AI之口語溝通輔具科技;(2) 基於深度學習之音訊處理;(3) 結合多模態之語音訊號處理技術。以上三個研究項目的研究成果包括:(1) 撰寫48篇國際期刊論文,以及超過100篇國際研討會論文。其中數篇發表的論文受到國內外學者高度肯定,獲得一些論文獎項,包括:IEEE MIT URTC 2017 Best Poster Presentation Award、APSIPA 2017 Poster Presentation Award、ROCLING 2017 Best Paper Award、TAAI 2012 Excellent Paper Award、Interspeech 2014 Best Paper Award Nomination、多次ISCA Travel Grant Awards。(2) 在國際學術服務上,本人目前擔任IEICE Transactions on Information and Systems Associate Editor,以及IEEE TASLP、SPL、TBME Reviewer。此外本人擔任數項國際會議的Organizer、Co-organizer、以及Committee Member,包括:APSIPA 2013、ICASSP 2015、BigMM 2016、ISCSLP 2016、ICCP 2010 Session Chairs、ROCLING 2016 Program Chair、ROCLING 2017 Conference Chair、TAAI 2017 Sponsor Chair、Speech Workshop 2015 Organizer。本人於IEEE ICASSP 2018主講一個Tutorial Lecture,題目為 “Generative Adversarial Network and its Applications to Speech Signal Processing and Natural Language Processing”。本人並於 IEEE Big Data 2018主辦一個Voice Detection Challenge,迄今有109隊報名註冊,來自台灣,美國,中國,印度,南韓,愛爾蘭等27個國家。(3) 本人數項研究成果技轉至工業界 (Advanced and Wise Tech.及 iMediPlus Inc.等公司),對國內產業界產生實質貢獻。基於以上成果,本人於2017年度獲得中央研究院前瞻計畫獎 (Career Development Award, Academia Sinica) 以及於2018年獲得國家新創獎 (National Innovation Award),以下我們將針對三個研究課題做進一步地介紹。

(1)   基於AI之口語溝通輔具科技: 近年來由於人類的壽命增長、環境噪音頻繁出現、過度使用耳機,聽損的人數逐年升高,而聽損族群的年齡逐年下降。國際知名研究指出,聽損會造成年長人士與外界產生隔離,間接造成失智問題,而學齡兒童的聽損會造成學習效力下降,因此近年間聽損問題逐漸受到國際重視。申請人主持的實驗室近年致力於開發基於AI以及先進訊號處理技術為基礎的聽覺輔具科技,包括FM無線調頻系統 [1, 2]、助聽器 [3, 4]、人工電子耳 [5-7],目標是期望基於最新穎的AI演算法改進現有的聽覺輔具,幫助聽障人士提升聽覺效能、進一步改善其生活品質。除了聽覺輔具科技,我們亦投入開發新穎的說話輔具技術,目標是提升構音異常人士的語音理解度,增進其與其他人的溝通效率。我們目前已經開發了一套基於機器學習為基礎的語音增強系統,實驗證明能夠有效地提升口腔癌術後的語音辨識率 [8]。此外我們亦基於深度學習演算法實現一個發聲異常偵測平台 [9],此平台可以讓人們在家裡隨時監控是否有發聲異常之可能,以上這些項目我們都獲得相當正面的研究成果。在這個研究方向,我們合作的團隊包括:振興醫院 (研究題目:實現深度學習語音處理演算法於人工電子耳)、榮民總醫院 (研究題目:聽力篩檢平台應用軟體)、馬偕醫學院 (研究題目:構音異常之語音增強技術)、亞東醫院(研究題目:基於深度學習語多模態之構音異常偵測系統)。

(2)   基於深度學習之音訊處理 基於深度學習理論,我們提出新穎的語音訊號處理演算法於除噪 [10]、除混響 [11]、以及通道補償 [12] 等議題。這些議題的共通目標在於增進聲音的品質,有效地提昇人與人、人與機器之間的溝通效率。我們特別研發強化對理解力 [13] 以及語音品質 [14] 的演算法,以實現優良的語音辨識率及良好的口語溝通品質。此外,我們提出端對端語音波形增強法,以提高前述的語音理解度及聲音品質。同時,我們提出整合深度及總體學習演算法 [15] 及環境調適演算法(基於對抗式模型訓練準則) [16] ,用來減輕在真實應用情境上可能遭遇到的訓練、測試環境不匹配問題,進一步提升語音訊號處理效能。

 (3) 結合多模態之語音訊號處理技術: 人與人、人與機器的溝通包含口語與非口語的部分,發話端傳遞口語訊息時,收話端聽者除了專注於聲音本身外,也接收有用的視覺訊息來協助了解語音的內容。一般而言,視覺資訊構築非口語的部分,包含語者說話時的發音動作、臉部表情以及肢體語言,在某些語音技術中,圖像及聲音訊號的結合能有效地幫助訊息傳遞以及人機介面的高效設置。由此發想,我們研究結合視覺與聲音訊號的方法,以提高語音訊號處理的效能。目前,我們提出了新穎的演算法,應用於情緒辨識 [17]、口語演講評分 [18]、以及語音增強 [19],實驗結果證實所開發出來的演算法均能有效提升目標任務的效能,未來我們將以開發出的演算法應用於口語溝通輔具科技之開發,進一步幫助需要口語溝通輔助的人們。

References:
[1] A. Chern, Y.-H. Lai, Y.-p. Chang, Y. Tsao, R. Y. Chang, and H.-W. Chang, “A Smartphone-Based Multi-Functional Hearing Assistive System to Facilitate Speech Recognition in the Classroom,” IEEE Access, vol. 5, pp. 10339-10351, 2017 (This paper has been selected as a Featured Article in IEEE Access).
[2] Y.-C. Lin, Y.-H. Lai, H.-W. Chang, Y. Tsao, Y.-p. Chang, and R. Y. Chang, “A Smartphone-Based Remote Microphone Hearing Assistive System Using Wireless Technologies,” IEEE Systems Journal, vol. 12(1), pp. 20-29, 2018.
[3] Y.-T. Liu, R. Y. Chang, Y. Tsao, and Y.-p. Chang, “A New Frequency Lowering Technique for Mandarin-speaking Hearing Aid Users,” in Proc. GlobalSIP 2015.
[4] Y.-T. Liu, Y. Tsao, R. Y. Chang, “Nonnegative Matrix Factorization-based Frequency Lowering Technology for Mandarin-speaking Hearing Aid Users,” in. Proc. ICASSP 2016.
[5] Y.-H. Lai, Y. Tsao, X. Lu, F. Chen, Y.-T. Su, K.-C. Chen, Y.-H. Chen, L.-C. Chen, P.-H. Li, and C.-H. Lee, \\\"Deep Learning based Noise Reduction Approach to Improve Speech Intelligibility for Cochlear Implant Recipients, Ear and Hearing, vol. 39(4), pp. 795-809, 2018. (獲得國家新創獎 2018).
[6] Y.-H. Lai, F. Chen, S.-S. Wang, X. Lu, Y. Tsao, and C.-H. Lee, “A Deep Denoising Autoencoder Approach to Improving the Intelligibility of Vocoded Speech in Cochlear Implant Simulation,” IEEE Transactions on Biomedical Engineering, vol. 64(7), pp. 1568-1578, 2017. 
[7] Y.-H. Lai, Y. Tsao, F. Chen, “Effects of Adaptation Rate and Noise Suppression on the Intelligibility of Compressed-Envelope Based Speech,” PLoS ONE, vol. 10.1371, journal.pone.0133519, 2015.
[8] S.-W. Fu, P.-C. Li, Y.-H. Lai, C.-C. Yang, L.-C. Hsieh, and Y. Tsao, “Joint Dictionary Learning-based Non-Negative Matrix Factorization for Voice Conversion to Improve Speech Intelligibility After Oral Surgery,” IEEE Transactions on Biomedical Engineering, vol. 64 (11), pp. 2584-2594, 2016.
[9] C.-T. Wang, F.-C. Lin, J.-Y. Chen, M.-J. Hsiao, S.-H. Fang, Y.-H. Lai, Y. Tsao, “Detection of Pathological Voice Using Cepstrum Vectors: A Deep Learning Approach,” Journal of Voice, in press.
[10] X. Lu, Y. Tsao, S. Matsuda, C. Hori, C, “Speech Enhancement Based on Deep Denoising Autoencoder,” in Proc. Interspeech 2013.
[11] W.-J. Lee, S.-S. Wang, F. Chen, X. Lu, S.-Y. Chien, and Y. Tsao, “Speech Dereverberation Based on Integrated Deep and Ensemble Learning Algorithm,” in Proc. ICASSP 2018.
[12] H.-P. Liu, Y. Tsao, Y., C.-S. Fuh, “Bone-Conducted Speech Enhancement Using Deep Denoising Autoencoder,” Speech Communication, in press.
[13] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, “End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks,” IEEE Transactions on Audio, Speech and Language Processing, vol. 26(9), pp. 1570-1584, 2018.
[14] S.-W. Fu, Y. Tsao, H.-T. Hwang, H.-M. Wang, “Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model based on BLSTM,” in Proc. Interspeech 2018.
[15] X, Lu, Y. Tsao, S, Matsuda and C, Hori, “Ensemble Modeling of Denoising Autoencoder for Speech SpectrumRestoration,” pp. 885-889, in Proc. Interspeech 2014.
[16] C.-F. Liao, Y. Tsao, H.-y. Lee, and H.-M. Wang, “Noise Adaptive Speech Enhancement using Domain Adversarial Training,” arXiv preprint arXiv:1807.07501, 2018.
[17] W.-C. Chen, P.-T. Lai, Y. Tsao, and C.-C. Lee, “Multimodal Arousal Rating using Unsupervised Fusion Technique,” in Proc. ICASSP 2015.
[18] S.-W. Hsiao, H.-C. Sun, M.-C. Hsieh, M.-H. Tsai, Y. Tsao, and C.-C. Lee, “Toward Automating Oral Presentation Scoring during Principal Certification Program using Audio-Video Low-level Behavior Profiles,” IEEE Transactions on Affective Computing, in press.
[19] J.-C. Hou, S.-S. Wang, Y.-H. Lai, Y. Tsao, H.-W. Chang, and H.-M. Wang, “Audio-visual Speech Enhancement using Multimodal Deep Convolutional Neural Networks,” IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 2(2), pp. 117-128, 2018.

 
 
bg