鄭方,清華大學語音和語言技術中心主任、研究員,博士生導師,清華大學信息技術研究院副院長,博士。從1988年開始,從事語音和語言處理方面研究,在國內外知名刊物和學術會議上發表了210余篇學術論文,出版專著11本,擁有9項發明專利和1項實用新型專利。
人物經歷
教育經歷
1985.09-1990.06,清華大學,本科
1990.09-1992.06,清華大學,碩士
1994.09-1997.05,清華大學,博士
工作經歷
1997.07-2004.11,清華大學計算機系黨委副書記/信息技術研究院副院長
2001.09-2002.03,Weniwen Technologies Limited(香港特別行政區)研發副總裁,參加香港政府“優秀人才輸入計劃”
2002.04-2003.08,北京得意音通技術有限責任公司董事長
2004.12-2019.10.31,清華大學信研院語音與語言中心主任
2019.11.01至今,清華大學北京信息科學與技術國家研究中心智能科學研究部常務副主任(2019.12-)
社會任職
現任國際中文語言資源聯盟理事長、中文語音交互技術標準工作組聲紋識別專題組組長、全國人機語音通訊學術會議常設機構委員會主席、中國計算機學會人工智能與模式識別專業委員會委員、中文信息學報編委、Speech 傳播學編委、IEEE高級會員、中國計算機學會(中國計算機學會夏培肅獎)高級會員、東方COCOSDA(語音數據庫及輸入輸出評估方法國際協調與標準化委員會)核心成員、ISCA會員、APSIPA(亞太區信號與信息處理聯合會)會員、中國中文信息學會理事、中國聲學學會理事等等。
主要成就
主要貢獻
先后主持并參與研發過30余項國家重點項目和國際合作項目,在國內外知名刊物和學術會議上發表了150多篇學術論文,并多次應邀出國訪問和做學術報告。
研究概況
語音識別方面:
1.提出了一種改進的特征提取方法FBE-MFCC(基于頻帶能量的美化倒譜),在利用人類的聽覺特性進行分析時考慮了頻帶能量,提高了所提取特性的可區分性以及噪音魯棒性。
2.提出了漢語擴展聲韻集概念、聲學精細建模方法、上下文相關加權方法等,在聲學層面給出了語音識別中隨意發音及口音問題的解決方案。
3.提出了用以描述詞匯內在關系的WST(詞搜索樹)結構,從結構上解決了連續語音識別中的詞解碼問題,從而在語言層面給出了漢語語音識別中口音問題的解決方案。
4.提出了漢語音節映射的概念以及聲學校正器模型,用很少的方言背景數據庫,就可以直接從普通話識別器中得到含方言背景的普通話識別器,為低資源語言的聲學模型訓練提供了方便。
語言理解方面:
5.提出了口語對話系統框架方法,包括魯棒的語義分析器、基于主題數森林結構的對話管理器、文本生成器等可配置模塊,使口語對話系統的定制化實現變得可行和高效。
聲紋識別方面:
6.提出了基于Cohort的說話人模型合成算法,以解決跨信道問題。
7.構建了一個用于研究聲紋時變特性的數據庫,即人和音都相同僅時間不同(時間跨度為5年以上,間隔為1周),在此基礎上,研究并提出了根據說話人區分度與時間區分度之比去確定不同頻段的頻率分辨率的特征提取方法,解決了聲紋的時變問題。
8.提出雙譜分析(信號域)、基于F-ratio的特征選擇(特征域),以及多模型融合(模型域)方法,綜合地解決了聲紋識別的錄音重放攻擊的檢測問題。
9.提出基于音素類的超短語音聲紋識別方法,可在保證聲紋識別性能不變的情況下用戶發音長度由20秒縮短至1~2秒,提供了用戶體驗。
可信身份認證方面:
10.提出基于生物特征的可信身份認證必須至少滿足三個技術要求的理念,即精準生物特征識別、防假體攻擊能力,以及用戶真實意圖檢測能力。
11.利用語音信號的特點,提出并實現基于聲紋的身份認證中防假體攻擊的方法,包括:聲紋識別的同時對系統隨機產生的密碼文本進行語音識別、用戶對密碼文本的讀音可自己定義,以及檢測語音是否經過了錄音重放。
12.提出并實現綜合利用語音識別、情感識別和語義理解進行真實意圖檢測的方法。
學術論文
[1]孫哲南,赫然,王亮,等.生物特征識別學科發展報告[J].中國圖象圖形學報,2021,26(6):1254-1329.
[2]劉林泉,鄭方,吳文虎基于小數據量的方言普通話語音識別聲學建模[J].清華大學學報(自然科學版),2008,48(4):604-607.DOI:10.3321/j.issn:1000-0054.2008.04.040.
[3]劉建,鄭方,吳文虎.基于幅度差平方和函數的基音周期提取算法[J].清華大學學報(自然科學版),2006,46(1):74-77.DOI:10.3321/j.issn:1000-0054.2006.01.020.
[4]劉建,鄭方,鄧菁,等.基于混合幅度差函數的基音提取算法[J].電子學報,2006,34(10):1925-1928.DOI:10.3321/j.issn:0372-2112.2006.10.039.
[5]熊振宇,鄭方,宋戰江,等.基于樹形通用背景模型的高效說話人辨認[J].清華大學學報(自然科學版),2006,46(7):1305-1308.DOI:10.3321/j.issn:1000-0054.2006.07.032.
[6]鄧菁,鄭方,劉建,等.Mel子帶譜質心和高斯混合相關性在魯棒話者識別中的應用[J].聲學學報,2006,31(5):471-475.DOI:10.3321/j.issn:0371-0025.2006.05.012.
[7]孫輝,鄭方,吳文虎基于上下文相關置信度打分的語音確認方法[J].清華大學學報(自然科學版),2006,46(1):94-97.DOI:10.3321/j.issn:1000-0054.2006.01.025.
[8]李凈,鄭方,張繼勇,等.漢語連續語音識別中上下文相關的聲韻母建模[J].清華大學學報(自然科學版),2004,44(1):61-64.DOI:10.3321/j.issn:1000-0054.2004.01.016.
[9]鄔曉鈞,鄭方,徐明星.基于主題森林結構的對話管理模型[J].自動化學報,2003,29(2):275-283.
[10]張國亮,徐明星,李凈,等.語音識別中基于兩層詞法樹的跨詞搜索算法[J].清華大學學報(自然科學版),2003,43(7):981-984.DOI:10.3321/j.issn:1000-0054.2003.07.033.
[11]王帆,鄭方,吳文虎基于多尺度分形維數的漢語語音聲韻切分[J].清華大學學報(自然科學版),2002,42(1):68-71.DOI:10.3321/j.issn:1000-0054.2002.01.021.
[12]黃寅飛,鄭方,蘇毅,等.口語對話系統EasyNav中的省略分析[J].清華大學學報(自然科學版),2002,42(1):88-91.DOI:10.3321/j.issn:1000-0054.2002.01.026.
[13]燕鵬舉,鄭方.口語對話系統中的詞類概率模型和知識表示[J].清華大學學報(自然科學版),2001,41(1):69-72.DOI:10.3321/j.issn:1000-0054.2001.01.018.
[14]宋戰江,鄭方,徐明星,等.漢語連續語音識別系統與知識導引的搜索策略研究[J].自動化學報,2000,26(4):470-477.
[15]張繼勇,鄭方,杜術,等.連續漢語語音識別中基于歸并的音節切分自動機[J].軟件學報,1999,10(11):1212-1215.
[16]劉樂,陳偉,張濟國,等.聲紋識別:一種無需接觸、不懼遮擋的身份認證方式[J].中國安全防范技術與應用,2020(1):32-40.DOI:10.3969/j.issn.1672-1470.2020.01.008.
[17]劉樂,鄔曉鈞,鄭方.金融領域中的聲紋識別應用[J].中國安全防范技術與應用,2020(5):21-26.DOI:10.3969/j.issn.1672-1470.2020.05.005.
[18]艾斯卡爾·肉孜,王東,李藍天,等.說話人識別中的分數域語速歸一化[J].清華大學學報(自然科學版),2018,58(4):337-341.DOI:10.16511/j.cnki.qhdxxb.2018.25.028.
[19]鄭方,程星亮.聲紋識別:走出實驗室,邁向產業化[J].中國信息安全,2019(2):86-89.DOI:10.3969/j.issn.1674-7844.2019.02.031.
[20]艾斯卡爾·肉孜,殷實,張之勇,等.THUYG-20:免費的維吾爾語語音數據庫[J].清華大學學報(自然科學版),2017,57(2):182-187.DOI:10.16511/j.cnki.qhdxxb.2017.22.012.
[21]梁維謙,鄭方,陳朝陽,等.基于GSPAP的子帶自適應聲反饋消除算法[J].清華大學學報(自然科學版),2017,57(7):707-712.DOI:10.16511/j.cnki.qhdxxb.2017.25.026.
[22]唐國瑜,夏云慶,張民,等.基于詞義類簇的文本聚類[J].中文信息學報,2013,27(3):113-119.DOI:10.3969/j.issn.1003-0077.2013.03.015.
[23]梁維謙,鄭方,鄭佳春,等.一種改善言語清晰度的子帶自適應降噪算法[J].清華大學學報(自然科學版),2016,56(11):1173-1178.DOI:10.16511/j.cnki.qhdxxb.2016.26.007.
[24]唐國瑜,夏云慶,張民,等.基于跨語言廣義向量空間模型的跨語言文檔聚類方法[J].中文信息學報,2012,26(2):116-120.DOI:10.3969/j.issn.1003-0077.2012.02.021.
[25]蔡蓮紅,賈珈,鄭方.言語信息處理的進展[J].中文信息學報,2011,25(6):137-141.DOI:10.3969/j.issn.1003-0077.2011.06.017.
[26]王靜帆,鄔曉鈞,夏云慶,等.中文信息檢索系統的模糊匹配算法研究和實現[J].中文信息學報,2007,21(6):59-64.DOI:10.3969/j.issn.1003-0077.2007.06.009.
[27]鐘良伍,鄭方.基于中文機構名簡稱的檢索方法研究[J].中文信息學報,2007,21(1):38-42.DOI:10.3969/j.issn.1003-0077.2007.01.006.
[28]梁奇,鄭方,徐明星,等.基于trigram語體特征分類的語言模型自適應方法[J].中文信息學報,2006,20(4):68-74.DOI:10.3969/j.issn.1003-0077.2006.04.010.
[29]劉智博,MICHAEL BRASSER,鄭方,等.一個基于文本輸入的口語對話系統的新的實現策略[J].計算機科學,2006,33(11):205-209.DOI:10.3969/j.issn.1002-137X.2006.11.059.
[30]張欣研,王帆,鄭方,等.基于子帶信息的魯棒語音特征提取框架[J].中文信息學報,2002,16(1):19-24.DOI:10.3969/j.issn.1003-0077.2002.01.004.
[31]吳根清,鄭方,金凌,等.一種在線遞增式語言模型自適應方法[J].中文信息學報,2002,16(1):60-65.DOI:10.3969/j.issn.1003-0077.2002.01.011.
[32]黃寅飛,鄭方,燕鵬舉,等.校園導航系統EasyNav的設計與實現[J].中文信息學報,2001,15(4):35-40.DOI:10.3969/j.issn.1003-0077.2001.04.006.
[33]金凌,吳文虎,鄭方,等.距離加權統計語言模型及其應用[J].中文信息學報,2001,15(6):47-52.DOI:10.3969/j.issn.1003-0077.2001.06.008.
[34]張超,劉軼,鄭方.面向多口音語音識別的聲學模型重構[J].清華大學學報(自然科學版),2011,51(9):1161-1166.
[35]王剛,鄔曉鈞,鄭方,等.基于參考說話人模型和雙層結構的說話人辨認[J].清華大學學報(自然科學版),2011,51(9):1261-1266.
[36]鄭方.人工智能時代的信息安全[J].信息安全研究,2017,3(11):966-967.DOI:10.3969/j.issn.2096-1057.2017.11.002.
[37]陳德鋒,鄭方,吳文虎,等.動態調整直方圖剪枝PDA聲控撥號器的應用與實現[J].電聲技術,2005(12):38-43.DOI:10.3969/j.issn.1002-8684.2005.12.011.
[38]鄭方,楊奇勇.從體育場館到公共中心——國家游泳中心賽后設計與運營[J].世界建筑,2013(8):52-59.DOI:10.3969/j.issn.1002-4832.2013.08.006.
[39]鄭方.透明的大空間[J].城市建筑,2011(5):24-25.DOI:10.3969/j.issn.1673-0232.2011.05.007.
[40]李銀國,蒲甫安,鄭方.基于統計閾值的魯棒性語音識別[J].重慶郵電大學學報(自然科學版),2012,24(2):127-132.DOI:10.3979/j.issn.1673-825X.2012.02.001.
[41]黃鐳,李銀國,鄭方.利用不匹配幀比例加權N-Best候選的置信度方法[J].重慶郵電大學學報(自然科學版),2011,23(5):607-611.DOI:10.3979/j.issn.1673-825X.2011.05.021.
[42]康健,陳一峰,張路峰,等.研究型設計"主題沙龍[J].城市建筑,2017(28):10-17.
[43]唐國瑜,夏云慶,張民,等.基于詞義類簇的文本表示模型[C].//第六屆全國青年計算語言學會議論文集.2012:128-134.
[44]唐國瑜,夏云慶,張民,等.基于跨語言廣義向量空間模型的跨語言文檔聚類方法[C].//第十一屆全國計算語言學學術會議論文集.2011:462-467.
[45]蔡蓮紅,賈珈,鄭方.言語信息處理的進展[C].//中國中文信息學會成立三十周年學術年會論文集.2011:137-141.
[46]侯,劉軼,鄭方,等.基于VP樹結構的多層匹配算法在哼唱識別中的應用[C].//第十屆全國人機語音通訊學術會議論文集.2009:1-6.
[47]張合,鄔曉鈞,王曉東,等.一種基于句子分割的文法自動推導算法[C].//第十屆全國人機語音通訊學術會議論文集.2009:47-52.
[48]曹犟,鄔曉鈞,夏云慶,等.基于拼音索引的中文模糊匹配算法[J].清華大學學報(自然科學版),2009, (S1):1328-1332.
[49]曹文曉,劉軼,鄭方,等.用于哼唱識別精確匹配的線性伸縮動態規劃算法[J].清華大學學報(自然科學版),2009, (S1):1402-1407.
[50]侯玨,劉軼,鄭方,等.基于VP樹結構的多層匹配算法在哼唱識別中的應用[J].清華大學學報(自然科學版),2009, (S1):1419-1424.
[51]郝博一,夏云慶,鄔曉鈞,等.基于泛化和繁殖的自舉式意見目標抽取方法[J].清華大學學報(自然科學版),2009, (S1):1333-1338.
[52]郝博一,夏云慶,鄭方.OPINAX:一個有效的產品屬性挖掘系統[C].//第四屆全國信息檢索與內容安全學術會議論文集.2008:281-290.
[53]王靜帆,夏云慶,鄭方,等.二階段招聘信息檢索方法[C].2007.
[54]鄭方.漢語口語語言處理的發展趨勢[J].國際學術動態,2001(6):36-37.
[55]徐明星,鄭方,吳文虎,等.連續語音關鍵詞識別系統的拒識方法研究[J].清華大學學報(自然科學版),1998, (S1):92-94.
[56]鄭方,吳文虎,方棣棠,等.漢語語音聽寫機中語音識別模型的研究[J].清華大學學報(自然科學版),1997, (9):39-42.
[57]鄭方.連續無限制語音流中關鍵詞識別方法研究[D].北京:清華大學,1997.
[58]鄭方.DSP芯片的算法與結構特點[J].電子產品世界,1996, (9):111.
[59]鄭方.中關村科學城地區更新與城市設計研究[D].北京:清華大學,1996.
[60]賈臻,鄭方.煤粉濃縮燃燒機理的初步探討及應用[J].福建能源開發與節約,1994, (4):25-30.
[61]李建民,趙彤青,鄭方,等.基于漢語語音特點的大詞表語音識別系統的研究[J].計算機學報,1992, (5):364-370.
[62]鄭方.非特定人連續數字識別方法與漢語語音數據庫的研究[D].北京:清華大學,1992.
[63]鄭方,吳文虎漢語連續語音識別中音節自動切分的研究[C].//第四屆全國漢字及漢語語音識別學術會議論文集.:中國中文信息學會基礎理論專業委員會, :285~289頁.
[64]Tongxu Li, Hui Zhang, Thomas Fang Zheng, “The Voiceprint Recognition Technology and Its Applications in Unsupervised Identity Authentication,” 8(9): 46-54, 2018, Chinese Association for Artificial Intelligence Transactions (in Chinese)
[65]Lantian Li, Dong Wang, Chenhao Zhang, and Thomas Fang Zheng, "Improving short utterance speaker recognition by modeling speech unit classes," IEEE/ACM Trans. on Audio, Speech, and Language Processing, pp. 1129-1139, vol. 24, no. 6, June 2016
[66]Linlin Wang, Jun Wang, Lantian Li, Thomas Fang Zheng, Frank K. Soong, “Improving speaker verification 表演 against long-term speaker variability,” Speech 傳播學, 79 (2016), 14-29, Mar. 2016
[67]Miao Fan, Qiang Zhou, Thomas Fang Zheng, Ralph Grishman. “Distributed Representation Learning for Knowledge Bases with Entity Descriptions,” Pattern Recognition Letters, DOI: 10.1016/j.patrec.2016.09.005, Elsevier.
[68]Miao Fan, Qiang Zhou, Andrew Abel, Thomas Fang Zheng, Ralph Grishman, “Probabilistic Belief Embedding for Large-Scale Knowledge 種群,” Cognitive Computation, December 2016, Volume 8, Issue 6, pp. 1087-1102
[69]Meng Sun, Xiongwei Zhang, Hugo Van hamme, and Thomas Fang Zheng, "Unseen noise estimation using separable deep auto encoder for speech enhancement," IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 93-104, Vol. 24, No. 1, Jan. 2016 (DOI 10.1109/TASLP.2015.2498101)
[70]Guoyu Tang, Yunqing Xia, Erik Cambria, Peng Jin, Thomas Fang Zheng, “Document representation with statistical word senses in cross-lingual document clustering,” Vol. 29, No. 2 (2015), International Journal of Pattern Recognition and Artificial Intelligence, World Scientific Publishing Company
[71]Shi Yin, Chao Liu, Zhiyong Zhang, Yiye Lin, Dong Wang, Javier Tejedor, Thomas Fang Zheng and Yingguo Li, “Noisy Training for Deep Neural Networks in Speech Recognition,” EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015:2
[72]Dong Wang, Ravichander Vipperla, Nicholas Evans, Thomas Fang Zheng, “Online Non-Negative Convolutive Pattern Learning for Speech Signals,” IEEE Trans. on Signal Processing, 61(1): 44-56, Jan. 1, 2013
[73]Mijit Ablimit, Sardar Parhat, Askar Hamdulla, Thomas Fang Zheng, “Multilingual Stemming and Term Extraction for Uyghur, Kazak and Kirghiz,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 587-590, Hawaii, USA
[74]Thomas Fang Zheng, “Speech Signal for Unsupervised Identity Authentication,” APSIPA 10th Anniversary Magazine, pp. 26-28, Nov. 2018, Hawaii, USA
[75]Lantian Li, Zhiyuan Tang, Dong Wang, Thomas Fang Zheng, “Full-Info Training for Deep Speaker Feature Learning,” International Conference on Acoustics, Speech and Signal Processing (ICASSP’18), pp. 5369-5373, Apr. 15-20, 2018, Calgary, Alberta, Canada
[76]Lantian Li, 越南盾 Wang, Yixiang Chen, Ying Shi, Zhiyuan Tang, Thomas Fang Zheng, “Deep Factorization for Speech Signal,” International Conference on 聲學, Speech and Signal Processing (ICASSP’18), pp. 5094-5098, Apr. 15-20, 2018, Calgary, Alberta, Canada
[77]Xingliang Cheng, Xiaotong Zhang, Mingxing Xu, and Thomas Fang Zheng, “MMANN: Multimodal Multilevel Attention Neural Network for Horror Clip Detection,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 329-334, Hawaii, USA
[78]Xiaotong Zhang, Xingliang Cheng, Mingxing Xu, Thomas Fang Zheng, “Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task,” pp.3678-3682, Interspeech 2018, 2-6 Sepember 2018, Hyderabad, India, DOI: 10.21437/Interspeech.2018-1744
專利成果
擁有16項發明專利(包括一項國際發明專利)和1項實用新型專利。近年所獲代表性專利如下:
(1)基于分布式神經網絡的語言模型訓練方法及其系統、2014100679169、2014.02.27、中國
(2)語音密碼的認證方法及系統、2017100532098、2017.01.22、中國
(3)基于動態密碼語音的身份確認系統及方法、ZL 201310123555.0、2013.10.12、中國
(4)一種基于動態數字驗證碼的語音門禁系統、ZL 201620119381.X、2016、中國
(5)聲紋模型自動重建的方法和裝置、ZL 201510061721.8、2015.10.06、中國
(6)指紋與聲紋雙認證方法、ZL 201510047966.5、2015.10.04、中國
獲得榮譽
獲得教育部(委)、科技部(委)、北京市獎勵和其他獎勵10余次。
1.1997年北京市愛國立功標兵
2.1999年全國霍英東教育基金會優秀青年教師獎
3.2000年北京市高等教育教學成果一等獎
4.2001年北京市科技進步二等獎
5.2007年國家公安部科學技術獎三等獎
6.2009年中國產學研合作創新獎
7.2020年12月,榮獲2020AI領軍人物獎。
參考資料 >
鄭方.北京信息科學與技術國家研究中心.2022-01-26
鄭方.萬方數據知識服務平臺.2022-01-26
榮獲2020AI領軍人物獎.中國人工智能年會在京舉行 50多家企業獲金雁獎.