|
赵军,研究员,博士生导师。1998年在清华大学计算机科学与技术系获得博士学位。1998年—2002年在香港科技大学计算机科学系做博士后、访问学者。2002年5月至今在中科院自动化所模式识别国家重点实验室工作。目前主持国家自然科学基金、863计划、北京市自然科学基金等科研项目。研究方向为语言信息处理、信息提取、网络挖掘、多语言信息检索等。在国内外期刊和学术会议上发表论文60多篇,其中包括ACL、IJCAI、CIKM、EMNLP、CoNLL、TREC等顶级国际会议。开发了一系列重要的汉语文本分析工具,其中汉语分词、词性标注和命名实体识别一体化工具、汉语依存分析器等参加863评测、SIGHAN、CoNLL等权威评测,名列前茅。在国际文本检索大会TREC的“新信息检索”、“高精度检索”等评测中获得优秀的成绩。
Jun
Zhao, received
PhD degree from the Dept. of Computer Science & Technology, Tsinghua
Univ. in 1998. From 1998 to 2002, he was a postdoctoral research fellow and
visiting scholar in Computer Science Department, Hong Kong University of
Science & Technology. Since May 2002, he has been working in NLPR,
Institute of Automation, Chinese Academy of Sciences. Now he is a
researcher in NLPR.
Contact
Information:
National
Laboratory of Pattern Recognition
Institute
of Automation
Chinese
Academy of Sciences
ZhongGuanCun
East Road 95, Haidian District, Beijing, China
Telephone: +86 10 8261-4505
FAX: +86 10 6255-1993
Electronic Mail: jzhao at nlpr dot ia dot
ac dot cn
研究兴趣(Research Interest)
学术任职(Academic
Activities)
承担项目(Projects)
研究生(Students)
以汉语为核心的信息抽取平台(Tools)
发表论文(Publications)
研究兴趣(Research Interest)
Fundamental research on natural language
processing, especially in
? word
segmentation & POS tagging
? named
entity recognition
? unknown
word recognition and tagging
? dependency
parsing, especially domain-adaptive dependency parsing approach
? semantic
labeling
Fundamental research on information extraction
and integration, especially in
? entity
mention detection and tracking
? relation
detection and characterization
? event
detection and characterization
Application of information extraction and
integration, especially in
? product
information extraction and integration (product name recognition, product
attribute extraction, opinion extraction, etc.)
? encyclopedia
information extraction and integration (encyclopedia metadata extraction,
semantic tagging of encyclopedia, etc.)
Multilingual information retrieval, especially
in
? named
entity translation
? domain
terminology translation
? web
mining of the translation equivalents of named entities and domain terms
学术任职(Academic Activities)
? SIGHAN, Special Interest Group of the Association for
Computational Linguistics,Information Officer (2003-2006
? Asian Language Resource Committee under Asian Federation of Natural
Language Processing, Member, (2003-)
? 中国中文信息学会计算语言学专业委员会,委员,(2003-)
? 中国中文信息学会信息检索与内容安全专业委员会,委员,(2006-)
? 《中文信息学报》,编委,(2006-)
? 全国术语标准化技术委员会,委员,(2004-)
承担项目 (Projects)
1.国家自然科学基金项目:汉语依存分析的概率化决策动作模型及自适应技术研究
Research on Probabilistic
Parsing Action Models for Chinese Dependency Parsing and their Domain
Adaptation
(National
Natural Science Foundation of China under Grant No. 60875041,2009-2011)
2.
863项目:汉英双语命名实体对应和术语对应的获取技术研究
Research
on Automatic Acquisition of Chinese-English Named Entity Translation Pairs
and Terminology Translation Pairs
(National
High Technology Development 863 Program of China under Grants 2006AA01Z144,
2007-2008)
3. 国家自然科学基金项目:汉语文本中观点信息的提取和倾向性分析技术研究
Chinese
Opinion Extraction and Orientation Analysis
(National
Natural Science Foundation of China under Grant No. 60673042,2007-2009)
4. 国家自然科学基金项目:多语言智能文本处理中基于主题语义空间的文本表示研究
Topic-based
Text Representation Oriented for Multi-Lingual Intelligent Text Processing
(National
Natural Science Foundation of China under Grant No. 603732016,2004-2006)
5. 北京市自然科学基金项目:面向异构WEB信息源的汉语问答式检索技术研究
The
Research on Chinese Question Answering on Heterogeneous Web Sources
(Natural
Science Foundation of Beijing under Grant No. 4052027, 2005-2007)
6. 北京市自然科学基金项目:面向信息安全的网络文本分析技术研究
The
Research on Network Text Analysis Technology Oriented for Information
Security
(Natural
Science Foundation of Beijing under Grant No. 4073043, 2007-2008)
7. 中国大百科全书出版社科研项目:百科在线——百科全书的自动标引和问答式知识服务平台建设
Chinese
Encyclopedia Online
-----The
Construction of the Platform for the Knowledge Question
Answering Based on Semantic- Annotated Chinese Encyclopedia
(Research
Program of Chinese Encyclopedia, 2007-2008)
8. 国际合作项目(富士通研究开发中心有限公司):汉语产品名识别和标注工具的研发
Chinese
Product Name Recognition and Tagging Software tools
(Research
Program of Fujitsu Research & Development Center Co., LTD., 2004)
9. 国际合作项目(富士通研究开发中心有限公司):汉语分词、词性标注和命名实体标注软件工具的研发
Chinese
Word Segmentation, POS Tagging and Named Entity Recognition Software tools
(Research
Program of Fujitsu Research & Development Center Co., LTD., 2003)
10. 国家重点基础研究发展规划项目(973)子项:中文语言资源联盟的建设
The
Construction of Chinese Linguistic Data Consortium
(A
Sub-project 973 Program under Grant No. G1998030501A-06, 2002-2004)
以汉语为核心的信息提取平台(tools)
该平台面向以汉语为核心的信息提取和内容服务的应用要求,系统地研发文本分析和信息提取的关键技术和工具,建设相关语言资源。目前已经开发出的工具包括:汉语分词、词性标注、命名实体识别和标注、依存分析器、时间词的检测和规范化处理等,这些工具已经授权给总参、国家语言资源监测与研究中心、富士通研究开发中心有限公司、北京百科在线网络出版有限公司等多家单位使用。正在开发的工具包括:汉语术语识别、汉英命名实体翻译、汉英术语翻译、产品名识别、产品信息抽取、百科信息抽取等;已经建设的语言资源包括:通用词表、多语言命名实体库、汉语命名实体标注语料、产品名标注语料、汉英双语句子对齐语料库等。
? 现代汉语自动分词、词性标记和命名实体标注工具:(已发布,可以试用)(所内入口) (所外入口)
??该工具参加2004年863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。该工具参加2004年863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。在2006年和2007年被国家语委重大项目“中国语言生活状况报告”所采用,由国家语言资源监测与研究中心负责对平面媒体、有声媒体、网络媒体三种类型的大规模真实语料(2006年为909,429,700字符次,2007年为1,170,367,879字符次)进行切分和标注,性能良好,运行稳定。该工具也于2007年被新加坡国立大学采用,用于“基于大规模华语语料库的新加坡常用字词调查”项目,体现了在不同题材和体裁语料库上的鲁棒性和稳定性。
? 汉语依存句法分析工具:(已发布,可以试用))(所内入口) (所外入口)
该依存句法分析器以决策方法为基本框架,并基于“决策序列符合马尔可夫性”的假设,对整体分析过程进行建模,提高了传统的决策方法的性能。该工具参加了CoNLL-2007的多语言依存句法分析Shared
Task的评测,共有23个系统参加评测,该工具在汉语分析评测中名列第5。排名前5的系统的LAS(Labeled
Attached Score)得分分别是84.69,83.84,83.51,82.77,82.64,可以看出,我们的系统的分析正确率比第1名有两个百分点的下降。但是,排名第一和第三的系统所采用的方法都是ensemble-based方法,即多分析器投票的方法,在速度和效率方面我们的系统有优势。
? 时间检测和规范化处理工具:(已发布,可以试用)
时间词是文本中表达信息的重要单位,是关键信息的载体,是事件提取的比不可少的元素。该系统是以中文TIMEX2为规范开发的中文时间词语检测和规范化处理工具。测试表明,该系统目前对时间词的Extent和Value识别的F-measure分别达到了94.5%和86.5%,并具有良好的扩展性。
? 命名实体和领域术语的翻译工具:(将于2008年12月发布)
命名实体和领域术语是文本中承载信息的最重要的语言单位,命名实体和领域术语的翻译和多语言信息处理的核心技术之一。本课题组在国家863课题的支持下,正在研发汉英命名实体翻译和领域术语翻译工具。命名实体的翻译和领域术语翻译涉及到音译的问题、意译的问题、习惯用法的问题等,单纯利用传统的及其翻译方法性能很有限。我们的核心技术是利用网络挖掘方法和统计翻译互动进行翻译。目前已经完成几个模块,整体的翻译工具将与2008年底发布。
研究生 (Students)
在读:
刘 康:博士生,Product
information extraction and integration
韩先培:博士生,Encyclopedia
information extraction and integration
齐振宇:博士生,Web mining of
translation equivalents of named entities and domain terms
蔡 黎:博士生, Immersive
language learning
周光有:直博生,Chinese Dependency Parsing and Semantic labeling
毕业研究生(以毕业时间为序):
程 葳(博士):《限定领域内汉英口语翻译方法研究》,2003年7月毕业,
(北京城市学院,副教授,人工智能研究所负责人)
金千里(硕士):《面向文本检索的语义计算》,2004年7月毕业,
(IBM
China Company Limited, China Software Development Lab, Software Engineer)
徐 晋(硕士):《鲁棒性信息检索技术研究》,2005年7月毕业,
(Syracuse
University, New York City, USA,博士研究生)
刘非凡(博士):《汉语文本信息抽取关键技术研究》,2006年7月毕业,
(The
University of Texas at Dallas,USA, 博士后)
吴友政(博士):《汉语问答系统关键技术研究》,2006年7月毕业,
(Advanced
Telecommunications Research Institute International, Japan,博士后)
吕碧波(硕士):《提高信息检索准确性的技术研究》,2006年7月毕业,
(北京曙光公司)
蔡勋梁:硕士生,《基于多层条件随机场模型的自然语言序列标注研究》,2007年7月毕业,
(百度Baidu);
王 根(硕士),《文本倾向性分析技术研究》,2007年7月毕业,
(Northeastern
University,USA,博士生);
陆 敏(硕士),《汉英实体翻译与实体对抽取技术研究》,2007年7月毕业,
(美国纽约留学)
段湘煜(博士),《基于分析动作建模的汉语依存句法分析研究》,2008年3月毕业,
(新加坡I2R/南洋理工大学,博士后)
邹 波(硕士),《英汉人名音译方法研究》,2008年7月毕业,
(空中网)
杨 帆(硕士), 《借助网络信息的实体翻译技术研究》,2009年7月毕业,
(百度Baidu);
发表论文 (Publications)
Fundamental research
on NLP:
[1] Fan YANG, Jun ZHAO, CRFs-Based Named Entity
Recognition Incorporated with Heuristic Entity List Searching, In: Proceedings of the Sixth SigHAN Workshop
on Chinese Language Processing, Hyderabad, India, 2008
[2] Youzheng Wu, Jun Zhao, Bo Xu, Chinese Named
Entity Recognition Model Based on Multiple Features. In: Proceedings of
the Joint Conference of Human Language Technology and Empirical Methods in
Natural Language Processing (HLT/EMNLP 2005), Vancouver,
2005:427~434
[3] Youzheng Wu, Jun Zhao, Bo Xu. Chinese Named
Entity Recognition Combining a Statistical Model with Human Knowledge. In: Proceedings of ACL2003 Workshop on
Multilingual and Mixed-language Named Entity Recognition, pp. 65-72,
Sappora, Japan, July, 2003.
[4] Xiangyu Duan, Jun Zhao, Probabilistic
Parsing Action Models for Multi-Lingual Dependency Parsing, IN: Proceedings of
the 2007 Joint Conference on Empirical Methods in Natural Language
Processing and Computational Natural Language Learning (EMNLP-CoNLL),
Prague, Czech Republic, 940-946
[5] Xiangyu Duan, Jun Zhao, Probabilistic Models
for Action-based Chinese Dependency Parsing, In: Proceedings of the 18th European
Conference on Machine Learning and the 11th European Conference on
Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD,
Acceptance Rate: 19.93%), Warsaw, Poland, September 17-21, 2007
[6] Xiangyu Duan, Jun Zhao, Ungreedy Methods for Chinese Deterministic
Dependency Parsing. In: Proceedings
of Twenty-second Conference of Association for Artificial Intelligence
Student Session (AAAI). Vancouver,
Canada,
July 22-26, 2007
[7] 段湘煜,赵军,徐波,基于动作建模的中文依存句法分析,《中文信息学报》,第21卷,第5期,2007年9月 (第9届全国计算语言学学术会议优秀论文)
[8] Duan Xiangyu, Zhao Jun, Word Sense
Disambiguation through Sememe Labeling, In: Proceedings of Twentieth International
Joint Conference on Artificial Intelligence (IJCAI-2007),
Hyderabad, India, 2007: 1594-1599
Information
extraction:
[1] Jun ZHAO, Feifan LIU, Product Named Entity
Recognition in Chinese Texts, Accepted by International Journal of Language Resource
and Evaluation (SCI).
[2] Feifan Liu, Jun Zhao, Bibo Lv, Hao Yu.
Product Named Entity Recognition Based on Hierarchical Hidden Markov Model.
In: Proceedings of Fourth SIGHAN
Workshop on Chinese Language Processing, pp:40-47, October 14-15, 2005,
Korea.
[3] 刘非凡,赵军,吕碧波等,面向商务信息抽取的产品命名实体识别研究,《中文信息学报》,第20卷
第1期 2006:7-13
[4] 刘非凡,赵军,徐波,实体提及的多层嵌套识别研究,《中文信息学报》,第21卷
第2期,2007:14-21
[5] ZHAO Jun, LIU Feifan, Linguistic Theory Based Contextual Evidence
Mining for Statistical Chinese Co-reference Resolution, In: Journal of
Computer Science and Technology, Vol.22 No.4 , pp. 608-617, 2007
[6] LIU Kang, WANG Gen, HAN Xianpei, ZHAO Jun.
NLPR in TREC 2007 Blog Track, In: Proceedings
of the 17th Text Retrieval Conference (TREC 2007), USA, 2007.
[7] 王根,赵军,基于多重冗余标记CRFs的句子情感分析研究,《中文信息学报》,第21卷,第5期,2007年9月(第9届全国计算语言学学术会议优秀论文)
[8] 刘康,赵军,基于层叠CRFs模型的句子褒贬度分析研究,第三届全国信息检索与内容安全学术会议(NCIRCS-2007),苏州,2007
(会议优秀论文,推荐到中文信息学报发表)
[9] 韩先培,刘康,赵军,基于布局特征与语言特征的网页主要内容块发现,第三届全国信息检索与内容安全学术会议(NCIRCS-2007),苏州,2007
(会议优秀论文,推荐到中文信息学报发表)
[10] 王根,赵军,中文褒贬义词语倾向性的分析,第三届学生计算语言学研讨会,2006,沈阳,
pp81-85。
Multilingual Information Retrieval:
[1] Fan Yang, Jun Zhao, Bo Zou, Kang Liu, Chinese-English
Backward Transliteration Assisted with Mining Monolingual Web Pages,
Accepted by Proceedings
of the 46th Annual Meeting of the Association for Computational
Linguistics: Human Language Technologies, Columbus, OH, June
15-20, 2008
[2] 赵军,金千里, 面向文本检索的语义计算,《计算机学报》,Vol.
28 No.12, pp:2068-2078, 2005.
[3] Qianli Jin, Jun Zhao, Bo Xu, Window-Based Method for Information
Retrieval. Natural Language Processing (LNAI 3248). In: Proceedings of the First International
Joint Conference on Natural Language Processing, Hainan Island:
Springer, 2004. LNAI 3248: 120-129.
[4] 吕碧波, 赵军,基于相关文档池建模的查询扩展,《中文信息学报》,第20卷 第1期
2006:78-83.
[5] 吕碧波,王根,赵军,
863信息检索评测—自动化所,《中文信息学报》,2006年增刊:78-82.
[6] XU Jin,ZHAO
Jun, NLPR at TREC2004: Robust, In: Proceedings
of the 14th Text Retrieval Conference (TREC 2004), USA, 2004
[7] Bibo Lv, Jun Zhao, NLPR at TREC 2005: HARD Experiments, In: Proceedings of the 15th Text Retrieval
Conference (TREC 2005), NIST, Maryland, USA, 2005.
[8] JIN Qianli, ZHAO Jun, NLPR at TREC2004: Novelty and Robust, In: Proceedings of the 13th Text Retrieval
Conference (TREC 2003), USA, 2003
[9] JIN Qianli, ZHAO Jun, Query Expansion based on Term Similarity Tree
Model, In: International Conference
on Natural Language Processing and Knowledge Engineering, Beijing,
China, pp.400-406, 2003
[10] 徐晋, 赵军, 吕碧波.
TREC中提高检索鲁棒性的技术研究. 第八届全国计算语言学联合学术会议(JSCL-05),
南京.
pp:408-414, 2005.
[11]
ZHAO Jun, Feifan Liu, Dongming Liu. Two-Phase Base Noun Phrase Alignment in
Chinese-English Bilingual Corpora. IEEE
International Conference on Natural Language Processing and Knowledge
Engineering. Wuhan,
China,
pp:360-365, 2005.
[12] Min Lu, Jun Zhao, Multi-feature Based
Chinese-English Named Entity Extraction from Comparable Corpora, The 20th Pacific Asia Conference on
Language, Information and Computation,WuHan, 2006:
134-141
[13] 吴友政,赵军,徐波,基于主题语言模型的句子检索算法. 《计算机研究与发展》,第44卷 第2期
2007:288-295
[14] 吴友政,赵军,徐波,基于无监督学习的问答模式抽取技术,《中文信息学报》,第21卷 第2期,2007:69-76
[15] 吴友政, 赵军, 段湘煜, 徐波. 问答式检索技术及其评测研究综述. 《中文信息学报》,第19卷 第3期,2005:1-13.
[16] Youzheng Wu, Jun Zhao, Hideki Kashioka. Using Clustering Approaches to
Open-Domain Question Answering. IN: Proceedings
of the8th International Conference on Computational Linguistics and
Intelligent Text Processing (CICLING2007), Mexico City, Mexico, February
18-24, 2007 . (SCI)
[17] Youzheng Wu, Jun Zhao, and Bo Xu.
Cluster-based Language Model for Sentence Retrieval in Chinese Question
Answering. In: Proceedings of
SIGHAN2006, Sydney, Australia, 2006: 56-63.
[18]Youzheng Wu, Jun Zhao and Bo Xu, Chinese Question Classification from
Approach and Semantic View. In: Proceedings
of the 2nd Asia Information Retrieval Symposium, Jeju Island:
Springer, 2005. LNCS 3689: 485-490
[19] 吴友政, 赵军, 段湘煜, 徐波. 构建汉语问答系统评测平台. 第一届全国信息检索与内容安全学术会议,
pp. 315~323, 2004.11, 上海.
Others:
[1] ZHAO Jun, Bridging Knowledge and Languages:
The Application of Computational Linguistics, IEEE International Conference on Natural Language Processing and
Knowledge Engineering, Beijing, China, pp.828-837, 2003.
[2] 刘非凡, 赵军, 徐波. 大规模非限定领域汉英双语语料库建设及对齐研究. 全国第七届计算语言学联合学术会议(JSCL)论文集——《语言计算与基于内容的文本处理》,清华大学出版社.
pp.339-345,2003
[3] 蔡勋梁,赵军,信息检索中基于极大似然集方法的语言模型准确性分析,中文信息学会二十五周年学术会议,北京,2006.11,
pp322-330
[4] Feifan Liu, Qianli Jin, Jun Zhao, Bo Xu, Bilingual
Chunk Alignment Based on Interactional Matching and Probabilistic Latent
Semantic Indexing. In: Proceedings of
the First International Joint Conference on Natural Language Processing,
Hainan Island: Springer, 2004. LNAI 3248:
416-425.
[5] Cheng Wei, ZHAO Jun, Automatic Recognition of Bilingual Co-Chunks
Oriented for Spoken Language Translation, 《计算机学报》, Vol. 27 No.
2, 2004
[6] Wei Cheng, Jun Zhao, XU Bo, A Co-Chunk based method for Spoken-language
Translation. Journal of Chinese
Language and Computing. 2004, NO. 1, Singapore
|