今天是:

                                                                                                                                   返回首页

 

赵军,研究员,博士生导师。1998年在清华大学计算机科学与技术系获得博士学位。1998—2002年在香港科技大学计算机科学系做博士后、访问学者。20025月至今在中科院自动化所模式识别国家重点实验室工作。目前主持国家自然科学基金、863计划、北京市自然科学基金等科研项目。研究方向为语言信息处理、信息提取、网络挖掘、多语言信息检索等。在国内外期刊和学术会议上发表论文60多篇,其中包括ACLIJCAICIKMEMNLPCoNLLTREC等顶级国际会议。开发了一系列重要的汉语文本分析工具,其中汉语分词、词性标注和命名实体识别一体化工具、汉语依存分析器等参加863评测、SIGHANCoNLL等权威评测,名列前茅。在国际文本检索大会TREC的“新信息检索”、“高精度检索”等评测中获得优秀的成绩。

Jun Zhao, received PhD degree from the Dept. of Computer Science & Technology, Tsinghua Univ. in 1998. From 1998 to 2002, he was a postdoctoral research fellow and visiting scholar in Computer Science Department, Hong Kong University of Science & Technology. Since May 2002, he has been working in NLPR, Institute of Automation, Chinese Academy of Sciences. Now he is a researcher in NLPR.

Contact Information:

National Laboratory of Pattern Recognition

Institute of Automation

Chinese Academy of Sciences

ZhongGuanCun East Road 95, Haidian District, Beijing, China

Telephone: +86 10 8261-4505

FAX: +86 10 6255-1993

Electronic Mail: jzhao at nlpr dot ia dot ac dot cn

*         研究兴趣(Research Interest

*         学术任职(Academic Activities

*         承担项目(Projects

*         研究生(Students

*         以汉语为核心的信息抽取平台(Tools

*         发表论文(Publications


研究兴趣Research Interest

Fundamental research on natural language processing, especially in

?  word segmentation & POS tagging

?  named entity recognition

?  unknown word recognition and tagging

?  dependency parsing, especially domain-adaptive dependency parsing approach

?  semantic labeling

Fundamental research on information extraction and integration, especially in

?  entity mention detection and tracking

?  relation detection and characterization

?  event detection and characterization

Application of information extraction and integration, especially in

?  product information extraction and integration (product name recognition, product attribute extraction, opinion extraction, etc.)

?  encyclopedia information extraction and integration (encyclopedia metadata extraction, semantic tagging of encyclopedia, etc.)

Multilingual information retrieval, especially in

?  named entity translation

?  domain terminology translation

?  web mining of the translation equivalents of named entities and domain terms

学术任职Academic Activities

?  SIGHAN, Special Interest Group of the Association for Computational LinguisticsInformation Officer (2003-2006

?  Asian Language Resource Committee under Asian Federation of Natural Language Processing, Member, (2003-)

?  中国中文信息学会计算语言学专业委员会,委员,(2003-

?  中国中文信息学会信息检索与内容安全专业委员会,委员,(2006-

?  《中文信息学报》,编委,(2006-

?  全国术语标准化技术委员会,委员,(2004-

承担项目 Projects

1.国家自然科学基金项目:汉语依存分析的概率化决策动作模型及自适应技术研究

Research on Probabilistic Parsing Action Models for Chinese Dependency Parsing and their Domain Adaptation

National Natural Science Foundation of China under Grant No. 608750412009-2011

2.   863项目:汉英双语命名实体对应和术语对应的获取技术研究

Research on Automatic Acquisition of Chinese-English Named Entity Translation Pairs and Terminology Translation Pairs

(National High Technology Development 863 Program of China under Grants 2006AA01Z144, 2007-2008)

3.  国家自然科学基金项目:汉语文本中观点信息的提取和倾向性分析技术研究

Chinese Opinion Extraction and Orientation Analysis

National Natural Science Foundation of China under Grant No. 606730422007-2009

4.  国家自然科学基金项目:多语言智能文本处理中基于主题语义空间的文本表示研究

Topic-based Text Representation Oriented for Multi-Lingual Intelligent Text Processing

National Natural Science Foundation of China under Grant No. 6037320162004-2006

5.  北京市自然科学基金项目:面向异构WEB信息源的汉语问答式检索技术研究

The Research on Chinese Question Answering on Heterogeneous Web Sources

(Natural Science Foundation of Beijing under Grant No. 4052027, 2005-2007)

6.  北京市自然科学基金项目:面向信息安全的网络文本分析技术研究

The Research on Network Text Analysis Technology Oriented for Information Security

(Natural Science Foundation of Beijing under Grant No. 4073043, 2007-2008)

7.  中国大百科全书出版社科研项目:百科在线——百科全书的自动标引和问答式知识服务平台建设

Chinese Encyclopedia Online

-----The Construction of the Platform for the Knowledge Question Answering Based on Semantic- Annotated Chinese Encyclopedia 

(Research Program of Chinese Encyclopedia, 2007-2008)

8.  国际合作项目(富士通研究开发中心有限公司):汉语产品名识别和标注工具的研发

Chinese Product Name Recognition and Tagging Software tools

(Research Program of Fujitsu Research & Development Center Co., LTD., 2004)

9.  国际合作项目(富士通研究开发中心有限公司):汉语分词、词性标注和命名实体标注软件工具的研发

Chinese Word Segmentation, POS Tagging and Named Entity Recognition Software tools

(Research Program of Fujitsu Research & Development Center Co., LTD., 2003)

10.  国家重点基础研究发展规划项目(973)子项:中文语言资源联盟的建设

The Construction of Chinese Linguistic Data Consortium

(A Sub-project 973 Program under Grant No. G1998030501A-06, 2002-2004)

以汉语为核心的信息提取平台(tools

该平台面向以汉语为核心的信息提取和内容服务的应用要求,系统地研发文本分析和信息提取的关键技术和工具,建设相关语言资源。目前已经开发出的工具包括:汉语分词、词性标注、命名实体识别和标注、依存分析器、时间词的检测和规范化处理等,这些工具已经授权给总参、国家语言资源监测与研究中心、富士通研究开发中心有限公司、北京百科在线网络出版有限公司等多家单位使用。正在开发的工具包括:汉语术语识别、汉英命名实体翻译、汉英术语翻译、产品名识别、产品信息抽取、百科信息抽取等;已经建设的语言资源包括:通用词表、多语言命名实体库、汉语命名实体标注语料、产品名标注语料、汉英双语句子对齐语料库等。

?  现代汉语自动分词、词性标记和命名实体标注工具:(已发布,可以试用)(所内入口) (所外入口)

   ??该工具参加2004863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。该工具参加2004863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。在2006年和2007年被国家语委重大项目“中国语言生活状况报告”所采用,由国家语言资源监测与研究中心负责对平面媒体、有声媒体、网络媒体三种类型的大规模真实语料(2006年为909,429,700字符次,2007年为1,170,367,879字符次)进行切分和标注,性能良好,运行稳定。该工具也于2007年被新加坡国立大学采用,用于“基于大规模华语语料库的新加坡常用字词调查”项目,体现了在不同题材和体裁语料库上的鲁棒性和稳定性。

?  汉语依存句法分析工具:(已发布,可以试用))(所内入口) (所外入口)

该依存句法分析器以决策方法为基本框架,并基于“决策序列符合马尔可夫性”的假设,对整体分析过程进行建模,提高了传统的决策方法的性能。该工具参加了CoNLL-2007的多语言依存句法分析Shared Task的评测,共有23个系统参加评测,该工具在汉语分析评测中名列第5。排名前5的系统的LASLabeled Attached Score)得分分别是84.6983.8483.5182.7782.64,可以看出,我们的系统的分析正确率比第1名有两个百分点的下降。但是,排名第一和第三的系统所采用的方法都是ensemble-based方法,即多分析器投票的方法,在速度和效率方面我们的系统有优势。

?  时间检测和规范化处理工具:(已发布,可以试用)

时间词是文本中表达信息的重要单位,是关键信息的载体,是事件提取的比不可少的元素。该系统是以中文TIMEX2为规范开发的中文时间词语检测和规范化处理工具。测试表明,该系统目前对时间词的ExtentValue识别的F-measure分别达到了94.5%86.5%,并具有良好的扩展性。

?  命名实体和领域术语的翻译工具:(将于200812月发布)

命名实体和领域术语是文本中承载信息的最重要的语言单位,命名实体和领域术语的翻译和多语言信息处理的核心技术之一。本课题组在国家863课题的支持下,正在研发汉英命名实体翻译和领域术语翻译工具。命名实体的翻译和领域术语翻译涉及到音译的问题、意译的问题、习惯用法的问题等,单纯利用传统的及其翻译方法性能很有限。我们的核心技术是利用网络挖掘方法和统计翻译互动进行翻译。目前已经完成几个模块,整体的翻译工具将与2008年底发布。

研究生 Students

在读:

刘 康:博士生,Product information extraction and integration

韩先培:博士生,Encyclopedia information extraction and integration

齐振宇:博士生,Web mining of translation equivalents of named entities and domain terms

    黎:博士生, Immersive language learning

周光有:直博生,Chinese Dependency Parsing and Semantic labeling

毕业研究生(以毕业时间为序):

程 葳(博士):《限定领域内汉英口语翻译方法研究》,20037月毕业,

(北京城市学院,副教授,人工智能研究所负责人)

金千里(硕士):《面向文本检索的语义计算》,20047月毕业,

IBM China Company Limited, China Software Development Lab, Software Engineer)

徐 晋(硕士):《鲁棒性信息检索技术研究》,20057月毕业,

Syracuse University, New York City, USA,博士研究生)

刘非凡(博士):《汉语文本信息抽取关键技术研究》,20067月毕业,

The University of Texas at DallasUSA, 博士后)

吴友政(博士):《汉语问答系统关键技术研究》,20067月毕业,

Advanced Telecommunications Research Institute International, Japan,博士后)

吕碧波(硕士):《提高信息检索准确性的技术研究》,20067月毕业,

(北京曙光公司)

蔡勋梁:硕士生,《基于多层条件随机场模型的自然语言序列标注研究》,20077月毕业,

(百度Baidu);

王 根(硕士),《文本倾向性分析技术研究》,20077月毕业,

Northeastern UniversityUSA,博士生);

陆 敏(硕士),《汉英实体翻译与实体对抽取技术研究》,20077月毕业,

(美国纽约留学)

段湘煜(博士),《基于分析动作建模的汉语依存句法分析研究》,20083月毕业,

(新加坡I2R/南洋理工大学,博士后)

       邹 波(硕士),《英汉人名音译方法研究》,20087月毕业,

                                       (空中网)

杨 帆(硕士), 《借助网络信息的实体翻译技术研究》,20097月毕业,

                                (百度Baidu);                 

发表论文 Publications

Fundamental research on NLP:

[1] Fan YANG, Jun ZHAO, CRFs-Based Named Entity Recognition Incorporated with Heuristic Entity List Searching, In: Proceedings of the Sixth SigHAN Workshop on Chinese Language Processing, Hyderabad, India, 2008

[2] Youzheng Wu, Jun Zhao, Bo Xu, Chinese Named Entity Recognition Model Based on Multiple Features. In: Proceedings of the Joint Conference of Human Language Technology and Empirical Methods in Natural Language Processing (HLT/EMNLP 2005), Vancouver, 2005:427~434

[3] Youzheng Wu, Jun Zhao, Bo Xu. Chinese Named Entity Recognition Combining a Statistical Model with Human Knowledge. In: Proceedings of ACL2003 Workshop on Multilingual and Mixed-language Named Entity Recognition, pp. 65-72, Sappora, Japan, July, 2003.

[4] Xiangyu Duan, Jun Zhao, Probabilistic Parsing Action Models for Multi-Lingual Dependency Parsing, IN: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, 940-946

[5] Xiangyu Duan, Jun Zhao, Probabilistic Models for Action-based Chinese Dependency Parsing, In: Proceedings of the 18th European Conference on Machine Learning and the 11th European Conference on Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD, Acceptance Rate: 19.93%), Warsaw, Poland, September 17-21, 2007
[6] Xiangyu Duan, Jun Zhao, Ungreedy Methods for Chinese Deterministic Dependency Parsing. In: Proceedings of Twenty-second Conference of Association for Artificial Intelligence Student Session (AAAI). Vancouver, Canada, July 22-26, 2007

[7] 段湘煜,赵军,徐波,基于动作建模的中文依存句法分析,《中文信息学报》,第21卷,第5期,20079 (第9届全国计算语言学学术会议优秀论文)

[8] Duan Xiangyu, Zhao Jun, Word Sense Disambiguation through Sememe Labeling, In: Proceedings of Twentieth International Joint Conference on Artificial Intelligence (IJCAI-2007), Hyderabad, India, 2007: 1594-1599

Information extraction:

[1] Jun ZHAO, Feifan LIU, Product Named Entity Recognition in Chinese Texts, Accepted by International Journal of Language Resource and Evaluation (SCI).

[2] Feifan Liu, Jun Zhao, Bibo Lv, Hao Yu. Product Named Entity Recognition Based on Hierarchical Hidden Markov Model. In: Proceedings of Fourth SIGHAN Workshop on Chinese Language Processing, pp:40-47, October 14-15, 2005, Korea.

[3] 刘非凡,赵军,吕碧波等,面向商务信息抽取的产品命名实体识别研究,《中文信息学报》,第20 1 20067-13

[4] 刘非凡,赵军,徐波,实体提及的多层嵌套识别研究,《中文信息学报》,第21 2期,200714-21
[5] ZHAO Jun, LIU Feifan, Linguistic Theory Based Contextual Evidence Mining for Statistical Chinese Co-reference Resolution, In: Journal of Computer Science and Technology, Vol.22 No.4 , pp. 608-617, 2007

[6] LIU Kang, WANG Gen, HAN Xianpei, ZHAO Jun. NLPR in TREC 2007 Blog Track, In: Proceedings of the 17th Text Retrieval Conference (TREC 2007), USA, 2007.

[7] 王根,赵军,基于多重冗余标记CRFs的句子情感分析研究,《中文信息学报》,第21卷,第5期,20079月(第9届全国计算语言学学术会议优秀论文)

[8] 刘康,赵军,基于层叠CRFs模型的句子褒贬度分析研究,第三届全国信息检索与内容安全学术会议(NCIRCS-2007),苏州,2007 (会议优秀论文,推荐到中文信息学报发表)

[9] 韩先培,刘康,赵军,基于布局特征与语言特征的网页主要内容块发现,第三届全国信息检索与内容安全学术会议(NCIRCS-2007),苏州,2007 (会议优秀论文,推荐到中文信息学报发表)

[10] 王根,赵军,中文褒贬义词语倾向性的分析,第三届学生计算语言学研讨会,2006,沈阳, pp81-85

 

Multilingual Information Retrieval:

[1] Fan Yang, Jun Zhao, Bo Zou, Kang Liu, Chinese-English Backward Transliteration Assisted with Mining Monolingual Web Pages, Accepted by Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Columbus, OH, June 15-20, 2008

[2] 赵军,金千里, 面向文本检索的语义计算,《计算机学报》,Vol. 28 No.12, pp:2068-2078, 2005.
[3] Qianli Jin, Jun Zhao, Bo Xu, Window-Based Method for Information Retrieval. Natural Language Processing (LNAI 3248). In: Proceedings of the First International Joint Conference on Natural Language Processing, Hainan Island: Springer, 2004. LNAI 3248: 120-129.
[4]
吕碧波, 赵军,基于相关文档池建模的查询扩展,《中文信息学报》,第20 1 200678-83.
[5]
吕碧波,王根,赵军, 863信息检索评测—自动化所,《中文信息学报》,2006年增刊:78-82.
[6] XU Jin
ZHAO Jun, NLPR at TREC2004: Robust, In: Proceedings of the 14th Text Retrieval Conference (TREC 2004), USA, 2004
[7] Bibo Lv, Jun Zhao, NLPR at TREC 2005: HARD Experiments, In: Proceedings of the 15th Text Retrieval Conference (TREC 2005), NIST, Maryland, USA, 2005.
[8] JIN Qianli, ZHAO Jun, NLPR at TREC2004: Novelty and Robust, In: Proceedings of the 13th Text Retrieval Conference (TREC 2003), USA, 2003
[9] JIN Qianli, ZHAO Jun, Query Expansion based on Term Similarity Tree Model, In: International Conference on Natural Language Processing and Knowledge Engineering, Beijing, China, pp.400-406, 2003

[10] 徐晋, 赵军, 吕碧波. TREC中提高检索鲁棒性的技术研究. 第八届全国计算语言学联合学术会议(JSCL-05), 南京. pp:408-414, 2005.
[11] ZHAO Jun, Feifan Liu, Dongming Liu. Two-Phase Base Noun Phrase Alignment in Chinese-English Bilingual Corpora. IEEE International Conference on Natural Language Processing and Knowledge Engineering. Wuhan, China, pp:360-365, 2005.

[12] Min Lu, Jun Zhao, Multi-feature Based Chinese-English Named Entity Extraction from Comparable Corpora, The 20th Pacific Asia Conference on Language, Information and ComputationWuHan, 2006: 134-141
[13]
吴友政,赵军,徐波,基于主题语言模型的句子检索算法. 《计算机研究与发展》,第44 2 2007288-295
[14]
吴友政,赵军,徐波,基于无监督学习的问答模式抽取技术,《中文信息学报》,第21 2期,200769-76
[15]
吴友政, 赵军, 段湘煜, 徐波. 问答式检索技术及其评测研究综述. 《中文信息学报》,第19 3期,20051-13.
[16] Youzheng Wu, Jun Zhao, Hideki Kashioka. Using Clustering Approaches to Open-Domain Question Answering. IN: Proceedings of the8th International Conference on Computational Linguistics and Intelligent Text Processing (CICLING2007), Mexico City, Mexico, February 18-24, 2007 . (SCI)

[17] Youzheng Wu, Jun Zhao, and Bo Xu. Cluster-based Language Model for Sentence Retrieval in Chinese Question Answering. In: Proceedings of SIGHAN2006, Sydney, Australia, 2006: 56-63.
[18]Youzheng Wu, Jun Zhao and Bo Xu, Chinese Question Classification from Approach and Semantic View. In: Proceedings of the 2nd Asia Information Retrieval Symposium, Jeju Island: Springer, 2005. LNCS 3689: 485-490

[19] 吴友政, 赵军, 段湘煜, 徐波. 构建汉语问答系统评测平台. 第一届全国信息检索与内容安全学术会议, pp. 315~323, 2004.11, 上海.


Others:

[1] ZHAO Jun, Bridging Knowledge and Languages: The Application of Computational Linguistics, IEEE International Conference on Natural Language Processing and Knowledge Engineering, Beijing, China, pp.828-837, 2003.

[2] 刘非凡, 赵军, 徐波. 大规模非限定领域汉英双语语料库建设及对齐研究. 全国第七届计算语言学联合学术会议(JSCL)论文集——《语言计算与基于内容的文本处理》,清华大学出版社. pp.339-3452003

[3] 蔡勋梁,赵军,信息检索中基于极大似然集方法的语言模型准确性分析,中文信息学会二十五周年学术会议,北京,2006.11, pp322-330

[4] Feifan Liu, Qianli Jin, Jun Zhao, Bo Xu, Bilingual Chunk Alignment Based on Interactional Matching and Probabilistic Latent Semantic Indexing. In: Proceedings of the First International Joint Conference on Natural Language Processing, Hainan Island: Springer, 2004. LNAI 3248: 416-425.
[5] Cheng Wei, ZHAO Jun, Automatic Recognition of Bilingual Co-Chunks Oriented for Spoken Language Translation,
《计算机学报》, Vol. 27 No. 2, 2004
[6] Wei Cheng, Jun Zhao, XU Bo, A Co-Chunk based method for Spoken-language Translation. Journal of Chinese Language and Computing. 2004, NO. 1, Singapore

 

 

最 新 动 态

200982~88日,课题组成员赵军和刘康参加在新加坡召开的ACL-2009EMNLP-2009,刘康同学宣读论文“Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment”。

2009727日,论文“Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge(韩先培、赵军)”被CIKM-2009 录用为Full Regular Oral paper; Cross-Domain Sentiment Classification using a Two-Stage Method (刘康、赵军)”录用为Short paperCIKM是国际信息检索和知识工程领域的顶级会议,CIKM-2009的录用率为full papers (14.5%)short paper (20.2%)

2009619日,课题组承担的项目《百科全书自动标引和问答式知识服务》通过由中国出版集团组织的验收。来自国家新闻出版署、中国出版集团、中国中文信息学会、北京大学、清华大学、中国科学院、中国大百科全书出版社等单位的领导和专家对项目成果进行了讨论,充分肯定了项目成果并提出了很多建设性的意见。

200965日,杨帆同学通过硕士论文答辩,论文《借助网络信息的实体翻译技术研究》获得答辩委员会老师的好评。杨帆同学毕业后去百度任职。

2009415日,论文Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment(杨帆赵军,刘康)被国际顶级会议ACL-2009录用为full regular paper

20081116日,课题组和中科院计算所和复旦大学共同组织第一届中文倾向性分析评测(The first Chinese Opinion Analysis EvaluationCOAE2008)。该评测由中国中文信息学会信息检索专业委员会主办,国内外共20家单位参加评测。研讨会于1116日在西郊宾馆举行,得到学术界、产业界同行的广泛认同和积极响应。

20081025日,刘康同学的论文“基于‘产生/判别’混合模型的分类器领域适应性问题研究”获得2008年全国模式识别学术会议最佳学生论文奖。

2008822日,论文“Adding Redundant Features for CRFs-based Sentence Sentiment Classification”(赵军、刘康、王根被国际顶级会议EMNLP-2008会议录用为full regular paper (oral)。会议将于20081025-28日在美国夏威夷召开。

2008229日,论文“Chinese-English Backward Transliteration Assisted with Mining Monolingual Web Pages”(杨帆、赵军、邹波、刘康、刘非凡被国际顶级会议ACL-2008会议录用为full regular paper

 


如有问题请联系 zlu@nlpr.ia.ac.cn