新闻

出自北京大学计算机科学技术研究所语言计算与互联网挖掘研究室

跳转到: 导航, 搜索

目录

2016

  • (2017-5-1)本研究室与蓝色光标传播集团下属北京捷报数据技术有限公司达成战略合作,共同推动自然语言处理与数据挖掘技术在媒体行业的应用,基于全媒体内容为中外企业客户提供危机预警与监测、传播效果评估、产品口碑分析、行业情报等全方位专业信息服务。
  • (2017-3-31)本组独立完成的两篇论文被人工智能领域顶级国际会议IJCAI2017录用为长文(1. Jiwei Tan, Xiaojun Wan and Jianguo Xiao: From Neural Sentence Summarization to Headline Generation: A Coarse-to-Fine Approach;2. Wei Wei and Xiaojun Wan: Learning to Identify Ambiguous and Misleading News Headlines)。其中,第二篇论文的第一作者为本组本科实习生。
  • (2017-3-31)本组独立完成的三篇论文被自然语言处理领域顶级国际会议ACL2017录用为长文(1. Jiwei Tan, Xiaojun Wan and Jianguo Xiao: Abstractive Document Summarization with a Graph-Based Attentional Neural Model;2. Junjie Cao, Sheng Huang, Weiwei Sun and Xiaojun Wan: Parsing to 1-Endpoint-Crossing, Pagenumber-2 Graphs;3. Weiwei Sun, Junjie Cao and Xiaojun Wan: Semantic Dependency Parsing via Book Embedding)。
  • (2017-2-12)本组撰写的一篇综述论文被数据挖掘与信息系统领域国际著名期刊Knowledge and Information Systems录用(Jin-ge Yao, Xiaojun Wan and Jianguo Xiao: Recent Advances in Document Summarization),该论文对近五年自动文摘方向的研究进展进行了系统性总结,并对该方向的研究趋势进行了展望。
  • (2017-1-17)本组与南方都市报社合作推出写稿机器人小南,该款机器人能够自动撰写民生类稿件,已经撰写与发布了多篇广州春运报道,引起国内外媒体的广泛关注。详细报道参见智能时代“小南”驾到
  • (2016-11-12)本组独立完成的两篇论文(1. Jin-ge Yao and Xiaojun Wan: Greedy Flipping for Constrained Word Deletion; 2. Sida Wang, Xiaojun Wan and Shikang Du: Phrase-Based Presentation Slides Generation for Academic Papers)被人工智能领域顶级国际会议AAAI2017录用为长文,其中第二篇论文的第一作者和第三作者均为本组本科实习生。此外,本组还有一篇学生短文被AAAI2017录用(Fang Liu and Xiaojun Wan: ATSUM: Extracting Attractive Summaries for News Propagation on Microblogs)。
  • (2016-10-11)本组推出文档自动摘要工具PKUSUMSUM,该工具集成多种无监督摘要提取算法,支持多种摘要任务与多种语言,采用Java编写,代码完全开源。详情以及下载方式参见PKUSUMSUM页面
  • (2016-9-16)欢迎臧鸿宇、曹俊杰两位研究生同学以及多位本科实习生同学加入本组。
  • (2016-9-1)本组与今日头条实验室联合研发推出的面向奥运赛事与各类足球赛事的AI写稿机器人Xiaomingbot受到业界广泛关注,被Lockerdome、Futurism、NextShark、QUARTZ、Popular Science、Fxtribune、Newsweek、Techweb、DotNews、北京日报、科技日报、香港经济日报、中国经济网、参考消息网、新华网、凤凰网、网易、搜狐、南方网等数十家国内外媒体与网站报道。

2015

  • 服务器硬盘故障,数据丢失。

2014

  • (2014-9-12)本组独立完成的一篇论文被自然语言处理领域权威国际期刊 IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)录用 (Su Yan, Xiaojun Wan: SRRank: Leveraging Semantic Roles for Extractive Multi-Document Summarization)。祝贺本组硕士生闫肃同学。
  • (2014-9-9)本组独立完成的一篇论文被数据挖掘领域顶级国际期刊 IEEE Transactions on Knowledge and Data Engineering (TKDE)录用 (Yue Hu, Xiaojun Wan: PPSGen: Learning-Based Presentation Slides Generation for Academic Papers)。祝贺本组硕士生胡玥同学。
  • (2014-7-23)本组独立完成的两篇论文被自然语言处理领域一流国际会议EMNLP2014录用。两篇论文分别是1) Yue Hu, Xiaojun Wan: Automatic Generation of Related Work Sections in Scientific Papers: An Optimization Approach; 2) Jinge Yao, Xiaojun Wan, Jianguo Xiao: Joint Decoding for Tree-Transductive Sentence Compression.
  • (2014-5-26)本组唐学伟同学顺利通过硕士论文答辩,毕业论文题目为《面向学术文献的信息推荐技术的研究与实现》。
  • (2014-4-12)本组独立完成的两篇论文被信息检索领域顶级国际会议SIGIR2014录用为Full Oral Paper(录用率为21%)。两篇论文分别是1)Xiaojun Wan, Jianmin Zhang: CTSUM: Extracting More Certain Summaries for News Articles; 2) Xuewei Tang, Xiaojun Wan, Xun Zhang: Cross-language Context-Aware Citation Recommendation in Scientific Articles. 祝贺本组硕士生唐学伟同学与本科实习生张建敏同学、张恂同学。
  • (2014-4-8)本组独立完成的一篇论文(Shiyang Wen and Xiaojun Wan: Emotion Classification in Microblog Texts Using Class Sequential Rules)被人工智能领域顶级国际会议AAAI2014录用为Full Oral Paper。论文第一作者为本组一年级硕士生温世阳同学。
  • (2014-4-2)本组在语义依存分析国际评测(SemEval-2014 Broad-Coverage Semantic Dependency Parsing)中表现优异。该评测任务要求参赛者提交三个不同数据集上的语义依存分析结果,可选择封闭评测(closed)或开放评测(open)两种方式,共有9支队伍参赛。本组只提交了封闭评测结果,最终在封闭评测中取得三个数据集上综合指标第一名的成绩。
  • (2014-3-6)本组一篇论文(Weiwei Sun, Yantao Du, Xin Kou, Shuoyang Ding and Xiaojun Wan: Grammatical Relations in Chinese: GB-Ground Extraction and Data-Driven Parsing)被自然语言处理领域顶级国际会议ACL2014录用为Full Oral Paper。


2013

  • (2013-10-9)本组一篇论文(Xiaojun Wan and Fang Liu: WL-Index: Leveraging Citation Mention Number to Quantify an Individual’s Scientific Impact)被美国信息科学技术学会会刊Journal of the American Society for Information Science and Technology (JASIST)录用。该论文在h-index的基础上提出基于引用提及(Citation Mention)的WL-index对科研工作者进行学术影响力评价。
  • (2013-9-17)本组开发的微博情绪分析原型系统上线了,请点击微博情绪分析系统查看微博大V们的情绪。
  • (2013-8-27)本组一篇论文被自然语言处理领域一流国际会议EMNLP2013录用为Full Oral Paper(Xinjie Zhou, Xiaojun Wan and Jianguo Xiao: Collective Opinion Target Extraction in Chinese Microblogs)。该论文提出基于图的无监督标签传递算法对同一微话题下的批量中文微博文本进行协作式观点对象抽取,基于标准评测数据集的实验表明,该算法能大幅度提高微博观点对象抽取效果。该论文第一作者为本组一年级直博生周新杰同学。
  • (2013-7-16)本组关于学术文献引用强度分析的论文(Xiaojun Wan and Fang Liu: Are Literature Citations Equally Important? Automatic Citation Strength Estimation and Its Applications)被美国信息科学技术学会会刊Journal of the American Society for Information Science and Technology (JASIST)录用。该论文提出引用强度的概念以区分同一文献中的多篇参考文献的不同重要程度,并基于回归分析的算法进行引用强度的自动评估,最后可利用获得的引用强度改进现有的学术影响力计算与评估方法。该论文的第二作者为本组本科实习生。
  • (2013-5-13)本组两篇论文被自然语言处理领域顶级国际会议ACL2013录用为短文(1.Jiwei Tan, Xiaojun Wan and Jianguo Xiao: Learning to Order Natural Language Texts;2.Xiaojun Wan: Co-Regression for Cross-Language Review Rating Prediction)。第一篇论文提出利用排序学习和遗传算法进行文本排序,第一作者为本组本科实习生谭继伟(已保博)。第二篇论文提出协同回归算法进行跨语言用户评论打分预测。
  • (2013-4-2)本组关于论文幻灯片自动生成的研究论文(Yue Hu and Xiaojun Wan: PPSGen: Learning to Generate Presentation Slides for Academic Papers)被人工智能领域顶级国际会议IJCAI2013录用,该论文提出一种基于整数线性规划模型的论文幻灯片生成方法,能够为学术论文生成样式简单的幻灯片。该论文的第一作者为本组一年级硕士生胡玥同学。
  • (2013-3-19)本组一篇论文被自然语言处理领域顶级国际期刊Transactions of the Association for Computational Linguistics(TACL)录用(Weiwei Sun and Xiaojun Wan: Data-driven, PCFG-based and Pseudo-PCFG-based Models for Chinese Dependency Parsing),该论文将在ACL2013主会上进行宣讲。TACL是ACL采用的一种全新的论文投稿方式,每年有12次投稿机会,采用期刊审稿方式,被TACL录用的论文可以选择在下一年度的ACL主会上进行宣讲,详见

2012

  • (2012-12-11)祝贺本组博士生黄小江同学顺利通过博士学位论文答辩,其博士学位论文题目为《面向比较语义的互联网文本挖掘关键问题研究》。黄小江同学毕业后将去微软亚洲研究院(MSRA)工作。
  • (2012-12-3)本组博士生黄小江同学为第一作者的论文(Xiaojiang Huang,Xiaojun Wan,Jianguo Xiao: Comparative news summarization using concept-based optimization)被数据挖掘与信息系统领域国际知名期刊Knowledge and Information Systems(KAIS)录用为Regular Paper。
  • (2012-9-18)本组博士生周新杰同学为第一作者的论文(Xinjie Zhou, Xiaojun Wan, Jianguo Xiao: Cross-Language Opinion Target Extraction in Review Texts)被数据挖掘领域一流国际会议ICDM2012录用为Short Oral Paper (Full Paper录用率为10.7%,Short Paper录用率为9.3%)。
  • (2012-9-1)欢迎本月入学的三位新同学:周新杰(直博生)、闫肃(硕士生)、胡玥(硕士生)。祝愿他们在研究生阶段取得一流的学术成果。
  • (2012-6-11)祝贺本组硕士生郭立强同学顺利通过答辩,并荣获研究所优秀毕业生,该同学毕业论文题目为《基于微博数据与词汇关系的观点检索》.
  • (2012-4-30)祝贺本组硕士生郭立强同学关于情感检索的论文被信息检索领域国际知名期刊Journal of the American Society for Information Science and Technology(JASIST)录用(Liqiang Guo, Xiaojun Wan: Exploiting Syntactic and Semantic Relationships between Terms for Opinion Retrieval).
  • (2012-3-12)祝贺本组孙薇薇老师两篇论文被ACL2012录用为长文:
  1. Weiwei Sun and Xiaojun Wan. Reducing approximation and estimation errors for Chinese lexical processing with heterogeneous annotations.
  2. Weiwei Sun and Hans Uszkoreit. Capturing paradigmatic and syntagmatic lexical relations: Towards accurate Chinese part-of-speech tagging.
  • (2012-2-20)欢迎孙薇薇博士加入本研究组从事自然语言处理基础技术的研发工作。

2011

  • (2011-12-5)本研究室研发的互联网新闻分析原型系统上线了,目前的功能包括新闻自动采集、话题检测、文档摘要、词云生成、关系图生成等,后期将加入新闻评论采集、评论观点提取等功能,欢迎大家访问并提意见。请点击系统网址.
  • (2011-9-12)本研究室在美国NIST组织的文档摘要国际权威评测TAC Guided Summarization中取得优异成绩。TAC Guided Summarization分为摘要A和摘要B两个任务,在每个任务上来自全球的25支参赛队伍共提交了50组结果。研究室在摘要A三个评测指标上分别排名第1(Pyramid),第2(Overall responsiveness)和第5(Linguistic quality),在摘要B上也取得了较好成绩。此外,研究室还参加了关于摘要自动评价的评测AESOP,在25组结果中,我们在摘要B的自动评价上取得了排名第2(Overall responsiveness),第3(Pyramid)和第6(Readability)的好成绩。祝贺李慧颖、胡玥、李泽远同学。
  • (2011-4-11)本研究室两篇论文被信息检索领域顶级国际会议SIGIR2011录用为长文,其中一篇为本研究室独立完成(Xiaojun Wan, Houping Jia, Shanshan Huang, Jianguo Xiao:Summarizing the Differences in Multilingual News),另一篇为本研究室与北大信息学院合作完成(Rui Yan, Xiaojun Wan, Jahna Otterbacher, Xiaoming Li, Liang Kong, Yan Zhang: Evolutionary Timeline Summarization: a Balanced Optimization Framework via Iterative Substitution)。此外,本研究室独立完成的一篇论文被ACL2011录用为短文(Xiaojiang Huang, Xiaojun Wan, Jianguo Xiao. Comparative News Summarization Using Linear Programming)。
  • (2011-2-14)本研究室独立完成的一篇论文被自然语言处理/计算语言学领域顶级国际期刊Computational Linguistics录用(Xiaojun Wan: Bilingual Co-training for Sentiment Classification of Chinese Product Reviews),本研究室独立完成的一篇论文被自然语言处理/计算语言学领域顶级国际会议ACL2011录用为长文(Xiaojun Wan: Using Bilingual Information for Cross-Language Document Summarization)。

2010

  • (2010-11-15)本研究室在美国NIST组织的文本推理国际权威评测TAC RTE-6中取得优异成绩。RTE-6包括主任务(Main Task)与新颖性检测子任务(Novelty Detection Subtask)两个评测任务,在主任务上共有来自全球各地的18家研究机构提交了48组结果, 在新颖性检测子任务上共有来自全球各地的9家研究机构提交了22组结果。本研究室(PKUTM)在这两个任务上均取得了综合指标第一名的优异成绩。祝贺贾候萍同学。
  • (2010-9-14)本研究室独立完成的一篇论文被数据挖掘领域一流国际会议ICDM2010录用为Regular Paper(Tengfei Ma, Xiaojun Wan: Multi-Document Summarization Using Minimum Distortion),Regular Paper录用率9%,祝贺马腾飞同学。
  • (2010-5-31)本研究室独立完成的两篇论文被自然语言处理/计算语言学领域一流国际会议COLING2010录用,一篇为Oral Paper(Xiaojun Wan:Towards a Unified Approach to Simultaneous Single-Document and Multi-Document Summarizations),另一篇为Poster Paper(Tengfei Ma, Xiaojun Wan:Opinion Target Extraction in Chinese News Comments)。祝贺马腾飞同学。
  • (2010-4-21)本研究室独立完成的一篇论文被自然语言处理/计算语言学领域顶级国际会议ACL2010录用为长文(Xiaojun Wan, Huiying Li, Jianguo Xiao: Cross-Language Document Summarization Based on Machine Translation Quality Prediction)。祝贺李慧颖同学。
  • (2010-3-30)本研究室独立完成的一篇论文被信息检索领域顶级国际会议SIGIR2010录用为长文(Xiaojun Wan, Huiying Li, Jianguo Xiao: EUSUM: Extracting Easy-to-Understand English Summaries for Non-Native Readers),录用率16.7%。祝贺李慧颖同学。
  • (2010-3-30)本研究室(PKUTM)在情感分析领域国际权威评测NTCIR-8 MOAT中取得优异成绩,在简体中文观点判别、Holder抽取两个子任务上取得了综合指标第一名的成绩。祝贺王晨峰、马腾飞、郭立强同学。
个人工具