首页

出自北京大学计算机科学技术研究所语言计算与互联网挖掘研究室

跳转到: 导航, 搜索
语言计算与互联网挖掘研究室从属于北京大学计算机科学技术研究所,成立于2008年7月,负责人为万小军老师。研究室以自然语言处理技术、数据挖掘技术与机器学习技术为基础,对互联网上多源异质的文本大数据进行智能分析与深度挖掘,为互联网搜索、舆情与情报分析、写稿与对话机器人等系统提供关键技术支撑,并从事计算机科学与人文社会科学的交叉科学研究。 研究室当前研究内容包括:1)研制全新的语义分析系统实现对人类语言(尤其是汉语)的深层语义理解;2)综合利用文档摘要、文本生成、文本复述、信息推荐等技术让机器写出高质量的各类稿件;3)针对多语言互联网文本实现高精度情感、立场与幽默分析;4)其他探索性研究,包括特定情境下的人机对话技术。

新闻

  • (2017-2-12)本组撰写的一篇综述论文被数据挖掘与信息系统领域国际著名期刊Knowledge and Information Systems录用(Jin-ge Yao, Xiaojun Wan and Jianguo Xiao: Recent Advances in Document Summarization),该论文对近五年自动文摘方向的研究进展进行了系统性总结,并对该方向的研究趋势进行了展望。
  • (2017-1-17)本组与南方都市报社合作推出写稿机器人小南,该款机器人能够自动撰写民生类稿件,已经撰写与发布了多篇广州春运报道,引起国内外媒体的广泛关注。详细报道参见智能时代“小南”驾到
  • (2016-11-12)本组独立完成的两篇论文(1. Jin-ge Yao and Xiaojun Wan: Greedy Flipping for Constrained Word Deletion; 2. Sida Wang, Xiaojun Wan and Shikang Du: Phrase-Based Presentation Slides Generation for Academic Papers)被人工智能领域顶级国际会议AAAI2017录用为长文,其中第二篇论文的第一作者和第三作者均为本组本科实习生。此外,本组还有一篇学生短文被AAAI2017录用(Fang Liu and Xiaojun Wan: ATSUM: Extracting Attractive Summaries for News Propagation on Microblogs)。
  • (2016-10-11)本组推出文档自动摘要工具PKUSUMSUM,该工具集成多种无监督摘要提取算法,支持多种摘要任务与多种语言,采用Java编写,代码完全开源。详情以及下载方式参见PKUSUMSUM页面
  • (2016-9-16)欢迎臧鸿宇、曹俊杰两位研究生同学以及多位本科实习生同学加入本组。
  • (2016-9-1)本组与今日头条实验室联合研发推出的面向奥运赛事与各类足球赛事的AI写稿机器人Xiaomingbot受到业界广泛关注,被Lockerdome、Futurism、NextShark、QUARTZ、Popular Science、Fxtribune、Newsweek、Techweb、DotNews、北京日报、科技日报、香港经济日报、中国经济网、参考消息网、新华网、凤凰网、网易、搜狐、南方网等数十家国内外媒体与网站报道。
  • 更多...

通知

  • 研究室常年招收重点高校优秀本科实习生,欢迎申请。
  • 研究室招收自然语言处理与文本挖掘相关方向的博士后,欢迎申请。



近期会议

  • IJCAI 2017
  • EMNLP 2017
  • INLG 2017
个人工具