关于我

我是晏梦懿(Mengyi Yan),2017 年于北京航空航天大学数学科学学院获理学学士学位;2025 年 6 月于北京航空航天大学计算机学院(BUAA)取得博士学位,导师为李建欣教授;博士期间在深圳计算科学研究院(SICS)担任研究实习生。2025 年 7 月加入山东大学人工智能学院,现任助理教授。

主要研究兴趣为数据库(Database)、数据质量(Data Quality)、数据清洗(Data Cleaning),以及面向数据库的人工智能(AI4DB)与大语言模型(LLM)的结合。

欢迎通过邮件联系:yanmy@sdu.edu.cn;yanmy1008@buaa.edu.cn;或 yanmy1008@gmail.com。

最新动态

代表性论文

(*:通讯作者)

Mengyi Yan, Yaoshu Wang, Guangyi Zhang, Kehan Pang, Haoyi Zhou*,Accelerating Influence Function Estimation for Large Language Models: A Practical Design,ACM SIGKDD Conference on Knowledge Discovery and Data Mining (SIGKDD),2026.

Yang Liu, Mengyi Yan*, Jiao Xue, Weilong Ren, Yutong Ye, Haoyi Zhou, Jianxin Li*, Zhumin Chen,SPARQ: A Cost-Efficient Framework for Offline Table Question Answering via Adaptive Routing,IEEE International Conference on Data Engineering (ICDE),2026. Paper Code

Mengyi Yan, Wenfei Fan, Yaoshu Wang, Min Xie*,Enriching Relations with Additional Attributes for ER,Proceedings of the VLDB Endowment (VLDB),2024. Link

Mengyi Yan, Yaoshu Wang*, Yue Wang, Xiaoye Miao, Jianxin Li,GIDCL: A Graph-Enhanced Interpretable Data Cleaning Framework with Large Language Models,ACM SIGMOD International Conference on Management of Data (SIGMOD),2025. Link Camera-Ready

Mengyi Yan, Yaoshu Wang*, Kehan Pang, Min Xie, Jianxin Li*,Efficient Mixture of Experts based on Large Language Models for Low-Resource Data Preprocessing,ACM SIGKDD Conference on Knowledge Discovery and Data Mining (SIGKDD),2024. Link

Mengyi Yan, Weilong Ren*, Yaoshu Wang, Jianxin Li*,A Retrieval-Augmented Framework for Tabular Interpretation with Large Language Model,Database Systems for Advanced Applications (DASFAA),2024. Link

完整论文列表请参见上方的 Publications 页面。

研究方向

我的研究聚焦于数据库、数据质量、数据清洗,以及面向数据库的人工智能(AI4DB)与大语言模型(LLM)的结合,相关成果发表于 SIGMOD、VLDB、KDD、DASFAA、EMNLP 等会议。下面对几个主要方向作简要介绍。

面向数据驱动 AI 的低成本数据预处理与推理

我致力于在大语言模型之上构建数据与算力双高效的处理流水线:通过最小化标注与计算开销(在消费级硬件上即可运行离线 LLM),在多种数据预处理与表格推理场景下取得与在线模型相当的效果,覆盖实体解析(Entity Resolution)、表格表示学习(Tabular Representation Learning)、关系抽取(Relation Extraction)与表格问答(Table Question Answering)等任务。相关成果发表于 [ICDE’26KDD’24DASFAA’24BigData’24EMNLP’25]。

数据清洗

我研究如何借助知识增强的方法(如基于 LLM 的智能体、知识图谱)提升数据清洗系统的性能,相关成果发表于 [SIGMOD’25SIGMOD’24VLDB’24]。

面向大语言模型的数据评估、影响估计与合成

我研究如何评估并优化用于训练大语言模型(LLM)的数据:综合运用不确定性量化(Uncertainty Quantification)、影响函数(Influence Function)、次模优化(Submodular Optimization)等工具,在预训练、微调以及特定领域适配等阶段衡量数据的冗余度与价值。其中一个重点是让影响函数式的训练数据归因在现代 LLM 上变得可扩展、可落地,从而指导各类下游任务的训练数据组合,最大化模型表现与训练效率。相关成果发表于 [KDD’26FCS’25AIJ’23arXiv]。

学术报告

MELD: Efficient Mixture of Experts based on LLM for Low-Resource Data Preprocessing

  • KDD 2024 大会,2024 年 8 月,西班牙 巴塞罗那

同行评审

KDD、NIPS/NeurIPS、ICLR、AAAI、ICDE 等会议外审。