科研项目经历
基于异常分数反馈的图异常检测(FGAD) 2024.10 - 2025.03
- 科研实习单位:哈尔滨工业大学(威海) INET 实验室。
- 会议投稿:第一作者预投CCF-B类顶会ICDM。
- 异常反馈:改进传统 GCN 图嵌入层,构建轻量化 GCN 模型架构,引入特征扩散权重,根据异常分数、结构特征和属性相似度影响节点的特征聚合过程,避免异常噪声的扩散,增强模型的鲁棒性和可解释性。
- 图异常检测:采用基于节点重构和结构重构的 GAE 图异常检测模型,能够识别属性异常和结构异常。
- 数据划分优化:改进 mini-batch 划分方式,通过 metis 和 k-means 方法划分数据集成簇,减少边数据信息损失。
- 性能突破:FGAD模型在AUC-ROC分数在Cora,Flickr,Reddit,Books等7个异常图数据集上超过11类baseline。
基于结构感知语义标记化的可伸缩生成性工具调用 2024.11 - 2025.05
- 科研实习单位:中国科学院自动化所 NLPR 实验室。
- 会议投稿:EMNLP 2025 Findings (第二作者)
- 理论研究:调研探索增量学习 (DSI++) 方法,无碰撞 codebook 方法,生成检索交替训练方法 (IDGenRec)。
- 数据处理:针对工具智能体(Tool Agent)数据稀缺问题,构建589k多模态Tool数据集,覆盖46k类工具与场景,优化Toolkengpt模型的工具理解能力。
- 模型训练与实验:复现并优化 Toolkengpt 模型,在生成数据集上进行训练并测试NDCG和ACC等。
- 模型复现与微调:参与DeepSeek-R1微调研究,依据 MoleculeNet 数据构建 1.77M 微调数据集,在分类任务达到平均98.95%的准确率。
微服务系统故障根本原因定位研究 2024.07 - 2025.03
- 科研实习单位:哈尔滨工业大学 ICES 实验室。
- 理论研究与方法对比:学习并复现多篇图异常检测(如 DONE)和微服务故障溯源(如 APG)论文,进行问题定义与数据搜集。
- 数据处理与特征工程:处理微服务数据集,设计并实现数据使用与增强方法,按时间戳构建快照图作为 DGL 的 Datasets。
- 模型开发与优化:重写并优化异常感知图嵌入模型,迁移图表示格式(PyG->DGL),该写模型框架(lightning-hydra-template),提升模型训练效率。
基于图神经网络的产业链风险传导预警项目 2024.10 - 2024.11
- 项目角色:作为助手参与项目,主要负责风险评估模型的构建和路径提取算法的开发。
- 数据处理:处理大规模企业节点数据和边关系数据,通过 one-hot 编码处理数据,根据时间戳划分数据集。
- 模型设计:构建基于 GAT 的异构图神经网络模型,融合节点和边特征进行风险预测,输出企业风险概率。
- 路径提取:开发基于注意力机制的路径提取算法,回溯风险传导路径,为风险溯源提供可视化支持。
- 优化评估:引入多头注意力机制和边特征融合,优化模型对复杂图结构的理解。
基于图表征学习的区块链异常交易检测系统 2024.03 - 2024.08
- 项目角色:担任队长,带领团队参加第十七届全国大学生信息安全竞赛。
- 模型改进:对图聚类模型的计算复杂度进行改进,通过图表征学习和图聚类的轻量化改造,构建参数共享与批量计算相耦合的轻量级模型架构,降低时空复杂度,能够在资源受限环境下处理大规模图数据,增强泛化能力并提高训练和推理速度。
- 推理精确度提升:构建节点判别与膨胀收缩损失联合优化的图对比聚类模型,统一了图表征学习和聚类优化过程,获得聚类友好的节点表征信息,具备“类内聚类最小化,类间距离最大化”的优异分类能力。
AI 赋能大学计划·大模型实战学生训练营 2024.04 - 2024.05
- 学习内容:学习 LLM 大模型基础知识、提示词工程和 LLM 微调 & 训练理论。
- 实战项目:在魔搭社区搭建模型完成实战项目《情绪魔方 — emoji 生成器》,获得结业证书与 CSTP 大模型应用开发工程师技能证书。
新加坡南洋理工大学人工智能科研项目2023.01 - 2023.03
- 学习内容:学习和交流人工智能以及在医疗保健领域的应用。
- 成果:获得结业证书与 Teoh Teik Toe 教授推荐信。
