个人档案

关于我 🪪

Homepage Google Scholar GitHub Gmail

我目前是一名多模态算法工程师(@ByteDance),主要负责电商平台安全治理相关的多模态大模型的研究与应用。我于2024年6月取得工学硕士学位并毕业于南京大学-计算机科学与技术系-媒体计算研究组,导师是唐杰副教授。我于2021年6月本科毕业于南京大学计算机科学与技术系,获得理学学士学位。

我的研究方向主要是计算机视觉多模态深度学习生成式深度学习,近期主要关注视觉目标跟踪(VOT)视觉语言模型生成式模型

最新消息 🔥

  • [ 2025.09.19 ] 🎉 MERIT 被 NeurIPS 2025 接收! 代码数据集 已经公布。
  • [ 2025.06.12 ] 🤗 我们提出了MERIT,第一个用于多条件交错语义检索的多语言数据集,共包含 320,000 条查询和 135,000 个商品,覆盖了 5 种语言(英语、泰语、印尼语、越南语、马来语)和 7 个不同的商品类别(服装、电子产品、食品、家具、包、珠宝等)。同时,我们还构建了一个新的微调框架Coral,以适配经过预训练的多模态大模型进行表征提取。arXiv 预印版论文和 项目主页 已经公布。
  • [ 2024.03.21 ] 📖 我发布了一篇知乎博客,讲解了论文的主要思路。
  • [ 2023.10.18 ] 📄 CVF 正式版论文和 arXiv 预印版论文均已公布! ROMTrack 跟踪器采用了新提出的目标建模范式,显著提高了跟踪鲁棒性。 代码已经开源。
  • [ 2023.07.14 ] 🎉 我在视觉目标跟踪(VOT)领域的研究工作 ROMTrack 被 ICCV 2023 接收!

论文 📝

学术服务 💼

  • 期刊审稿 :
    • IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)
    • IEEE Transactions on Multimedia (TMM)
    • IEEE Transactions on Neural Networks and Learning Systems (TNNLS)
    • ACM Transactions on Multimedia Computing, Communications and Applications (TOMM)
    • Journal of Visual Communication and Image Representation (JVCIR)
  • 会议审稿 :
    • IEEE International Conference on Computer Vision (ICCV)
  • 课程助教 :
    • 计算机系统基础(ICS)
    • 多媒体技术

教育经历 🎓

  • 2021.9 - 2024.6:工学硕士,南京大学。
  • 2017.9 - 2021.6:理学学士,南京大学。
    • 计算机科学与技术系。
    • 2020.9 - 2021.6:在王利民教授的指导下,对计算机视觉领域的视觉目标跟踪任务展开研究。
  • 2012.9 - 2017.6:江苏省天一中学。
    • 初中和高中。

工作经历 🖥️

  • 2024.7 - 至今:多模态算法工程师。
    • 字节跳动 - Data - 国际化电商 - 治理与体验,上海市
    • 主要致力于国际化电商平台的商品内容安全治理相关的多模态大模型的研究与应用工作。
  • 2023.6 - 2023.9:计算机视觉算法工程师实习生。
    • 阿里集团 - 淘天集团 - 阿里妈妈,杭州市。
    • 主要致力于多模态算法和 AIGC 算法的研发与优化工作。

荣誉与奖项 🏅

  • 2023~2024年,南京大学优秀研究生
  • 2023~2024年,腾讯奖学金
  • 2021/2022/2023年,南京大学学业奖学金,分别获得一等奖/二等奖/二等奖。
  • 2018/2019/2020年,南京大学人民奖学金,分别获得二等奖/一等奖/二等奖。
  • 2019年,全国大学生数学建模竞赛江苏赛区三等奖
  • 2015年,第 12 届中国东南地区数学奥林匹克银牌

联系方式 📫

最后更新于 : 2025-09-19, Fri, 17:13 PM +0800
使用 Hugo 构建
主题 StackJimmy 设计