实习经历


发表工作


超越注意力与相似性:在多模态大模型中通过最大化条件多样性进行令牌剪枝
张启哲, 刘梦真, 李莅琛, 陆鸣, 张袁, 潘俊文, 佘琪, 仉尚航†
Arxiv 2025 [论文] [代码] [主页]
" 我们提出了一种新的视觉令牌剪枝算法 CDPruner,用于多模态大模型的推理加速。该方法无需训练、与模型无关,通过最大化所保留令牌的条件多样性来实现高效剪枝。"

超越文本视觉注意力:在视觉语言模型中利用视觉线索实现更有效的令牌剪枝
张启哲, 程傲松, 陆鸣, 张仁瑞, 卓致用, 曹家骏, 郭少博, 佘琪, 仉尚航†
ICCV 2025 [论文] [代码] [主页]
" 我们提出了一种即插即用的视觉令牌剪枝算法 VisPruner,揭示了文本-视觉注意力的偏移问题,并提出利用视觉线索来实现视觉语言模型中更有效的令牌剪枝。"

基于梯度的参数筛选高效微调
张智*, 张启哲*, 高子俊, 张仁瑞, 叶卡捷琳娜·舒托娃, 周仕佶, 仉尚航†
CVPR 2024 [论文] [代码]
" 我们提出了一种新颖的基于梯度的参数筛选方法 (GPS) 用于高效微调。GPS在训练与推理两个阶段均不引入任何额外的存储与计算开销,同时,它还具备模型架构无关以及任务自适应特性,在下游任务上取得了优异表现。"

通过跨模态跨域知识迁移的无监督脉冲深度估计
刘家铭*, 张启哲*, 李嘉宁, 陆鸣, 黄铁军, 仉尚航†
ICRA 2024 [论文] [代码]
" 我们针对无监督深度估计任务提出了一种全新的跨模态跨域 (BiCross) 框架。值得一提的是,我们的工作是第一个利用公开的 RGB 数据集帮助无监督脉冲深度估计训练的。 "

可扩展模型的参数高效微调中的长期突触发育与神经印痕机制假设
戴高乐, 唐艺铭, 范纯恺, 张启哲, 张智, 甘雨露, 曾承清, 仉尚航† 黄铁军,
ICML 2025 [Paper] [Code]
" 我们提出了突触和神经元方法 (SAN),从前置特征调整向量中将缩放分量解耦并传播到后置权重矩阵。SAN 的理论基础源自于长期增强/抑制现象,即通过调节神经递质的释放来控制突触的发展过程。"

基于混合视觉编码器的视觉语言模型知识蒸馏方法
曹家骏, 张袁, 黄涛, 陆鸣, 张启哲g, 安睿川, 马宁宁, 仉尚航†
CVPR 2025 [Paper] [Code]
" 我们提出了一种新颖的框架,即混合视觉编码器知识蒸馏 (MoVE-KD),该方法将多个视觉编码器独特的能力通过蒸馏整合到一个高效的单一编码器中。"

用于测试时适应的自适应分布掩码自编码器
刘家铭*, 徐冉*, 杨森乔*, 张仁瑞†, 张启哲, 陈泽徽, 郭彦东, 仉尚航‡
CVPR 2024 [论文] [代码] [主页]
" 我们提出了自适应分布掩码自编码器 (ADMA) 作为一种全新的持续自监督方法。ADMA增强了目标域的知识提取,同时减轻了分布偏移的累积。 "

稀疏视觉提示在跨域语义分割中的探索
杨森乔*, 吴佳锐*, 刘家铭*, 李晓琦, 张启哲, 潘铭杰, 仉尚航†
AAAI 2024 [论文] [代码] [主页]
" 我们提出了一种用于稠密预测TTA任务的稀疏视觉域提示 (SVDP),它在图像级提示中保留最少量的可训练参数,并保留更多输入中的空间信息。 "

未来计划


  • 视觉令牌剪枝评估框架
  • 用于多模态大模型/扩散多模态模型的键值缓存压缩算法
  • 视觉思维链压缩算法
  • 用于平面几何的辅助线思考

联系方式

  • theia@pku.edu.cn   theia4869@gmail.com
  • +86 · 18810920885   +86 · 18700432951
  • Theia-4869