张启哲

个人简介

我目前是北京大学计算机学院视频与视觉技术国家工程研究中心（NERCV²T）HMI实验室的一名在读博士生，导师为仉尚航教授。在此之前，我在北京大学取得了智能科学与技术学士学位（图灵荣誉学位）。同时，我还获得了经济学的学士学位。

科研兴趣

我的科研兴趣集中于计算机视觉与多模态学习，包括视觉基础模型、多模态大模型、视觉复杂推理、视觉令牌压缩、视觉持续学习与具身智能。我的总体研究目标是构建出一套具有类人表达、适应与泛化能力的大规模高效视觉感知系统，表现出包括基础感知、认知推理与自主创造在内的强大能力。

具体来讲，我的研究兴趣包括：

通用视觉基础模型
视觉语言模型（多模态大模型/扩散多模态模型）
视觉复杂推理（视觉思维链/图像思考）
视觉令牌压缩（令牌剪枝/键值缓存压缩）
视觉持续学习（记忆机制/快慢系统）
具身智能（机器人学/自动驾驶）

教育经历

视觉信息处理与类脑智能博士
2023年9月--2028年6月（预计）

北京大学，中国北京
智能科学与技术专业学士
经济学学士（双学位）
2019年9月--2023年6月

北京大学，中国北京

新闻

06/2025: 一篇论文被 ICCV 2025 接收。(VisPruner)
05/2025: 一篇论文被 ICML 2025 接收。(SAN)
02/2025: 一篇论文被 CVPR 2025 接收。(MoVE-KD)
02/2024: 两篇论文被 CVPR 2024 接收。(GPS, ADMA)
01/2024: 一篇论文被 ICRA 2024 接收。(BiCross)
12/2023: 一篇论文被 AAAI 2024 接收。(SVDP)

实习经历

算法研究实习生（多模态大模型高效性）
2024年3月至今

字节跳动，北京总部，中国
通用人工智能实习生（大模型的记忆机制）
2023年7月--2023年9月

北京智源人工智能研究院 (BAAI)，中国
计算机视觉实习生（自动驾驶）
2022年9月--2023年2月

OPPO 北京分部，中国
GCV实验室实习生（多模态学习）
2021年10月--2022年2月

北京通用人工智能研究院 (BIGAI)，中国

发表工作

超越注意力与相似性：在多模态大模型中通过最大化条件多样性进行令牌剪枝
张启哲, 刘梦真, 李莅琛, 陆鸣, 张袁, 潘俊文, 佘琪, 仉尚航†
Arxiv 2025 [论文] [代码] [主页]
" 我们提出了一种新的视觉令牌剪枝算法 CDPruner，用于多模态大模型的推理加速。该方法无需训练、与模型无关，通过最大化所保留令牌的条件多样性来实现高效剪枝。"

超越文本视觉注意力：在视觉语言模型中利用视觉线索实现更有效的令牌剪枝
张启哲, 程傲松, 陆鸣, 张仁瑞, 卓致用, 曹家骏, 郭少博, 佘琪, 仉尚航†
ICCV 2025 [论文] [代码] [主页]
" 我们提出了一种即插即用的视觉令牌剪枝算法 VisPruner，揭示了文本-视觉注意力的偏移问题，并提出利用视觉线索来实现视觉语言模型中更有效的令牌剪枝。"

基于梯度的参数筛选高效微调
张智*, 张启哲*, 高子俊, 张仁瑞, 叶卡捷琳娜·舒托娃, 周仕佶, 仉尚航†
CVPR 2024 [论文] [代码]
" 我们提出了一种新颖的基于梯度的参数筛选方法 (GPS) 用于高效微调。GPS在训练与推理两个阶段均不引入任何额外的存储与计算开销，同时，它还具备模型架构无关以及任务自适应特性，在下游任务上取得了优异表现。"

通过跨模态跨域知识迁移的无监督脉冲深度估计
刘家铭*, 张启哲*, 李嘉宁, 陆鸣, 黄铁军, 仉尚航†
ICRA 2024 [论文] [代码]
" 我们针对无监督深度估计任务提出了一种全新的跨模态跨域 (BiCross) 框架。值得一提的是，我们的工作是第一个利用公开的 RGB 数据集帮助无监督脉冲深度估计训练的。 "

可扩展模型的参数高效微调中的长期突触发育与神经印痕机制假设
戴高乐, 唐艺铭, 范纯恺, 张启哲, 张智, 甘雨露, 曾承清, 仉尚航† 黄铁军,
ICML 2025 [Paper] [Code]
" 我们提出了突触和神经元方法 (SAN)，从前置特征调整向量中将缩放分量解耦并传播到后置权重矩阵。SAN 的理论基础源自于长期增强/抑制现象，即通过调节神经递质的释放来控制突触的发展过程。"

基于混合视觉编码器的视觉语言模型知识蒸馏方法
曹家骏, 张袁, 黄涛, 陆鸣, 张启哲g, 安睿川, 马宁宁, 仉尚航†
CVPR 2025 [Paper] [Code]
" 我们提出了一种新颖的框架，即混合视觉编码器知识蒸馏 (MoVE-KD)，该方法将多个视觉编码器独特的能力通过蒸馏整合到一个高效的单一编码器中。"

用于测试时适应的自适应分布掩码自编码器
刘家铭*, 徐冉*, 杨森乔*, 张仁瑞†, 张启哲, 陈泽徽, 郭彦东, 仉尚航‡
CVPR 2024 [论文] [代码] [主页]
" 我们提出了自适应分布掩码自编码器 (ADMA) 作为一种全新的持续自监督方法。ADMA增强了目标域的知识提取，同时减轻了分布偏移的累积。 "

稀疏视觉提示在跨域语义分割中的探索
杨森乔*, 吴佳锐*, 刘家铭*, 李晓琦, 张启哲, 潘铭杰, 仉尚航†
AAAI 2024 [论文] [代码] [主页]
" 我们提出了一种用于稠密预测TTA任务的稀疏视觉域提示 (SVDP)，它在图像级提示中保留最少量的可训练参数，并保留更多输入中的空间信息。 "

未来计划

视觉令牌剪枝评估框架
用于多模态大模型/扩散多模态模型的键值缓存压缩算法
视觉思维链压缩算法
用于平面几何的辅助线思考

联系方式

theia@pku.edu.cn theia4869@gmail.com
+86 · 18810920885 +86 · 18700432951
Theia-4869

张启哲

北京大学博士在读

English

个人简介

科研兴趣

教育经历

新闻

实习经历

发表工作

未来计划

联系方式

张启哲

北京大学 博士在读

English

个人简介

科研兴趣

教育经历

新闻

实习经历

发表工作

未来计划

联系方式

北京大学博士在读