上海人工智能实验室安全团队实习生/全职招聘-深圳市維司達科技有限公司

大家好，我是刘东瑞(https://shenqildr.github.io/)，目前在上海人工智能实验室担任青年科学家，去年从上海交通大学博士毕业。非常感谢求学与科研道路上给予我指导与陪伴的师长和同伴，让我能坚持在自己热爱的AI安全可信方向上前行。

过去一年多的时间里，在团队的支持下我有幸与许多优秀的学生和同事一起，在AI安全可信领域做了一些探索。我主要关注内生安全技术路线，尝试通过理解与调整大模型的内部机理，提升其性能与安全性。我曾参与支持SafeWork-R1和SafeWork-F1等项目，并在相关方向上发表过一些论文，包括：

CVPR 2024 Best Paper Award Candidate（Top 0.2%）
ACL 2025 Outstanding Paper Award（Top 0.3%）
ICLR 2025 Oral（Top 1.8%）
AAAI 2026 Oral（Top 4%）
以及多篇ACL 2025 Oral（Top 2%）等

我们目前正在寻找对大模型与智能体安全可信方向感兴趣的同学加入，招聘类型包括：

实习生（潜在联培学生）
全职算法工程师/研究员
联培博士生（与上海交大、复旦、浙大等高校合作）

为什么考虑加入我们？

我们理解，一段科研经历不仅关乎眼前的学习，也可能对你未来的发展产生影响。因此，我们希望为每一位加入的同学提供一段有方向、有支持、有成长的科研体验：

1. 清晰的成长路径

团队的联培博士生主要从长期实习、表现良好的同学中选拔。
过往实习生中，多人后续在字节、腾讯、上海AI Lab等机构工作，或前往北大、新加坡、加拿大、美国等地深造，发展路径较为明确。

2. 持续的科研产出

过去一年，组内长期实习的同学大多以第一作者或共同一作身份发表或投稿了顶会论文，其中不少同学在此完成了首篇顶会论文或首篇Oral。
团队在AAAI、ICLR、NeurIPS、ACL、EMNLP等会议上持续有论文发表，其中包括ACL 2025杰出论文和多篇Oral。
无论你是否有论文经验，都欢迎在这里起步或深入，积累扎实的科研经历。

3. 深入的指导与支持

从研究想法的讨论、实验设计，到论文撰写与投稿，我会全程参与并提供支持。
团队中高年级同学也会提供帮助，协助你快速融入。
已有经验的同学可以牵头独立课题；刚开始科研的同学也可以从参与现有项目入手，逐步成长。

我研究的关注点

我最初的研究标签是”AI的可解释性”，但随着探索的深入，逐渐扩展到安全评测、攻防、对齐、可解释性、AI极端风险等多个与安全可信相关的方向。

我每天会花不少时间阅读论文，也因此常常产生新的想法。团队在上述多个方向上都取得了一些进展（如Oral报告和奖项），但我时常反问自己：这些工作究竟解决了什么问题？

遗憾的是，我尚未做出能”解决”某个领域问题的代表作。博士期间，我一作论文共被拒二十多次，付出最多心血的论文”Trap of Feature Diversity in the Learning of MLPs”依然没有找到归宿。但这些经历让我学会更淡然地看待外界的评价，也更坚定地去探索那些”真问题”。

我希望能做解决安全问题的研究，保持好奇心、不断学习，也期待与更多优秀的伙伴一起，在未来做出有真正影响力的工作。

近期部分研究成果

Jailbreak（越狱攻击）

LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts ACL 2025 Outstanding Paper Award
The Devil Behind Mask: An Emergent Safety Vulnerability of Diffusion LLMs

Useful XAI & Alignment（可解释性与对齐）

REEF: Representation Encoding Fingerprints for Large Language Models ICLR 2025 Oral
The Tug of War Within: Mitigating the Fairness-Privacy Conflicts in Large Language Models ACL 2025 Oral
Cooperative or Competitive? Understanding the Interaction between Attention Heads From A Game Theory Perspective ACL 2025 Oral
X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability EMNLP 2025 Finding
Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring
Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning NeurIPs 2025