“‘AI第一城’一线观察”②| 联汇科技—

“‘AI第一城’一线观察”②| 联汇科技——给机器装上超级大脑

杭州新闻 2026-06-04 14:12:00 6771阅

记者朱晶晶/文实习生郜捷摄/剪辑

车子拐进滨江区金润科技园，抬头就看见一架无人机在楼顶盘旋。它不高调，也不吵闹，就那么稳稳地悬停片刻，然后调转方向，沿着园区边界缓缓飞远。

“那是我们自己的测试机，正在做自主巡检的路由优化。”来接我们的是联汇科技副总经理邓冬梅，她笑着指了指天台，“上面还有好几台，天天飞，邻居们都习惯了。”

这家公司的门面并不显赫。夹在几栋标准的写字楼之间，联汇科技的办公区透着一种“理工男”式的务实——开放式工位上堆着开发板，白板上画满了神经网络架构图，角落里几台机器狗正趴着充电，红灯一闪一闪。

就是在这个看似普通的地方，一群人正在试图完成一件“不可能”的事：让机器真正“看懂”世界，然后动手干活。

让机器像小猫一样“上蹿下跳”

“打个比方，我们可以让不同的机器人看懂世界，在物理空间里面自由探索任务。也可以让一架无人机听懂人的指挥，自主飞行、自主拍摄、自主总结报告。还可以让一个摄像头真正具备一个人类角色的智慧。”联汇科技CEO兼首席科学家赵天成开门见山。

测试区里，一台机器狗正在待命。赵天成在电脑上输入一条微信消息：“去门口帮我拿一杯咖啡。”机器狗停顿了不到两秒，开始移动。它穿过办公区，绕开一把椅子，在自动门前“站”了片刻——门开了。走到大厅，它扫描四周，锁定了一个提着外卖袋的小哥，靠近，抬头，发出一段语音：“请问咖啡可以放在我背上吗？”

整个过程约两分钟。机器狗背着小哥放上的咖啡，沿原路返回，稳稳停在赵天成面前。

“这件事对人来说很简单，但对机器来说，它分成了三个阶段。”赵天成向我们细细拆解，“首先，它没有地图，不知道门在哪里、外卖小哥是谁。它得理解指令，基于视觉去判断环境，像人一样摸索着找到大门口。然后，它要识别出谁是外卖小哥，触发人机交互模块，通过多轮对话把咖啡拿到。最后，它用时空记忆调取来时的路径，用最短的路返回来。”

他顿了顿：“虽然对人来说就是个简单的取咖啡动作，但对机器人、对所有智能大脑来说，这其实是一个非常挑战、有难度的问题。”

他回忆起团队第一次成功让机器完整执行指令的时刻，语气里仍带着激动。

“当时我们把一台机器人的摄像头接到我们的大模块，把它的四足控制也接入进去。打开‘眼睛’之后，它看到了周边有什么东西，环境在什么地方。我给它一个指令：‘帮我去找一个垃圾桶，丢个垃圾。’它就开始自主寻找、自主探索，找到那个地方，自主走过去。”他说，“那一刻我们整个团队都非常激动。我们第一次看到了一个智能体，从一个数字空间的APP里面，真实地走到了物理世界，真正可以和物理环境做交互。”

他用一个生活化的比喻来形容现在的工作：“我们现在的AI，语言模型解决的是‘说话’的问题。但现在任何一个AI，都不能像一只普通的小猫一样，在一个空间里面上蹿下跳，和不同的物体进行交互。这也是现在AI最缺的——物理AI的能力。要解决物理AI，必须解决空间智能和视觉智能。这就是我们在做的事情。”

这一思路，源于赵天成在卡耐基梅隆大学读博期间的学术积累。2016年，当大多数人还在用多个规则模块拼接对话系统时，他就提出了端到端的生成式对话模型。2019年回国后，他和团队将这一理念落地。2021年，联汇科技推出了业界最早的视觉语言大模型之一。到2025年，他们开源的VLM-R1视觉语言模型，在GitHub上获得了近5000颗星。

“我们不做‘实验室里的技术’。”赵天成说，“从一开始，我们就瞄准了物理世界——让AI走出屏幕，去解决真实的问题。”

从“看见”到“动手”的关键一跃

“如果是以前的无人机，你给它一条固定航线，它就傻傻地飞。但现在的这台不一样。”测试工程师打开调度界面，上面实时显示着无人机的视角画面、当前位置和任务状态。

邓冬梅向我们描述了无人机的应用场景：“它不再只是一个基于固定路线、通过GPS导航做运行的机器。比如说，我希望无人机起飞到某个园区去寻找一个着火点，它能不能自动锁定这个火点，并且进行灭火的动作？我们的运行智能体，通过模块让任何无人机装上之后都可以做到这个目标。就跟发微信一样，给它发一条消息，它听懂之后就自己规划路线，自己通过摄像头去寻找火源，进行处置，自动返航，形成一个报告。”

在工地安全监控场景中，这项技术也已经落地。联汇科技的AI赋能摄像头，能够实时识别吊装作业中的违规操作。“一旦发现违规，它会立即报警，同时提供安全注意事项提示。一天工作结束，它会自动生成安监日报。”邓冬梅介绍，这套系统24小时不间断运行，可以连续72小时监控，“就像给工地配了一个不知疲倦的资深安全员。”

更重要的是，这套系统可以利旧——现有的摄像头不需要更换硬件，只需增加一个智能大脑盒子，就能拥有同样的能力。“对客户来说，这是成本最低的升级方式。”在多智能体协同上，联汇科技走得更远。邓冬梅带我们来到协同作战演示区：“摄像头、机器狗、无人机可以信息共享、联动处置。摄像头发现险情，立刻通知无人机侦查；确认情况后，派机器人/机器狗到场处置，形成一体化闭环。”

“就像一支球队，每个节点都知道队友位置与动作。” 她形容，“未来无人终端会形成集群智能，更高效地帮人类解决复杂问题。”

赵天成认为，真正的群体智能不止于此：“未来成千上万智能体将织成一张网，城市里的摄像头、无人机都是节点，像一个生命体般协同运转。”

支撑这一愿景的，是联汇科技开源的万物具身智能体平台。“这件事靠一家公司做不成。中国有最强的硬件制造，我们做好‘大脑’，伙伴做好‘身体’，这是最高效的生态。”

当“数字员工”走进物理世界

内容创作行业长期被一个痛点困扰：素材越多越难找，周期越长效率越低。联汇科技推出的OttoBox 小欧助手，正在打破这个困局。

“文件不用刻意命名，随意存放即可。” 技术人员现场演示，输入 “无人机测试画面”，几秒内便从海量素材中精准锁定下午楼顶巡检的那段视频。“它能理解动态时序与画面语义，不只是识别形状颜色。”

这套能力的背后，正是联汇科技多模态大模型与智能体框架的支撑。在电商直播、品牌宣传、融媒体生产中，小欧可一句话实现素材检索、脚本生成、智能剪辑，一小时素材三分钟出片，人力成本下降六成，效率提升数十倍。

自去年 10 月展厅开放以来，这里已接待全国各地大量客户，仅一个月就超三百人次。“最近一批外省来客来自公安系统，他们最看重的是：AI 能落地、能真正解决实际应用场景的问题。” 邓冬梅说。

在民生领域，技术向善同样温暖人心。针对视障群体，联汇科技推出Homer AI “好马” 助视 APP，配合眼镜使用，实现导航 + 避障双模并行。它不仅提示路线，更实时提醒台阶、障碍物，支持持续监测红绿灯，让出行更安全、更有尊严。目前已有数万用户日常使用，成为视障朋友的出行刚需。

赵天成把这一切称为物理世界的数字员工。

“现在流行的数字员工，多在屏幕里订日历、查信息。我们打造的，是能走进现实的数字员工。给无人机、机器人装上大脑，像发消息一样给它指令，它就自主规划、执行任务、反馈结果。数字员工不再只存在于虚拟世界，更能在物理世界替人完成繁重、重复、危险的工作。”

离开金润科技园时，天色已暗。楼顶的无人机自动返航，稳稳停在充电底座上；测试区里，机器狗仍在安静地穿梭演练。

它们没有情绪，也不知疲倦，只听从一颗强大大脑的指挥，在属于它们的世界里持续学习、不停进化。

从看懂世界，到听懂指令；从单体智能，到群体协同；从产业硬核，到民生温度。联汇科技正在用一颗 “超级大脑”，让机器从冰冷的设备，成长为可靠的伙伴。

责任编辑：赵文浩

审核：郑霞骆剑伟