车子拐进滨江区金润科技园,抬头就看见一架无人机在楼顶盘旋。它不高调,也不吵闹,就那么稳稳地悬停片刻,然后调转方向,沿着园区边界缓缓飞远。
“那是我们自己的测试机,正在做自主巡检的路由优化。”来接我们的是联汇科技副总经理邓冬梅,她笑着指了指天台,“上面还有好几台,天天飞,邻居们都习惯了。”
这家公司的门面并不显赫。夹在几栋标准的写字楼之间,联汇科技的办公区透着一种“理工男”式的务实——开放式工位上堆着开发板,白板上画满了神经网络架构图,角落里几台机器狗正趴着充电,红灯一闪一闪。
就是在这个看似普通的地方,一群人正在试图完成一件“不可能”的事:让机器真正“看懂”世界,然后动手干活。
“打个比方,我们可以让不同的机器人看懂世界,在物理空间里面自由探索任务。也可以让一架无人机听懂人的指挥,自主飞行、自主拍摄、自主总结报告。还可以让一个摄像头真正具备一个人类角色的智慧。”联汇科技CEO兼首席科学家赵天成开门见山。
测试区里,一台机器狗正在待命。赵天成在电脑上输入一条微信消息:“去门口帮我拿一杯咖啡。”机器狗停顿了不到两秒,开始移动。它穿过办公区,绕开一把椅子,在自动门前“站”了片刻——门开了。走到大厅,它扫描四周,锁定了一个提着外卖袋的小哥,靠近,抬头,发出一段语音:“请问咖啡可以放在我背上吗?”
整个过程约两分钟。机器狗背着小哥放上的咖啡,沿原路返回,稳稳停在赵天成面前。

“这件事对人来说很简单,但对机器来说,它分成了三个阶段。”赵天成向我们细细拆解,“首先,它没有地图,不知道门在哪里、外卖小哥是谁。它得理解指令,基于视觉去判断环境,像人一样摸索着找到大门口。然后,它要识别出谁是外卖小哥,触发人机交互模块,通过多轮对话把咖啡拿到。最后,它用时空记忆调取来时的路径,用最短的路返回来。”
他顿了顿:“虽然对人来说就是个简单的取咖啡动作,但对机器人、对所有智能大脑来说,这其实是一个非常挑战、有难度的问题。”
他回忆起团队第一次成功让机器完整执行指令的时刻,语气里仍带着激动。
“当时我们把一台机器人的摄像头接到我们的大模块,把它的四足控制也接入进去。打开‘眼睛’之后,它看到了周边有什么东西,环境在什么地方。我给它一个指令:‘帮我去找一个垃圾桶,丢个垃圾。’它就开始自主寻找、自主探索,找到那个地方,自主走过去。”他说,“那一刻我们整个团队都非常激动。我们第一次看到了一个智能体,从一个数字空间的APP里面,真实地走到了物理世界,真正可以和物理环境做交互。”
他用一个生活化的比喻来形容现在的工作:“我们现在的AI,语言模型解决的是‘说话’的问题。但现在任何一个AI,都不能像一只普通的小猫一样,在一个空间里面上蹿下跳,和不同的物体进行交互。这也是现在AI最缺的——物理AI的能力。要解决物理AI,必须解决空间智能和视觉智能。这就是我们在做的事情。”

这一思路,源于赵天成在卡耐基梅隆大学读博期间的学术积累。2016年,当大多数人还在用多个规则模块拼接对话系统时,他就提出了端到端的生成式对话模型。2019年回国后,他和团队将这一理念落地。2021年,联汇科技推出了业界最早的视觉语言大模型之一。到2025年,他们开源的VLM-R1视觉语言模型,在GitHub上获得了近5000颗星。
“我们不做‘实验室里的技术’。”赵天成说,“从一开始,我们就瞄准了物理世界——让AI走出屏幕,去解决真实的问题。”
“如果是以前的无人机,你给它一条固定航线,它就傻傻地飞。但现在的这台不一样。”测试工程师打开调度界面,上面实时显示着无人机的视角画面、当前位置和任务状态。
邓冬梅向我们描述了无人机的应用场景:“它不再只是一个基于固定路线、通过GPS导航做运行的机器。比如说,我希望无人机起飞到某个园区去寻找一个着火点,它能不能自动锁定这个火点,并且进行灭火的动作?我们的运行智能体,通过模块让任何无人机装上之后都可以做到这个目标。就跟发微信一样,给它发一条消息,它听懂之后就自己规划路线,自己通过摄像头去寻找火源,进行处置,自动返航,形成一个报告。”
在工地安全监控场景中,这项技术也已经落地。联汇科技的AI赋能摄像头,能够实时识别吊装作业中的违规操作。“一旦发现违规,它会立即报警,同时提供安全注意事项提示。一天工作结束,它会自动生成安监日报。”邓冬梅介绍,这套系统24小时不间断运行,可以连续72小时监控,“就像给工地配了一个不知疲倦的资深安全员。”
更重要的是,这套系统可以利旧——现有的摄像头不需要更换硬件,只需增加一个智能大脑盒子,就能拥有同样的能力。“对客户来说,这是成本最低的升级方式。”在多智能体协同上,联汇科技走得更远。邓冬梅带我们来到协同作战演示区:“摄像头、机器狗、无人机可以信息共享、联动处置。摄像头发现险情,立刻通知无人机侦查;确认情况后,派机器人/机器狗到场处置,形成一体化闭环。”

“就像一支球队,每个节点都知道队友位置与动作。” 她形容,“未来无人终端会形成集群智能,更高效地帮人类解决复杂问题。”
赵天成认为,真正的群体智能不止于此:“未来成千上万智能体将织成一张网,城市里的摄像头、无人机都是节点,像一个生命体般协同运转。”
支撑这一愿景的,是联汇科技开源的万物具身智能体平台。“这件事靠一家公司做不成。中国有最强的硬件制造,我们做好‘大脑’,伙伴做好‘身体’,这是最高效的生态。”
内容创作行业长期被一个痛点困扰:素材越多越难找,周期越长效率越低。联汇科技推出的OttoBox 小欧助手,正在打破这个困局。

“文件不用刻意命名,随意存放即可。” 技术人员现场演示,输入 “无人机测试画面”,几秒内便从海量素材中精准锁定下午楼顶巡检的那段视频。“它能理解动态时序与画面语义,不只是识别形状颜色。”
这套能力的背后,正是联汇科技多模态大模型与智能体框架的支撑。在电商直播、品牌宣传、融媒体生产中,小欧可一句话实现素材检索、脚本生成、智能剪辑,一小时素材三分钟出片,人力成本下降六成,效率提升数十倍。
自去年 10 月展厅开放以来,这里已接待全国各地大量客户,仅一个月就超三百人次。“最近一批外省来客来自公安系统,他们最看重的是:AI 能落地、能真正解决实际应用场景的问题。” 邓冬梅说。

在民生领域,技术向善同样温暖人心。针对视障群体,联汇科技推出Homer AI “好马” 助视 APP,配合眼镜使用,实现导航 + 避障双模并行。它不仅提示路线,更实时提醒台阶、障碍物,支持持续监测红绿灯,让出行更安全、更有尊严。目前已有数万用户日常使用,成为视障朋友的出行刚需。
赵天成把这一切称为物理世界的数字员工。
“现在流行的数字员工,多在屏幕里订日历、查信息。我们打造的,是能走进现实的数字员工。给无人机、机器人装上大脑,像发消息一样给它指令,它就自主规划、执行任务、反馈结果。数字员工不再只存在于虚拟世界,更能在物理世界替人完成繁重、重复、危险的工作。”
离开金润科技园时,天色已暗。楼顶的无人机自动返航,稳稳停在充电底座上;测试区里,机器狗仍在安静地穿梭演练。
它们没有情绪,也不知疲倦,只听从一颗强大大脑的指挥,在属于它们的世界里持续学习、不停进化。
从看懂世界,到听懂指令;从单体智能,到群体协同;从产业硬核,到民生温度。联汇科技正在用一颗 “超级大脑”,让机器从冰冷的设备,成长为可靠的伙伴。
