2024年7月8日-10日,由机器视觉产业联盟(CMVU)主办,慕尼黑展览(上海)有限公司承办的VisionChina2024(上海)机器视觉展暨机器视觉技术及工业应用研讨会在上海新国际博览中心完美收官。阿丘科技也以其前沿的AI技术实践,为观众带来一场AI+工业的视觉盛宴。
在工业应用研讨会现场,阿丘科技研发副总裁钟克洪围绕“工业视觉进入AI-Native大时代”主题,发表精彩演讲,解析工业视觉产品新范式,下文为其演讲内容整理。
大家好,我是阿丘科技研发负责人钟克洪。
去年我在VisionChina北京和大家分享了工业AI视觉演进的一些理解和观点《工业视觉AI进化论》。一年来,AI在制造业的概念认知加速普及。各行业终端厂商高管积极探索导入AI的路径,视觉厂商也都纷纷包装上AI的人设。
但AI技术架构的视觉产品大多固守在原有视觉产品的认知框架内,AI技术更多只是作为一个关键功能组件,AI对于工业问题的解决并没有质的飞跃。我认为AI技术架构的产品一定要能够直击工业痛点,可这样的产品到底应该长什么样子?一定是AI-Native。
这个就是我想和大家分享的主题——《工业视觉进入AI-Native大时代》,也是阿丘科技一年来的一些思考和探索。
今天我分享的内容主要分为三个部分,分别是工业视觉需要解的问题、AI-Native提供了全新的解题框架,以及对产品发展的一些趋势观点。
一、工业视觉挑战
整个制造业目前关注的核心,我从四个维度概括就是:提质、增效、降本、扩柔。一言概之,即“提升规模效应、提高生产柔性”。
前面三个维度相信大家平时思考的比较多,但是“扩柔”这一部分,实际上可能是当前各个制造企业考虑的必选项。特别是在传统制造业中,“小单快反”成为当下制造业的主流,柔性化生产已经成为常规动作。
那么,目前整个工业视觉行业的挑战有哪些呢?
随着AI技术的导入,确实对检测能力的鲁棒性有非常大程度的提升。但是整个视觉系统的泛化能力,我认为并没有本质的改变,甚至直接导致整个产品的适配性非常差。一旦更换新的场景,就还要另外进行模型训练,即便是在同一个场景下,如果遇到整个产品换型,所消耗的周期也非常长,简而言之就是“切拉换型周期长、场景迁移能力弱。”
而且,整个视觉系统的TCO仍然过高。目前,大部分的视觉系统其实都还是定制的,在评估、开发、部署、维护层面都要消耗很多人力,这是导致高成本重要原因。俗话说“羊毛出在羊身上”,视觉系统的成本变高之后,终端客户对其的普及度就会变得很低。
二、AI-Native工业视觉产品新范式
现在,我们从AI原生的视角,来探究一下前面提出的问题。
首先,什么是AI原生?我们可以从AI和视觉系统结合形态的角度,来解读AI-Native。
当前大部分AI视觉系统都只是把AI作为组件,我们阿丘科技的AIDI、Cognex VisionPro Deep Learning等构建的视觉系统即属于该类,这也是当前AI和视觉系统的主要结合方式。
另一种方式是对现有的视觉系统进行优化,比如阿丘科技的PCB ARS(AI Review System)即是对现有视觉系统进行优化,降低人工复判成本,同时进行缺陷分类、根因分析、过程控制,从而提高或保持良率。
这两种方式本质上仍属于Vision + AI范畴,AI只是视觉系统的核心组件或对现有视觉系统的优化,而并没有基于AI对视觉系统进行重构,所以视觉系统只是“量”的变化,尽管这个“量”变幅度有些大。
而所谓AI-Native,是将视觉系统的所有组件都AI化,即从基于规则的传统视觉系统跃迁为基于Learning的视觉系统,它完全基于数据驱动,并且从方案设计、部署、维护等贯穿全流程。
了解了AI-Native的大体情况之后,接下来我要介绍一下AI-Native重构工业视觉的底层逻辑。
AI技术是从图像分析的局部模块切入,也是当前主流AI和视觉系统结合方式。图像分析端到端AI化,这也是我们AIDI 3.0系列的底层设计逻辑。
目前,主流的成像系统都是基于规则的,而基于学习的成像系统已经初现端倪,即基于物理光学+计算成像,同时将场景自动学习成为成像关键的维度参数,这将革命性提高成像系统场景适应性。
我们应当明白,工业视觉检测的本质,是把控产品在生产过程的一些关键度量,基于这些度量进行根因分析、过程控制,形成闭环,提高良率,这也是制造业企业的本质诉求。所以,基于AI原生的工业视觉底层逻辑,应当是从“成像”,到“图像分析”再到“工艺优化”的完整链条,并在其底层有共同的AI-Core做支撑,后面再基于数据驱动做优化,对不同场景进行适配,以上是我认为的AI-Native产品的架构逻辑。至此,视觉系统的产品新范式,将从“基于规则”迭代至“基于学习”。
· 当前产品,“规则”范式
指我们针对特定的场景,甚至是特定的产品型号,来做打光实验,来设计算法方案,来做调差及一些核心策略。在此规则模式下,人力占比较高,本质上是将人员对产品的理解跟洞察,转换成产品中的设计。
但其实,人类对于经验的归纳和总结能力是非常有限的,这就造成产品的成功与否大部分基于人员的经验,而经验沉淀的丰富程度则可以决定产品的价值。
同时,这也导致这些“基于规则”的产品的泛化性较差,且我们还需要针对不同的场景分别做光学评估、方案设计、部署、维护等,使得TCO过高。
· AI-Native产品:“学习”范式
AI-Native产品则是基于“学习”的概念,学得越多,模型能力越强,更便于后期基于数据来进行规模化。产品的主体是算法,这个算法不仅仅是我们前面理解的图像分析的算法,还包括成像,以及后面整个工艺优化,是一个完整的端到端的AI算法。
所以,此时我们的产品价值主要由模型的能力来决定,而产品迭代也将立足于有价值的数据之上。这类体系下的产品不但具有较强的泛化能力,同时也会使TCO发生革命性地降低,AI视觉应用也将爆发。
三、发展趋势
我们参考自动驾驶的框架,尝试构建工业视觉AI-Native成熟度模型,其中,该模型包含两个关键的维度:AI化程度、人工干预程度。
如图所示,我们当前的状态,基本位于“1”与“2”之间,约为1.5。这意味着,AI已经作为主题渗透在行业之中,不管是终端客户,还是视觉厂商,大家都会把AI作为基本的考核要素,即AI作为视觉系统核心组件的观点已经不可逆转。
那为什么还没有达到”2“?
简而言之是当前的视觉系统产品大多没有统一的Core AI基础设施。那么后面我们的工业视觉产品一定会走到“5“的状态吗?这个问题目前无法确定,但我认为,未来我们至少应该会走到”3“的位置,即全部核心组件AI化,整体架构基于Core AI基础设施,将全部功能组件AI化。
基于AI原生的大趋势,我也将阿丘科技对未来3-5年工业AI的一些趋势观点与大家分享。
第一,模型性能。虽然当前的模型泛化能力偏弱,但整个垂直行业的模型化已经纷纷开始落地。
比如阿丘科技,我们目前已经构建出一套基于PCB行业的通用大模型,提升了PCB行业的工业视觉检测效率,缩短了交付周期,通过流程优化,提高了数据处理速度及模型稳定性。我认为,在未来2-3年,基础模型/通用模型将会迎来较大的突破,更多行业的垂直大模型即将涌现。
第二,计算成像。当前主流成像方案还是基于规则的,定制性偏强。未来,基于AI的计算成像将重塑成像解决方案及产品。这需要视觉系统各Component专业链条上厂商共创,并且也会涌现一批新的成像产品厂商,来解决我们共同的现状问题。
第三,TCO。当前视觉系统的设计、部署、维护成本过高,几乎每一个关键环节都依赖于人员经验,未来,当端到端全部AI化之后,真正实现全链路AI和数据驱动时,将革命性地降低TCO,我预计可能在未来5年后,将会出现这一“杀手级“的产品。
第四,全新AI-Native产品形态探索。全新的AI-Native产品形态,将驱动新的技术和行业生态蓬勃发展,未来5-10年,行业生态即将更换一个新模样,同时厂商也会逐步经历一个新陈代谢、优胜劣汰的过程。
以上就是我本次演讲的全部内容,感谢大家的聆听。