新闻中心 News 分类>>
虹软科技2023年年度开云体育- 开云体育官方网站- APP董事会经营评述
开云体育- 开云体育官方网站- 开云体育APP
2023年,全球智能手机出货量继续下滑,据Counterpoint统计,2023年,全球智能手机出货量为11.5亿台,同比下降6%,创下十年来的新低,其中第四季度实现反弹,为后续市场复苏带来信心。与整体出货量呈现的下滑形成对比,高端智能手机出货量创下增长的新纪录。在这一领域,公司为手机拍摄所打造的创新性全链路超域解决方案正赢得更多客户的青睐与认可,基于智能超域融合(TurboFusion)创新技术研发和推出的夜景、HDR、超分、人像、运动抓拍解决方案实现了量产落地并持续出货。2023年度,公司智能手机业务收入实现较好增长,带动移动智能终端视觉解决方案实现营业收入58,129.02万元,同比增长22.82%。
公司不断推出新技术和多品类算法产品,持续为智能手机、平板电脑、笔记本电脑等领域的OEM客户提供强劲动力。公司于2022年打造并推出了TurboFusion创新产品系列,为行业带来了开创性的全链路超域解决方案。与传统的硬件升级模式不同,TurboFusion技术聚焦于软件层面的优化和处理,通过利用公司高并发异构计算框架构建了“软件ISP”平台,在此基础上实现对图像的智能处理。这一创新不仅改善了图像的动态范围、减少噪音,还进一步优化了图像的细节和色调映射,为用户带来更高清、灵动的影像拍摄新体验。
报告期内,公司持续迭代VisDrive一站式车载视觉软件解决方案。伴随着智能座舱芯片的发展,智能座舱SoC芯片的CPU、DSP、NPU、GPU等内核算力获得大幅增强。公司将继续与高通等主流厂商合作,基于这些主流的方案平台更新迭代VisDrive一站式车载视觉软件解决方案,把视觉融合的自动泊车(APA)、记忆泊车(HPA)等泊车辅助功能迁移到座舱中,实现舱泊一体的完整解决方案,并进一步将智驾(ADAS)和泊车辅助功能(APA、HPA)整合为中高端芯片平台的一体化行泊视觉解决方案。
报告期内,公司面向舱外的前装软硬件一体车载视觉解决方案Westake产品化进程加速,通过精益化软件架构设计与开发集成,达成了单颗SoC行泊车功能一体的产品化开发目标。①行车方面,AEB等安全类的功能根据区域性法规和行业标准需求进行了迭代;ACC、LCC、ILC等舒适类的功能在复杂场景中的性能表现得到进一步优化;L2+类的功能高速领航辅助已完成开发部署,并在实车测试中表现出色。以上功能均通过了阶段性里程累计测试,行车类功能性能显著提升,视觉感知算法达到准量产水平。②泊车方面,基础的垂直、水平、斜列车位泊车功能持续提升,同时机械车位泊车功能通过全新的感知及规控算法得以实现。
AIGC技术持续快速发展,随着大模型参数量小型化和手机芯片算力的不断提升,更多的AIGC和大模型相关应用将进一步从云端下放到端侧,带动AI手机算法应用的爆发。公司也在积极布局,不断探索AIGC在手机端侧的新应用和新产品。例如,公司于报告期内研发了扩散模型图像超分辨率、扩散模型图像深度信息和AIGC星空扩图等解决方案。扩散模型图像超分辨率和深度信息解决方案均运用了Diffusion扩散模型,实现了图像超分辨率、画质增强技术以及对图像深度信息的精准计算。AIGC星空扩图解决方案中,通过公司智能寻星解决方案实现寻找并定位图像中的星置,用于指导Diffusion扩散模型在执行扩图任务时,生成出真实性高并且更大视野的星空摄影图像,提升用户星空拍摄的后续体验。
报告期内,公司与高通、联发科等芯片平台公司开展合作,在其智能芯片平台上进行关于AIGC的应用演示,如在10月召开的2023高通骁龙峰会上展示了基于新一代骁龙8移动芯片的虹软创新性视频应用“VideoObjectEraser”,11月召开的MediaTek天玑旗舰新品发布会上展示了虹软基于新一代天玑9300旗舰平台推出的“生成式AI超级分辨率技术”。基于更先进平台的特性,公司将下一代影像提升至更高水平,为用户带来前所未有的影像产品和视觉体验。
报告期内,公司不断优化ArcMuse计算技术引擎,迭代视觉大模型,同时优化基于边缘检测、人体几何、深度恢复和智能分割等核心引擎的条件视觉小模型,对于用户输入的各类真人图、人台图或者商品图,均可高质量生成服装模特展示图和商品展示图。同时,公司2023年第四季度在PhotoStudioAI服装版中正式推出了衣服图功能,仅需一张长袖或者短袖衣服平铺图,即可智能生成服装模特展示图。此外,还新增实现了一系列AI编辑功能,包括画质增强、智能美化、魔法擦除、智能补光、随心变形等丰富的AI编辑工具,通过深入商拍垂直领域,ArcMuse展现卓越效能,全方位提升商拍图片的美感和质感,并助力用户在效率、创意和成本控制方面取得更大的提升。
在产品合规测试方面,公司致力于确保智能汽车产品符合国内外各项法规要求。2023年,公司智能汽车产品通过了多项欧盟准入法规的测试,包括适用于(EU)2019/2144ADDW的高级驾驶员分心警告系统、适用于UNReguationNo151的车辆盲区检测系统、适用于UNReguationNo159的行人移动监测系统,正在进行(EU)2021/1958ISA智能速度辅助系统的STU认证,这些举措旨在为客户提供面向海外的合规产品,为其拓展海外市场奠定坚实基础。与此同时,公司紧追国内车载产品标准,目前公司舱内DMS软件已配合主机厂通过C-NCAP、C-IASI等最新标准测试,展现产品能力。
公司践行“专业专注、学习创新”“坚持创新、追求卓越”的人才培养理念,重点推动各层次人才专业能力发展提升。报告期内,公司新增开设“管理培训研修班”,带动一线业务管理者提升管理全局思维,提高组织能力与目标管理、高效团队管理能力;组织年度“项目管理训练营”活动,培养具备跨部门协作的项目管理骨干;开设“学习发展嘉年华”课程,分享培养挖掘内部优秀讲师;设计实施“虹鹰训练营”活动引导新员工积极融入公司氛围,为新员工提供了展示其工作潜力和综合素质的新平台。同时,公司持续强化技术创新文化氛围建设,通过开展“工程质量奖”“信息安全卫士”“专利启航”等评选活动,继续促进学习型组织和技术创新文化的传承和沉淀。
公司着重对各类专业人才、管理人才进行梳理盘点,对涉及核心技术架构、工程研发、产品管理等类别的资深专家级人才和高潜力青年骨干人才的岗位分布、任用配置、能力发展、效能评价等内容进行系统评估,优化员工职业发展通道体系,初步构建了多类别、多元化的人才发展模式。在这一过程中,公司提拔、任用了一批业绩、能力表现优秀,有发展潜力的新生代骨干人才充实到研发、产品、销售、运营等重要岗位上,进一步激活了人才队伍的内在驱动力。
在内部控制方面,公司已建立了内部控制体系,制定了相应的内部控制制度,并在报告期内不断改进和完善,继续深化内部控制体系建设,逐步实现权责明确、管理科学,以保障公司规范运作和健康发展,实现公司战略和经营目标。报告期内,围绕法律、行政法规、证监会部门规章以及交易所业务规则的最新要求,公司于2023年11月启动了对现有治理制度的梳理工作,全面系统地修订或新增了包括《公司章程》《独立董事工作制度》《独立董事专门会议工作制度》等共计十七项治理制度,并已经公司第二届董事会第十五次会议审议通过,相关制度还将提交2023年年度股东大会审议。
针对智能手机,基于多年的研究开发,公司可以提供目前市面上大部分主流智能手机视觉人工智能算法产品,包括单/双/多摄摄像头在各种场景下的拍摄和高质量成像、深度摄像头在各种场景下的拍摄和高质量成像、潜望式长焦摄像头无级变焦、3D建模、全景、SLAM、AR/VR、人脸解锁、超像素无损变焦、人体驱动等重要核心功能。在笔记本电脑上,公司从画质、隐私、美颜等几个方面来提升用户视频会议体验。通过视频去噪、提升动态范围来改善会议时的画质;通过背景虚化、换背景实现用户隐私进行保护;通过人像美颜、人体自动居中、人脸细节恢复和增强、眼镜去反光等技术提升视频会议效果。
在XR领域,与多家业界头部厂商保持密切沟通和交流。在VR/MR/AR智能可穿戴设备上,公司从标定、感知、交互和视觉呈现四大方向布局算法解决方案。可以提供VR/MR/AR一站式多传感器标定解决方案,头显6DoF跟踪、平面检测、稠密重建、语义分析、深度估计、实时人体/手部分割、实时3DMesh重建等空间感知解决方案,手柄6DoF跟踪、裸手3D手势交互、视线跟踪和虚拟数字人表情驱动、人体驱动等交互解决方案,以及异步时间扭曲、异步空间扭曲、视频透视(VST)等视觉呈现解决方案。
在智能汽车领域,面向舱外,公司在行车辅助功能上储备了基于前视、周视、环视、后视、夜视摄像头系统的视觉感知算法,可以提供ACC、LCC、AEB、ILC等高级智能驾驶辅助功能;在自动泊车功能(APA)上储备了视觉感知算法、超声波视觉融合算法、规控算法;提供360°环视视觉子系统,支持2D/3DAVM全景影像功能,支持透明底盘功能。面向舱内,公司主要在DMS、OMS两种产品形态上积累了一系列视觉感知算法,可以提供例如疲劳检测、分心检测、健康监测、身份识别(FaceID)、手势识别、遗留提醒等座舱监控、互动系统功能。
4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。
在新科技革命和产业变革的大背景下,人工智能加快向各产业渗透,日益成为科技创新、产业升级和生产力提升的重要驱动力量。视觉人工智能行业为各类人工智能应用提供基础支持技术,广泛应用于各类人工智能细分领域。政府积极出台政策促进人工智能技术发展和应用,深化落实与视觉人工智能息息相关的人工智能、智能制造、信息化和工业化的相关政策,为视觉人工智能的发展提供了政策与配套资源支持。2023年以来,新出台的主要人工智能产业政策如下:
2023年7月,国家网信办联合国家发展改革委、教育部、科技部、工信部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》,鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。同时,对生成式人工智能的服务规范、监督检查和法律责任等方面进行了规定。
据Counterpoint数据统计,2023年全球智能手机出货量为11.5亿台,同比下降6%,创下十年来的新低。面对日益加剧的市场竞争,手机厂商不断推动创新和产品优化,使得智能手机在设计、处理能力、显示技术和摄影功能等多个方面持续进步和演变。尽管智能手机的总体出货量呈现下降趋势,但已发展近五年的折叠屏手机凭借差异化为手机市场带来活力,成为高端手机迭代的方向。在消费者最为关注的摄影能力方面,领先的手机制造商不仅致力于提升产品的计算摄影技术,还通过其产品展现了对计算摄影艺术的深刻理解和独到见解,是塑造其独特竞争优势的关键因素。
2023年,AI大模型技术吸引了市场的广泛关注。在消费电子领域,主要的芯片厂商如英伟达、高通、联发科等都在加大对AIGPU的投入。各大手机厂商也在积极推进AI技术的研发和应用。2024世界移动通信大会上,AI手机成为了展会的热点,包含OPPO、荣耀、小米、三星等多家手机厂商均展示了主打AI功能的新款手机。行业将2024年定义为“AI手机元年”,预期未来生成式AI将在手机终端上得到广泛应用。业界认为,AI手机将成为继功能机、智能机之后,手机行业的第三阶段。根据国际数据公司IDC的预测,2024年开始,新一代AI手机的出货量将急剧上升,预计全球出货量将达到1.7亿部,占到智能手机总出货量的15%。
2023年,苹果发布了首款MR产品,引领了XR行业的新趋势。该产品不仅在游戏领域展现了其潜力,还成功地将XR技术与日常生活和工作环境相融合,为用户提供了更加沉浸式的体验。这款产品的推出,对产业链上游的软硬件及下游内容及应用带来了新的机遇和挑战。在苹果发布MR产品之前,行业内已有多家科技巨头开始布局XR领域并推出了各自的产品,苹果的加入为这一领域的竞争注入新的活力,加速了技术创新的步伐,并可能推动行业标准的形成。随着产业链的不断完善和技术的持续进步,越来越多的企业和开发者开始进入XR领域,推动内容应用的多样化和丰富化,不仅将为用户带来更多选择,也为XR终端设备市场份额的提升提供了动力。
智能驾驶已经成为各大主机厂占领市场的必争之地,也是多家供应商纷纷发力的热点。2023年的智能驾驶市场各路玩家百家争鸣,传统主机厂、造车新势力、传统Tier1、科技公司、互联网企业、甚至消费电子企业,都在大力布局智能驾驶业务,力争在激烈的汽车智能化赛道上拥有一席之地。城市NOA、去高精地图、舱驾融合(驾驶舱与驾驶辅助系统融合)成为了当前智能驾驶的主要热点和核心追求,这三项技术的发展将推动智能驾驶向更高水平的自动化、智能化发展。
在新能源商用车这个细分赛道上,中国企业在“量”的维度上已领先海外企业一步。凭借产业链先发优势和成本优势,国内新能源商用车企业正在加速抢占国际市场红利。当下,全球商用车电动化浪潮正在加速来临,不少国家都提出了商用车电动化的时间表,催生出了庞大的市场需求。以欧洲市场为例,随着欧盟颁布的GSR法规的落地执行,国产商用车面临一系列法规认证需要通过认证,BSIS/MOIS/DDAW/ADDW/ISA等一系列商用车基于视觉融合解决方案的法规执行,以及欧盟法规在全球其他大洲的标杆作用,为虹软商用车视觉解决方案的应用提供了巨大的机会。
公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴等设备实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、汽车和各类AIoT设备上实现各类视觉人工智能的功能。
公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强、功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。
虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、信利等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。
基于多年的研发和积累,目前公司可以提供大部分主流智能手机的视觉人工智能算法产品和技术。根据IDC所统计的2019年度至2023年度全球出货量前五的手机品牌中,除苹果公司完全采用自研视觉人工智能算法外,其余安卓系统手机的主流机型均有搭载公司视觉人工智能解决方案。在继续巩固智能手机算法影像行业领导地位的同时,公司依靠对行业演进规律和技术更迭的理解,成熟有效的产品落地能力,正横向大力推进在智能驾驶领域的落地。在该领域,公司为客户提供VisDrive一站式车载视觉软件解决方案,目前已经成为国内基于高通智能座舱平台上的主流视觉算法供应商。
2023年,AIGC和AI大模型技术继续成为市场焦点,形成不可逆转的发展方向,并且被广泛应用于多个行业。AIGC的快速发展将颠覆文字、图片、视频、音频和3D内容的生产方式,它不仅降低了创作门槛,减少了内容生产的时间和经济成本,还使得个性化和定制化的内容生产成为现实。这种技术的进步不仅限于创意产业,在消费电子领域,随着大模型参数量小型化和手机芯片算力的不断提升,更多的AIGC和大模型相关应用将进一步从云端下放到端侧,有望带动AI手机算法应用的爆发。
在智能驾驶解决方案的提供方面,Tier1供应商主要从软件算法层面入手,开发专门针对智能驾驶的垂直领域大模型。这些供应商通过提供智能驾驶大模型服务,帮助主机厂提升自动驾驶能力,并构建自己的数据闭环系统,形成了一个完整的大模型生态系统。例如,BEV+Transformer模型就是目前多家Tier1供应商正在开发和推广的一种大模型解决方案,它通过结合车辆的行驶数据和先进的算法,为智能驾驶提供了强大的技术支持。这些技术的融合和应用,将进一步推动智能驾驶技术的发展。
针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境Map的构建,物体的3DModeing,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能驾驶人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别,以及视频、照片拍摄时的娱乐功能。
人脸检测技术针对戴口罩的大侧脸、戴墨镜的小人脸等困难场景进行了优化,手机版本在内部通用测试集上保持精度和速度不变的情况下,召回率提升1.32%。另外,人脸检测算法在车载舱内场景召回率提升1.64%,精度提升1.68%,尤其是车内的光线较差和模糊的三排人脸场景,人脸召回指标明显提升。人脸关键点定位技术在自测数据集上精度提升2%,同时提升眼睛点的精度和动作一致性,让美妆效果更加自然。在智能座舱场景中,人脸角度和位置估计新方案平均角度误差在自测数据集上精度达到2.3度,并且优化了戴口罩场景的人脸角度和位置的精度。人脸重建技术在稳定性及性能上进行进一步优化,不断提升不同表情、不同人脸角度下的稳定性及贴合性,在自测集上平均稳定性提升2%,功耗降低30%,使得4D美妆的使用者获得更好的体验。
2DFaceID进一步改善效果,在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善3.2%~5%,针对大角度(主要是pitch角)识别专项优化,改善6.3%~13.5%;3DFaceID在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善2.3%~2.8%;另外针对海外一些客户,大胡子用户较多、误识率偏高的情况,做了定制调优改善了效果;车载场景的RGB/IR交叉识别持续改善,尤其对大角度识别进行优化,FRR改善1.8%~4.2%,同时优化深色人种的识别效果,完成了全人种支持的通用版本;通用版本针对儿童做了定制调优,整体改善幅度达13%,以适配校园场景的刷脸应用。静默式活体RGB及IR版本持续改善,针对各类困难场景调优,SAR下降到2%以内,同时完成了配合式活体版本。
人体检测技术进一步提升,针对车内场景,进一步提升了人体召回率并且降低了误检率,在内部自测数据集上,召回率达到95%,精度达到97.5%。同时针对成人抱小孩并且存在大面积遮挡情况的检测效果也改善明显。人体骨骼关键点技术,在座舱内场景中的复杂动作、成像存在大畸变场景下点位的准确性和稳定性提升较为明显。同时针对智能商拍产品,不仅提升了人体关键点的准确性,还支持了假人模特的关键点定位和残缺人台关键点补全功能,为后续的AIGC部分提供了坚实的技术支持。人体重建技术通过多相机大球实验室数据的采集和补充以及新方案改进,精度提升1.5%,为公司AIGC产品提供了更好的技术支持。遗留儿童检测技术针对座舱内乘客非配合场景导致人脸角度过大甚至不可见的技术难点,将人体分类合并到了算法模块中,在精度不变的情况下召回提升了27%。行为识别技术不断完善,针对座舱内场景,进一步提高儿童危险行为识别率。基于行为识别的环视哨兵功能,在正常场景下,召回率提升2.1%,改善车角和车边缘的类人目标误检情况,使得哨兵功能的误报率进一步降低到3%以下。
人脸美型方案,在报告期内效果和性能方面有了很大的改进。效果方面,在保持原有形变效果的基础上,精细参数调节,实现非局部形变的功能,模拟出更加自然的形变效果,通过客户验收并获得认可。性能方面,在开启多个形变功能时,优化变形逻辑,提升预览性能,用户体验更好。新增AI人脸美型,参考真实整容技术,注重保留用户原本的脸部特征,使用户脸型美化更加自然,并实现个性化脸型美化效果。人脸美化方向由视觉艺术团队主导,使得美型效果更显美观。
继续提升满足DDAW以及EuroNCAP法规的驾驶员疲劳/分心检测技术方案。通过大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计的方式为正常行车过车中的误检信息去除提供有效方案。与此同时,根据大量KSS以及心理行为研究实验结论,结合大量实车疲劳路测数据分析,完成了更加符合疲劳认知的全新疲劳解决方案的研发。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升了基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间,将大量与疲劳行为相近但表现形式有差异的混淆行为进行鉴别,对诸如低头向下看、从左右两侧注视手机屏幕或者其他交互区域等行为与闭眼或疲劳进行区分,形成了与市场同类产品技术的差异化,目前正在尝试将该新技术融入量产方案中,并且实车测试已达到DDAW认证要求。
视线追踪技术已经支持了众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了EuroNCAP法规中需要支持的视线落点检测研发,对驾驶员视线个区域。满足了车上所有可能摆放手机位置下的驾驶员看手机分心检测要求,满足EuroNCAP所有视线分心测试场景的检测要求,并将过标方案融合入量产方案中,实现了更多满足法规要求的视线功能设计。根据对ADDW法规解读与技术实现分析,目前已经完成ADDW实车专项测试,并即将在各量产方案中设计算法方案,满足该法规标准继续进行单摄像头下视线追踪技术的精度提升,自主研发基于3D人脸重建与追踪的底层数据特征表达,实现3D视线追踪技术,该技术方案在客观数据指标上实现总体20%的提升,并在大角度场景下实现近30%的精度提升;视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在人脸大角度下的视线精度,全面覆盖各种摄像头下的人脸全角度。基于多相机方案已经成功用于多相机视线真值系统研发项目中,实现在座舱与实验室条件下的视线真值数据采集与实测;与此同时,自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。该方案基于用户行为中与视线交互相关的行为进行自标定研究。同时,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套最适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。为了更好地解决量产项目中的不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低了相机标定带来的成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。与此同时自标定方案在2023下半年做了较大的技术路线更新,兼容支持了由于内饰颜色、纹理、光照带来的差异,支持了内后视镜位置一体化DOMS相机的自标定方案,为DOMS一体化以及更加鲁棒的自标定方案提供了技术保障。
车载危险行为检测,智能座舱危险行为检测在支持范围、功能和性能等方面持续提升。所支持的摄像头安装位置扩展到了B柱,并开始支持全车乘客的行为检测,功能上增加了喝水检测功能。抽烟打电话识别,重点优化相似物体(如吸管等)可能被误识的问题,所用场景感知模型和识别策略更加合理,可以获得更加精准贴合的目标检测结果,同时可推理出更多辅助感知信息,相似物体的误报率降低至3%以下。通过对大量实车数据进行统计分析得到易误检的行为和场景,更新了基于行为分析的多帧信息融合方案,利用时空信息感知模型区分危险行为和其它容易混淆的正常行为。为配合公司智能座舱DMS和OMS一体化产品的布局,针对单颗OMS摄像头,研发了集抽烟、打电话、玩手机、喝水、方向盘脱手等多种危险驾驶行为检测为一体的a-in-one解决方案。商用车市场,针对多种低算力平台,研发了更加高效的适配不同硬件的小算力模型。对于自顶向下(top-down)视角的玩手机与方向盘脱手检测,针对一些画质较差的摄像头模组,设计了更加合理的检测逻辑与测试方案,事件召回率较之前版本提升10%以上。
手势识别相关底层算法模块持续优化改进,在车载、手机、数字人与AIGC等多个业务方向上优化提升,改善了遮挡、模糊、双手近距离交互等复杂场景下的检测和跟踪效果,保障了下游算法的效果,提升了用户体验。在公司内部客观测试集上,mAP相比历史最优模型提升4%。同时,也尝试将手部分割算法与检测算法结合,在输出检测框的同时输出手部Mask。手部姿态估计在通用场景下,新研发了多套技术方案。使用基于Transformer的大模型,助力公司的AIGC和数字人等相关业务;新训练了上半身人体关节点检测模型,将手部关节点算法的范围扩展到人体加人手;采用同时输出双手关节点的新方案,改善了双手交互时手部姿态估计的精度。基于深度图的手部分割算法和3D手部关节点估计算法针对实车场景和车规级TOF摄像头做了相应优化,提升了较远距离下常见手型、小目标手型和大角度手型的手部分割和关键点回归的精度,增加左右手属性识别输出,为上层TOF手势应用提供更好的支持。
车载智能座舱产品线,手势技术持续升级并获得更多市场落地。基于OMS的RGB/IR镜头的手势交互技术,增加了支持的静/动态手势种类,支持更多车载目标平台,在一些新的NPU、DSP芯片上部署了量化加速模型。鼠标手势交互方案推陈出新,继基于手掌加握拳的手势交互方案,又推出了基于手掌加两指捏合以及基于食指点击的两套新方案。依托手部跟踪、手部分割及精准的3D关节点估计技术,对手指运动进行建模分析,准确识别手指捏合、点击、推拽等动作。相比老方案,新方案的手部动作更加自然省力,可以有更好的用户体验。为丰富产品矩阵,所有鼠标手势交互方案都可分别在TOF摄像头和RGB/IR摄像头下运行。基于TOF镜头的自顶向下视角的手势控制方案,解决了左右挥手动作存在的痛难点问题,支持更多手势交互动作,用户体验明显提升。此外,还研发了一些手势创新应用,如体感切西瓜游戏,“灯随手动”——智能阅读灯手部感应等,为客户提供更多具有科技感和趣味性的体感应用选择。面向公司智能座舱软硬一体的Tahoe产品线,针对其硬件和图像特点做了专项优化,目前一些静动态手势识别已经部署在Tahoe产品上对客户展示。
VR/AR/MR手势技术方向,引入新的动态手部数据采集方案,可实时高效地获取手部图像和3D关键点标注信息。针对整个数据链做了充分优化,提升了数据标注精度。此外,对生成式大模型在数据预标注方面的应用也做了探索性研究。数据质量的改善直接带来了手部姿态估计效果的提升,特别是在一些较精细的动作如两指捏合上提升明显。手部检测模块针对差光照和自遮挡场景做了优化,在暗光、高光、和双手近距离交互下也有良好的检测效果。手部关节点估计持续改进并尝试了多个新方案,针对3D关键点精度指标MPJPE和稳定性指标MPJPA达到业内领先水平。整体性能也得到较大优化,配合视线追踪技术,基于手眼配合的新交互方案也研发落地。
YUVHDR支持了旗舰处理器AEB模式下的HDR融合。该模式配合改进的HDR融合算法,实现了零延时的高动态范围合成,实现了高光还原和亮度过渡的平衡,实现了防鬼影和防噪音的平衡,实现了对霓虹灯、日落、天空、室内ficker等不同场景的智能优化,提高了整体的合成率和还原度,该模式支持对动态曝光输入的自适应调整,保持输出曝光的稳定性。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,并支持闪光灯和屏幕补光模式,在暗光人像模式能更好的还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于机器学习算法结合预览图片的统计特征改进动态EV算法,为系统推荐适配的低曝光图片的EV值,提升融合结果的动态还原效果。基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户从美学角度的需求。基于场景识别与语义分割,实现对不同被摄环境、不同语义区域的自适应影调调节,并且保持成片的自然度。针对运动场景实现了智能优化,提升了运动区域的画质,提高了抓拍成片率。弱光环境结合图象分割方面,根据图象区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。开发暗光环境闪光灯模式和屏幕补光模式人像HDR功能,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。进一步拓展了HDR的特性和应用范围:适配了Quadbayer数据,为使用最新sensor获取更好的纹理细节提供了保障;灵活支持可变倍率,为全倍率RAW域HDR的实现打下了基础。
暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度,使得算法结果细节保留更多。改进多帧融合算法,结合AI增强提升细节。改进针对运动区域的去噪和融合算法,消除运动噪音和运动模糊。改进训练策略,使得落地后的性能优化版本效果更好。针对中低端设备虫噪严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。
超分辨率图像增强技术,通过不同方案的尝试和实践,最终方案在清晰度上有突出优势,在效果和性能上达到了一个新的高度,满足市场客户的需求。拓展更深层的超分维度,YUV域,RAW域,Quadbayer域等,实现超分辨率的质的提升。改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果,改进针对不同摄像头传感器的去噪效果,提升结果细节。优化代码框架,提升性能。实现在不同的放大倍率上,都展现出更好的去噪效果以及细节水平。
美食阴影去除方案,提升了对美食阴影区域的精确分割,支持对室内各种强弱和不同形状的阴影做更合理的处理,在阴影去除后恢复出真实的食物颜色和对比度,进一步提升了用户的使用体验。在数据方面,阴影分割模型仅使用少量标注数据训练预标注模型,大幅节省数据方面的人力需求,提高了数据迭代的效率。支持开发了多种合成数据方案,有效补充了不同美食和阴影数据的场景组合。目前美食阴影方案在平均得分上超越竞品2%,同时在多个困难场景主观评测上得到提升,满足用户的画质处理需求。
视频超夜技术,持续改善AI降噪模型的降噪能力和细节保持能力。针对PC端需求,合理根据多款摄像头的不同噪声特性,设计针对性的训练方案和量化策略,达到降噪质量和性能上的较好平衡。针对PC端视频会议的需求,提升视频噪声估计模块的准确率,使算法在不同环境下自适应调整处理强度,获得更好的效果。进一步提升了鬼影检测技术,改善了运动物体的去噪效果。视频超分技术,持续改善AI超分模型的效果,针对视频会议应用中的文字内容,着重提升了其在多种字体下较小字号时的清晰度和可阅读性,以及提升了人像区域的清晰度。增强了模型的鲁棒性,提升了混合语言文字场景的效果。视频插帧技术,针对该技术在模拟长曝光场景的应用,持续提升了其在大运动和频闪等复杂场景下的追踪能力和稳定性,强化了其对非刚性运动物体的运动表示能力,改善了运动轨迹的平滑性和动态范围。针对该技术在视频编码插帧场景的应用,提升了其在物体遮挡和复杂背景下的追踪精度,改善了插帧结果的边缘清晰度。
增加了对RAW数据作为输入的支持,在低光场景下对噪声抑制有一定的提升,并能够扩展全景图的动态范围;针对一些带有运动物体的场景,通过检测运动场景内的运动物体并加以保护,减少鬼影,对于大的运动物体,效果提升比较明显。针对3x摄像头像帧间移动距离变大,景深差异更大的特点,改进了匹配和融合算法,改善了拼接错位,减小了扭曲程度。针对超广角镜头优化了部分场景直线扭曲的问题。针对慢速移动并轻微手抖的拍摄方式,改进了选帧算法和策略,减少错位。
Livephoto技术调整了深度神经网络结构,针对性地改进了口腔区域模糊、不真实的问题;研发了针对特定人物的微调技术,使得算法能够生成更加逼真的结果;对网络进行性能优化,使得效果可以在PC设备上做到实时。新研发了视频口播数字人技术,基于用户提供的几分钟视频素材可以训练得到对应的数字分身,在输入不同的文字内容时可以进行相应的生动播报,支持中文、英文等多语种。视线D视线校正算法,创新地结合了三维人脸重建和二维图像编辑方法,相较于前代算法产品,突破了正脸姿态的限制,并且大幅度拓展了算法能支持的视线角度,在人脸角度和视线偏移角度均较大的情况下算法依然可以得到正确的矫正结果。在用户主观测试报告中,新的算法在真实感、矫正范围、算法稳定性、准确性等方面均明显优于竞品。人头姿态矫正技术结合了三维人脸重建与生成网络技术,设计了新的实现方案,相较于去年的版本,对效果的自然性、头部角度支持的角度大小、算法性能消耗等方案均进行了较大幅度的改进。在效果上,相较于前代版本,解决了可能会出现的额头部分变长、脖子区域融合拼缝、面部抖动、面部刘海眼镜断裂等问题,在视频上能做到连续、稳定、自然的结果。在性能上算法完成了模型的蒸馏和量化训练,以及计算过程全部部署在GPU上,实现了算法在设备端的实时运行。
在人脸美化技术上实现拍照磨皮新方案,提升了细节表现力、肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到保持提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;实现了Vukan方案的磨皮、美白、美唇、亮眼、白牙等美颜技术和腮红、眼影、SkinGoss、美瞳等美妆技术,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了4D眼睫毛、眼影、唇彩等4D美妆技术,较大程度上提升了美妆的真实性、立体感和光泽度,优化了大角度、姿态下的美妆效果;现了AI唇部、眼部遮挡物体分割算法,提升了美妆技术的实用性;实现了AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。性能功耗方面,进行了GPU优化、模型优化和NPU硬件优化,优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了Bindi检测技术,可保护印度女性眉心Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合AI的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。
升级了新一代渲染算法,该算法在效果上更加逼近大光圈的单反镜头,光斑更具真实性、自然性和艺术性;改善了渐变的层次感,使其更加立体、自然;改善了边界的准确性,使其更加锐利;进一步改善了虚化效果的准确性及渐变虚化的层次感,进一步提升了成片率;支持了圆形及椭圆形电影镜头级光斑效果。支持了高通SM8550等旗舰手机平台4K分辨率30FPS实时渲染,同时支持下沉到高通SM7325等中端手机平台并成功出货。实现了已拍摄视频在相册中重新编辑虚化强度、对焦点等功能的算法原型;作为底层核心技术,多维度达到了业内领先水平,为电影模式在多家手机客户成功出货提供了重要技术支撑。
升级了视频换背技术,能够根据背景图像自适应地调整前景的色调和亮度,使融合结果更加自然、真实。优化了手机前置摄像头场景下的人像虚化效果,发丝更加准确、真实、自然。双摄虚化基于更加精确的双摄AI深度,进一步优化算法,使得效果更加精确和自然,接近单反相机拍照的效果。同时虚化算法、HDR和超级夜景等画质类算法结合,显著提高了虚化光斑的层次感和真实感。进一步基于特定的单反相机或镜头专门优化光斑效果,使得效果更加接近光学镜头拍摄的效果如哈苏风格化等。结合AIMatting技术,进一步改善头发区域的虚化效果,使得发丝更加分明,接近光学相机拍摄的效果。使用全新的AI技术对虚化效果进行渲染,在获得更加自然的虚化效果的同时,还可以修复深度图上的瑕疵,使得虚化效果更加精确。
根据应用场景、精度需求及平台算力限制,继续针对性地优化了模型精度,其中高精度深度恢复模型已成功落地于商拍等AIGC项目,为图像及视频生成提供深度信息指导;设备端模型继续改善准确性及视频深度恢复的稳定性,大幅改善了人像场景各类手持物的准确性,以及与主体接触的背景小人头漏虚问题,提升了人像虚化和人像视频虚化的产品体验。进一步提升了单帧/多帧画面的深度恢复精度,包括大幅改善了主体一致性和均匀性、人物及物体的边界精度、中远距离的错误、深度信息的层次性,特别是前后排人物深度的层次性、和人物同距离物体深度的准确性等等;大幅提升了前后帧的稳定性;进一步裁剪和压缩模型,大幅优化了功耗和性能;作为底层核心技术,在多维度均达到了业内领先水平,为电影模式在多家手机客户成功出货提供了重要技术支撑。依托复杂模型和大数据,单目AI拍照模式也显著提升了极夜和近景场景的表现,报告期内算法在背景与前景物体的深度一致性,细小物体的细节等多个维度效果提升显著。双目AI视频方案显著改善了深度准确性、精细度与稳定性。
为进一步满足客户要求,双摄方案利用全新的技术对双摄深度进行估计,对传统方法比较难处理的重复纹理,无纹理区域有着极大的改善,并且极大地提高了深度的准确性和精细度。同时针对一些特殊情况,比如细小物体、透明物体、反光物体、低光夜景场景等,训练了全新的双摄深度复杂模型,深度精准度进一步提高。针对夜景低光场景输入画质很差的问题,结合人像分割的先验升级了针对夜景的双摄深度模型,使得深度效果更加稳定。另外,双摄视频虚化方案则进一步提高了深度图的准确性,景深变化的自然感,前后帧的稳定性,并对OIS的启用提供了支持,同时做到功耗可控,同期首次在安卓平台上部署推出了双摄电影模式。
实现了人像分割超大模型的训练和部署,具有良好的精度和泛化性,可为素材标注降本增效,同时也赋能AIGC等应用。优化人像matting算法,接入人像虚化拍摄功能,使得发丝等细节效果更加自然。同时针对多种平台进行性能和功耗优化,适配多种机型。继续优化AICamera智能场景识别算法,效果上通过算法更新和数据迭代,显著提升了天空、植物、宠物、人像及人体相关区域的分割精度和鲁棒性。功能上增加了对face区域的语义分割功能,在无须显著提高性能的情况下,获取了更多的细粒度语义信息。性能上,通过优化网络结构和充分利用底层硬件资源,实现了8550机器上的多类别实时处理。接入HDR等上层应用,为分区域画质增强提供了有力支持。
针对AIGC线上应用的数据量大和泛化要求高的特点,设计了ViT大规模视觉骨干网络,并基于此开发了人体区域解析、交互分割等多种视觉子任务模型。人体语义区域解析模型,能够支持人体相关的20多种语义区域分割,其中不仅包括了面部、头发、颈部、手、脚、皮肤等肢体区域,同时涵盖了裙子、外套、裤子、衬衫、饰品等衣着服饰细粒度类别。该方案具有良好的精度和泛化能力,为PhotoStudioAI模特应用提供了自动化的解决方案。交互分割模型在设计上也依托于大模型强大的特征提取能力,同时考虑了下游应用中与众多细分类分割子模型初始结果的兼容性问题,开发支持了包括点和子模型分割结果作为提示输入的交互功能,做到了灵活、自动、和高效。同时通过优化训练数据精度和解码端模型结构提高了交互分割结果的细节精度。该模型不仅为内部素材的标注降本增效,也为AI商拍用户交互操作提供了支持。
车牌检测解决方案针对行车记录、哨兵模式、车外实况直播等应用场景进一步优化效果。支持常见自动驾驶芯片和车机芯片,并结合GPU、DSP、NPU等高性能运算资源进一步优化性能,可以满足在线实时检测的需求。同时车牌检测解决方案已支持Android、Linux和QNX等操作系统。在报告期内进一步优化了复杂光照车牌场景下的检测效果,当前在内部车载多种应用场景实车采集测试集中测试结果召回率提升至98%以上,误检率降低至5%以内,满足《汽车传输视频及图像脱敏技术要求与方法》中的相关要求。哨兵模式增加了车辆和其他非机动车的目标识别和测距算法,增加车门开关动作识别,同时定制化发布高中低三档灵敏度的报警算法,方便用户选择。
开发静态场景隐式建模技术,支持生成高真实感的新视点图像。该技术方案根据视频与实时获取的相机位姿,用神经网络隐式建模三维场景,通过可微的体渲染技术,实现端到端训练。该技术方案可重新规划相机路径后渲染得到新的视频,用于视频编辑和立体视频生成等。结合神经辐射场和隐式符号距离函数几何表达,还可用于重建静态场景的三维网格模型。在静态场景建模技术基础上,增加室外街道场景的动态物体建模,从而支持对开放式动态场景进行建模,并同时对静态场景和动态物体进行渲染。
通过扩充训练数据集、精细调整训练网络并优化图像后处理等持续的技术迭代,提高了对鼻子、嘴巴、眼镜、头发等复杂场景阴影的处理成功率,使得去阴影后的图像在对比度、自然度方面得到了较明显的提升;将最新的Diffusion技术应用于人像光照重建功能,并已经完成了初始模型的开发,该方案可显著提升光影重建算法的能力,使得效果光比更强,光影更加真实,为图像带来更加立体、生动的视觉效果。后续将继续对该方案进行优化,以进一步改善效果和性能,达到项目部署要求;结合公司的双摄深度、显著物体检测与分割等先进技术,实现了显著物体的单色舞台光效果,通过高对比度的黑白效果和对暗部细节的精准强调,提升了整个图像的对比度和视觉冲击力,目前,该方案已经成功部署在手机端。
VR手柄跟踪是SLAM技术的一个新拓展领域,是VR终端设备的刚需技术。报告期内,VR手柄算法完成了从仿真到实际设备开发的转变。支持多种第三方设备,并支持双手柄实时交互,实现了安全区设定、空间划线等功能。对VR手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化,在高通XR2设备平台上,算法单帧耗时在22ms以内,支持视野可见范围内2m/s的剧烈运动,平均定位精度小于6.5mm。除了基于光斑的传统VR手柄,还开发了使用手机作为VR手柄的功能,可以使用普通的Android手机实现实时六自由度跟踪定位,实现菜单点选、简单的游戏交互等。对手机手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化。从逻辑上优化了用户体验,使得输出轨迹更加光滑、流畅。
SLAM技术在XR眼镜的头部位姿估计上取得显著进步。头部位姿估计是XR眼镜的一个核心技术和基础功能,要求低功耗、高精度和低时延。通过优化SLAM算法和把视觉模块从CPU移到DSP,本年度内SLAM算法计算效率提升30%,有效地降低了功耗和运动时延。针对XR常见的室内小面积使用场景,对建图模块进行大量优化,极大提高后端建图和实时定位精度。同时,改进姿态预测模块,实时定位准确度提升30%,接近业内毫米级的定位精度要求。已有版本在多款XR原型眼镜上集成,能为快速、准确的头部位姿估计提供良好的用户体验。
公司打通了3D数字人创建、编辑、实时驱动全流程。支持基于单张图或扫描模型完成数字人重建。与之前的重建算法相比,改善了头顶区域、眼睛的相似度,提升了纹理重建效果。编辑模块支持对重建模型的脸型、头型、五官、脖子等进行直观地修改。实现了基于单个RGB摄像头的实时全身驱动,包括表情跟踪与手势跟踪,实时动画效果基本达到业界领先水平。3D数字人重建增加了人头重建模块,提高重建人头几何的相似度;支持双眼皮的拟合,眼睛的相似度;增加了编辑模块,支持重建模型的再编辑及调整,同时也支持从中性模型开始编辑。新研发了基于球形实验室多视角数据的超写实数字人重建方案。新方案的重建质量远好于传统方案,3D渲染结果能达到以假乱线度的视角渲染,渲染结果包含部分躯干。支持表情实时编辑,也可进行单目表情实时驱动。
持续推进座舱健康监测技术落地量产。其中心率检测算法,利用先进的信号处理技术,扩大高低心率支持范围到[46,150]bpm,提升测量期间运动鲁棒性,降低CPU占用20%,已量产上车;呼吸检测方面,新增胸腔区检测、相位检测、呼吸计数、憋气等功能,扩大慢/快速呼吸支持范围,提升场景鲁棒性和算法运行速度,通过率达到84.6%,已量产上车。血压监测持续优化,收缩压和舒张压的MAE均已降至7以内;IR心率在特定摄像头下MAE降至3以内;完成了心理健康算法功能,包括压力指数、身体能量、情绪的测量。
ADAS感知引擎基本健全,通过实车路测持续优化困难场景。前视解决方案中,各项算法引擎指标持续提升。其中障碍物检测方面,引入多头注意力思想,优化感知模型,使车辆召回率提升2%,行人召回率提升5%,异形车召回率提升5%,夜间整体精准率提升3%,雨天整体召回率提升2%;测量引擎方面,通过BEV思想结合逻辑优化,使车辆稳定探测距离提升到150米,车辆测速误差从20%降低至5%,复杂场景下目标跳变率从35%降低至7%,有效提升ACC减速精准性并降低ACC误触发;路面分析引擎方面,采用局部BEV方案提升车道线米,车道识别误检率降低2%,类别精准性提升11%,LCC支持速度提升至150千米/小时。ADAS引擎输出功能项持续增加,障碍物新增车辆360度朝向角、车轮点定位、人头框定位、行人朝向、儿童属性等,路面新增匝道分流汇合点、时间及场景工况识别等,为记忆行车建图和下匝道提供感知支持,在车道识别方面误检率降低2%,在类别判断方面,准确率提升1.7%,通过虚拟相机提升了识别距离。在道路分析技术方面,还支持城际NOA工况下道路拓扑检测,采用MOE混合专家模型进行昼夜自适应检测,使用BEV算法实现了道路在线局部地图感知功能;自检方面增加标定异常自检及售后标定。ADAS核心控制功能进入长里程路测阶段,新增指令变道(ILC)和导航辅助驾驶(NOA)功能,跨省封闭路段抽测中平均接管次数小于1次;AEB功能在C-NCAP2024摸底自测中全场景通过。周视解决方案中,通过路测持续迭代复杂场景下感知引擎,超长平板车类召回率提升7%,三轮车召回率提升5%,整体检测框精准率提升2%;与此同时,通过使用车身多部件组合特征结合时序运动学算法,将周视BSD报警信号成功率进一步提升至99.1%,用户实际体验进一步优化。夜视解决方案中,增加了车辆朝向和其他属性以方便测距,增加了夜晚动物识别,适配乡村、山路、沙漠等使用场景,持续提升目标检测和跟踪准确性,整体精准率提升到97%以上,利用大模型开发了自动化标注功能,提高了数据闭环的效率。完成了前车碰撞报警(FCW)和行人碰撞报警(PCW)以及动物碰撞报警功能相关的全部算法引擎,进入实车路测迭代阶段,当前C-NCAP场测报警通过率达到93%,实测无效报警数低于3次,进入量产上车前的最后打磨环节。
基于丁达尔效应产生的物理原理,选择合适的场景对仿真实现进行合理的简化和模拟,最终实现一套结合AI和CG的方法,为特定的场景图像添加上合适的丁达尔特效效果,提升图像艺术感。人像线条画效果和宠物线条画效果,这两种效果都结合了AI技术和审美的艺术,通过AI算法提取出具有表现力的线条,然后根据审美的评判制定一些准则将原始图像转换为一幅线条艺术画。目前二者都已实现手机端部署,并有参数控制线条粗细、颜色、数量等,从而满足不同用户的自适应调整需求。
光照耀斑项目基于对物理世界相机镜头与光照规律的精确建模,通过模拟实际镜头的参数,设计任意预想的耀斑效果。在用户拍照时添加耀斑效果,能显著提升图像的层次感和真实感。同时,精心设计的耀斑样式还能提升图像的艺术美感。该算法结合了光照方向检测,能够根据当前光照环境自动调整耀斑样式,以确保耀斑效果与当前场景自然贴合。目前,该项目已在手机端部署,并包含耀斑颜色与样式设计模块,可以满足用户获取不同耀斑风格的需求。
对于其中的“衣服图”功能,用户只需要上传一张服饰图,选择目标模特,即可生成该模特穿着该服饰的效果图,该效果图能够真实体现服饰穿着在模特身上的悬垂感、褶皱及光影变化等,且与真实服饰保持较好的一致性。其中的服饰图可以支持挂拍服饰图、平铺服饰图及3D服饰图,且支持上装、下装、裙子等多个品类的服饰。目标模特同时支持内置模特和用户自定义模特,其中内置模特覆盖不同年龄、性别、肤色等,用户自定义模特可由用户根据自身需求上传相应图像。该功能基于虹软自研扩散模型基础架构及海量数据(603138)训练,能够极大提升传统真人模特拍摄的流程和效率。
对于其中的AI商品图功能,用户只需上传一张商品图,即能够实现智能商品抠图,并基于ArcMuse大模型图片生成能力,高效地生成多种场景和风格的精美广告图,大大降低了商品图的制作成本。为了达到商品与场景的完美融合,开发了纯色、展台、海边、雪山、赛博朋克、多巴胺等几十种预制场景供用户选择。通过在算法层面对生成过程的精细控制,使得生成出的场景更加真实,效果更加自然。同时,针对用户的个性化需求,还支持了任意画幅比例生成、预制素材库、上传参考图等功能,允许用户自主控制画面的构图、元素、色彩和风格,极大的扩展了用户的创作空间。在AI商品图的基础上,进一步开发了商拍视频功能,能够捕捉商品图中的色彩、纹理、语义等多维信息,生成更具吸引力和展现力的动态视频。
关于“真人图/人台图”功能,用户上传一张真人图或人台图后,PhotoStudioAI平台将智能分割衣服区域并提供微调功能,以保留用户所需展示的部分。在生成阶段,智能商拍为用户提供丰富多样的模特资源和大量的室内外场景选择,包括不同年龄、性别、人种和风格的模特,例如儿童、中年和老年,网红风、流行韩风、甜美、阳光、高冷、性感和成熟等。场景方面,智能商拍提供30+种不同风格的选择,包括各种工作室环境、室内场景,以及室外的森林、雪山、草原、沙漠,还有蓝天白云和星空夜景等,这些多样化的资源将帮助用户在提升效率、创意和降低成本方面取得更大的进步。真实而引人入胜的模特形象,可以吸引更多目标消费者的注意力,增强商家的品牌形象。
AVM技术扩展统一了各视图的效果调整策略,可以有效地支持客户对不同效果的定制化需求,完成了标准化、平台化、工具化,提升项目落地效率;精细优化了产品的动态效果,支持前视图和透明底盘的动态展示,增加全景视图到局部视图切换动画,丰富车模的动画效果;接入多传感器信息,自适应优化鸟瞰图拼接参数,减少显示盲区和拼接损失;深入改善了透明底盘功能,改进在车辆变速、转弯等复杂场景下的对齐效果,提升底盘内容的清晰度,并实现了精确的底盘区域分割和细腻的动态轮廓效果。
在L2级行泊一体解决方案中,自动泊车辅助(APA)和记忆泊车辅助(HPA)是其重要组成部分。APA功能能够在无需驾驶员干预的情况下自动完成泊入动作,而HPA则允许用户在完成一次路线行驶后,再次到达相同停车场时基于历史建图自动完成循迹泊车。自动泊车辅助在视觉感知方面拆分为车位检车和避障检测两大技术点:①车位检测能够在寻库、泊入阶段实现垂直、水平、斜列、砖线、机械全类别的检测结果,并且能够提供视野范围内任意目标车位的高精定位,3m内车位入口感知精度误差90%。自动泊车辅助过程中,结合融合多帧的车位检测结果,构建基于车位角点的优化问题,提供车位跟踪、车位建图以及基于车位的自车定位功能,在寻库、泊车过程中向下游提供稳定、精准的车位地图,达到准量产水平。②在避障检测方面,支持泊车场景常见的白名单物体检测,提供0-15米范围内开集障碍物边缘识别与定位,并聚焦于6米范围内定位精度,通过亚像素级别的网络预测,使用雷达数据进行联合优化,针对车辆等常见类别上完成了30%以上定位精度提升,实现视觉雷达墙功能,同时支持15米范围内的可行驶区域检测和定位,提供白名单物体以外的避障检查,边界精度误差在10cm以内,为下游任务构筑了可靠的局部2D占据栅格。基于视觉可行驶区域检测结果,支持道路边界检测,同时支持视觉空间车位的检测。
三维渲染引擎提供了渲染、动画、UI等完整的图形引擎解决方案。渲染模块内置基于物理的HDR渲染管线,支持gTF文件格式,符合gTF的材质和渲染标准,可以加载大量高质量3D模型,与通用材质模型兼容,可以渲染多种材质如金属、塑料、玻璃、皮肤等。报告期内重构渲染管线,支持前向渲染及延迟渲染,支持多种反走样方案,提升渲染真实度。动画系统实现了播放及编辑模型预置骨骼动画,基于人体捕捉系统,可以实时驱动数字角色。额外支持弹簧振子系统,有助于实现头发、衣服等物体跟随摆动。为满足车载业务,新增节点动画和形变动画具有可编辑功能,从而满足三维雷达墙、相机环视等复杂动效。HMI方面在原有2DUI方案上升级为3DUI,可以在三维场景中实现引导线,轨迹线等车载相关业务需求。引擎系统模块提供丰富接口,让开发者自由组织三维场景内容,支持多种平台,已经为移动端、PC、服务器端提供稳定且高效渲染效果。针对车载低算力座舱平台,我们优化了调度指令和资源预编译系统,引擎初始化时间减少70%。优化渲染指令调用,减少50%的CPU耗时。
虹软自成立以来便致力于计算机视觉技术的研发,技术所应用的终端,从个人电脑、数码相机、智能手机,再发展到智能汽车、VR/MR/AR智能可穿戴设备以及其他AIoT领域,一直与影像产业的发展、消费者的需求和影像科技创新紧密相连。经过多年的技术、专利和人才积累,公司已全面掌握视觉人工智能及人工智能的各项底层算法技术并不断进行技术演进,掌握包括即时定位与建图、图像语义分割、人体识别、物体识别、场景识别、图像增强、三维重建、虚拟人像动画、虚拟数字人等全方位的视觉人工智能技术。公司所掌握的这些底层技术具有通用性和延展性,在此基础之上,公司构建了不同的组件和产品,并衍生出多种产品应用方案满足相应的细分市场需求。
公司业务涉及到的消费电子产业、汽车产业特别强调产业高度协同,相互赋能、协同发展成为产业发展壮大的内在需求。公司拥有紧密、稳定的生态关系,与高通、联发科、格科微、索尼传感器、三星半导体、艾迈斯半导体、OmniVision、舜宇光学等平台、传感器、摄像头模组厂等产业链上下游主流公司开展合作。在智能驾驶业务上,除了既有的合作伙伴之外,公司也持续与更多的芯片、相机模组、Tier1等诸多上下游产业链公司形成了相互信赖的合作伙伴关系。
公司是全球智能手机视觉人工智能算法重要供应商,目前已在视觉人工智能算法行业形成良好的口碑,客户遍布全球,算法产品基本覆盖安卓手机品牌。公司自与主要客户建立合作以来,均保持了持续良好的合作关系;对于展露市场的新客户,公司也通过帮助新客户成就其产品快速获得了客户的信赖。优良的客户质量、良好的市场口碑、国际化的品牌认可度、海量历史销售数据,为公司后续业务发展奠定了良好基础。公司正逐步利用在手机行业形成的技术、品牌和客户服务经验等优势,把产品和业务扩展到汽车行业以及其他AIoT行业。
智能手机市场的需求变化较快,相关技术的迭代周期较短,迭代周期约为1-2年。如果公司未能及时更新升级相关技术或根据市场需求成功开发出新产品,则公司可能出现技术落后、技术迭代不及时等情况,从而导致市场占有率大幅下降。而在其他移动智能终端领域,尽管公司利用既有技术整合开发出一些符合客户需求的产品并已进行了一系列前瞻性的技术和业务布局,但若无法抓住未来市场涌现的机遇尽快获取客户,则可能导致错失发展机遇的风险。在智能汽车领域,公司目前所取得的前装定点项目大部分是针对座舱内的软件算法,但随着产业的不断演进,如公司无法快速与OEM合作伙伴推出针对智能驾驶相关有竞争力的量产产品,则公司可能面临错失发展机遇的风险。
目前,公司已积累了适应业务快速发展的经营管理经验,完善了相关内部控制制度,逐步实现了公司内控制度的完整性、合理性和有效性。随着IPO募投项目的有效实施,新业务的深入推进,公司资产规模和经营规模扩张,在研究开发、市场开拓、资本运作、内部控制、运营管理、财务管理等方面对公司的管理层提出更高的要求。若公司的组织模式、管理制度和管理人员未能适应公司内外环境的变化,将给公司持续发展带来不利影响。若公司管理水平不能快速适应不断扩大的经营规模,解决上市公司经营管理面临的新课题,也将对公司发展带来不利影响。
公司智能手机视觉解决方案收入与智能手机和摄像头的出货量虽无明显线性相关关系,但如果智能手机出货量下滑、摄像头出货量出现下降,主要智能手机业务客户发展战略发生调整或者其他不可预知的原因导致对公司的智能手机计算机视觉解决方案的采购需求下降,则会对公司经营业绩产生不利影响。智能汽车业务方面,如果行业竞争加剧,公司技术及产品竞争力不足,客户业务发展战略发生调整、客户自身业务发展状况发生改变或供应链紧缺等,可能导致公司智能汽车业务进展不及预期,以上因素可能会对公司经营业绩产生不利影响。
公司主要从事视觉人工智能技术的研发和应用,主要产品有移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案,主要终端应用领域包括智能手机、笔记本电脑等消费电子产品以及智能汽车等。应用领域对国内外宏观经济、经济运行周期变动较为敏感。如果国内外宏观经济发生重大变化、经济增长速度放缓或出现周期性波动,公司主要客户因终端需求下滑、调整自身市场计划,或因供应链短缺等原因延迟推出新产品而对公司采购需求下降,且公司未能及时对行业需求进行合理预期并调整公司的经营策略,可能对公司未来的发展以及经营业绩产生负面影响。
在业务发展过程中,公司可能面临各种诉讼、仲裁。公司不排除在经营过程中,因公司业务、人力、投资等事项而引发诉讼、仲裁事项,从而耗费公司的人力、物力,以及分散管理的精力。公司实际控制人HuiDeng(邓晖)于2019年9月出具承诺,针对“MarcChan、LeiLi及其家庭基金诉讼事宜”,如发生任何纠纷(包括但不限于诉讼、仲裁、索赔等)给公司造成任何经济损失(包括但不限于支付赔偿款、律师费、诉讼费等)均由公司实际控制人HuiDeng(邓晖)独立承担。截至目前,该案处于上诉期内。
根据中国证监会证监许可[2019]1180号《关于同意虹软科技股份有限公司首次公开发行股票注册的批复》同意注册,公司获准在上交所向社会公开发行人民币普通股4,600万股,共募集资金总额人民币132,848.00万元,募集资金净额为人民币125,485.92万元。根据公司《首次公开发行股票并在科创板上市招股说明书》,募集资金到位后,按轻重缓急顺序投资于智能手机AI视觉解决方案能力提升项目、IoT领域AI视觉解决方案产业化项目、光学屏下指纹解决方案开发及产业化项目、研发中心建设项目。2022年12月29日,公司2022年第三次临时股东大会决议终止募投项目光学屏下指纹解决方案开发及产业化项目,将该项目剩余募集资金投入募投项目IoT领域AI视觉解决方案产业化项目。
由于募集资金投资项目数额较大,对公司经营管理、研发管理、市场开拓、财务管理及人力资源管理等各方面能力提出了更高要求。如果未来市场发生不可预料的不利变化或管理疏漏等原因对募集资金投资项目的按期实施及完全达产造成不利影响,将导致募投项目经济效益的实现存在较大不确定性。募投项目建成后,新增大量固定资产、无形资产、研发投入,年新增折旧摊销等费用金额较大。如果行业或市场环境发生重大不利变化,募投项目无法实现预期收益,则募投项目折旧摊销等费用支出的增加可能导致公司利润出现一定程度的下滑。
公司下设多家境内外子公司,层级较多,公司面临各国法律及税收的监管要求。如果未来境外子公司所在国家或地区法律及税收的监管要求发生不利变化,同时公司实际控制人、管理层缺少相应的管理经验和能力,将增加公司管理协调的难度,带来经营管理风险,从而对公司业绩造成不利影响。如果未来境外子公司所在国家或地区对于现金分红、资金结转等事项进行严格监管,可能对公司下级子公司的经营利润逐级分配至母公司构成一定障碍,可能造成母公司没有足额资金进行现金分红的风险。
公司以“商业本身并不是生活和生命的全部,我们希望通过努力和智慧创造出被客户喜爱、尊重的伟大产品,并成为世界领先的智能视觉技术供应商和服务商”为经营宗旨,以市场为导向,以科技为支撑,以诚实守信为根本准则,不断巩固和进一步提高竞争优势,实施坚持原创,坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域,为更多的行业客户提供最优的计算机视觉算法解决方案及服务。
2024年,公司将加速TurboFusion技术和产品的推广,除继续在各客户旗舰机型平台应用外,还将在更多高端机型上落地应用、逐步向市场主流机型渗透,以满足客户的差异化需求,并拓展产品覆盖范围。同时,公司将重点投入到TurboFusion技术在人像、长焦等场景相关的影像解决方案,致力于提供更加个性化和多样化的产品选择。除了在图像方面的技术投入,公司还将着眼于视频领域,计划将TurboFusion图像处理技术延伸至视频应用,继续丰富公司的视觉解决方案产品线、深入赋能汽车产业安全智能化转型,与客户共赢未来
(1)在VisDrive一站式车载视觉软件解决方案方面,公司已经成为国内基于高通智能座舱平台上的主流视觉算法供应商,公司将利用已获得的国内市场地位,更加进取地开发、升级、迭代和延伸产品方案。2023年,公司的健康监测算法产品完成了从0到1的量产,符合DDAW以及NCAP要求的DMS规模化量产上线,CPD的儿童检测也在国内完成了摸底测试,为后续的量产做好了准备;2024年,公司将继续深耕座舱市场客户,拓宽车型覆盖,持续提升市场占有率。
在其中的舱外产品上,公司具备3D能力的AVM产品累计已有几十款车型定点,并于2023年完成了十余款车型的量产出货,包括基于AVM的哨兵监测已开始量产上线;公司的周视感知算法项目即将在OEM客户多款车型上量产出货;具备夜视能力的ADAS产品正在与OEM客户开发中,预计2024年内出货;公司VisDrive升级版还将在2024年上半年重点推出基于智能SoC的舱泊一体解决方案。公司将继续以项目驱动产品落地,以产品驱动市场,在2024年积极拓展更多客户。
(2)公司面向舱内的前装软硬一体车载视觉解决方案Tahoe在2022年通过欧盟相关法规GSR(DDAW)认证测试的基础上,2023年也通过了欧盟授权机构的GSR(ADDW)的认证测试,这将帮助公司国内外客户更快地获得法规的准入资质。目前,Tahoe产品已经获得数家海外车厂的多款车型的全球定点项目,且量产开发也正在顺利推进中。公司将发挥前述优势和积累,2024年,在完成几款海外车厂车型量产项目开发的基础上,继续开拓海外新定点项目,并继续积极拓展以欧洲和亚太地区为重点的国际市场业务,帮助国内外客户更快地满足海外法规和行业标准的需求。
(3)在商用车及工程机械车辆领域,公司提供一站式的软件算法解决方案以及AiTrak软硬件一体解决方案。2023年,公司重点拓展前装商用车、工程机械头部主机厂的定点开发工作,具备了完善的商用车解决方案,并获得了十余款车型定点;针对海外市场,研发了符合欧盟GSR法规的MonoLake、AiTrak软硬一体解决方案,完成了欧盟法规的BSIS/MOIS算法测试,已取得多家主机厂定点项目,并正在配合整车完成法规认证。
在XR领域,空间计算技术不仅为下一代移动平台,尤其是XR智能终端的发展提供有力支持,还在空间感知、视觉呈现、人机交互以及数字内容方面实现了突破,为用户带来更加沉浸式的体验。公司围绕标定、感知、交互和视觉呈现等方面,构建了一套完整的空间计算技术体系。随着移动智能终端的普及和XR技术的演进,未来,公司将进一步挖掘空间计算技术的潜力,推动AR和VR等扩展现实技术的融合与创新,以满足用户对更加沉浸式、智能化数字体验的需求。
在AIGC方向,公司将持续重点投入,不断优化ArcMuse计算技术引擎并将ArcMuse的新能力应用到包括PhotoStudioAI智能商拍云工作室在内的产品上。2024年,公司将发力AIGC商拍视频生成,基于用户输入的商品图片或者模特图片,捕捉商品的细节特征、质感、色彩等方面的精确信息,生成更能展示商品真实面貌的动态商拍视频;同时,公司会不断更新和迭代PhotoStudioAI智能商拍云工作室服装版和商品版产品功能,拓展衣服图支持的产品类别。
面向未来,公司将进一步拓展与生态圈合作伙伴的合作范围和深度。公司将继续加强与现有合作伙伴之间的合作关系,深化合作领域,共同开发新的产品和解决方案;同时,也将积极寻找新的合作伙伴,拓展合作网络,以实现更广泛的资源共享和技术交流。2023年,公司积极探索虹软视觉人工智能技术在商拍领域的应用并针对行业痛点推出了新产品,进入了新的商业赛道;2024年,公司将结合新的商业模式特征,通过加强生态合作、拓展渠道商等多种方式实现快速获客。
2024年,公司将优化人才引进和使用策略,有序规划增量人才储备,优化招聘组织效能,为智能汽车以及AIGC、XR等新业务领域提供人力保障。同时,公司继续强化人才激励与培养力度,根据岗位类别、业务定位等属性,分层、分类实施专业能力培训提升项目,强化各岗位角色的战略执行力,充分为业务蓄势赋能;继续完善各专业领域专家级资深员工的职业发展规划及多元化评价激励模式的探索创新,激发优秀人才的创造力和自驱力,带动整体团队效能提升。此外,公司将进一步加强体系化的人力资源合规管理,对内部人事管理制度、流程、协议以及相关文档进行系统优化。
近几年来,公司持续加强业务发展与财务管理的融合,通过财务的参与和支持来提高业务的效率与效果,同时通过业务的反馈和改进来优化财务的规划与控制。对于成熟的业务,公司重点关注客户维度的签约、收入及现金流的同比、环比变化;针对新业务,公司建立了与业务更紧密的监管合作机制,强化沟通,全面实施事前、事中和事后的管控措施。公司注重对客户信用状况的评审,对于合约中的关键条款进行严格把关,加强对应收账款的催收及管理。2024年,公司将持续推进业务和财务的深度合作,不断提公司的经营效率。
作为研发驱动型企业,公司持续围绕视觉人工智能技术进行投入,确保公司始终保持在行业领域内的竞争优势。为确保有足够的资金投入到技术研发,同时也为防范企业经营过程中的不确定性风险,公司持续保有较高现金储备,截至2023年末,本公司的资金存量共计为人民币226,419.09万元。在保障公司经营安全的前提下,公司亦通过现金管理提高资金收益。同时,公司还以现金分红或股份回购的形式,将公司的一部分盈余回报给股东。2024年,公司将继续加强现金管理,并更加注重投资者回报,实现资金安全与收益的平衡。
以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备240019号。