(通讯员:王丹、赵嘉璇、马梦茹、耿雪莉、陈洁、贾楠、张丹、黄思婧)11月15至16日,2022年“一带一路”人工智能大会在线上成功举办,众多大咖相聚一堂,围绕“人工智能发展的前沿与挑战”、“人工智能交叉领域学科建设”、“人工智能开源基座与产业应用”主题,对人工智能领域基础研究、核心技术、重大创新应用场景等热点议题进行深入探讨,扬学术风采,展创新思维,引起了线上观众的强烈反响。本文根据论坛期间现场速记进行整理归纳,将专家们提出的主要观点以文字形式再次呈现,以供参考。
11月15日报告内容
● 徐宗本院士:《如何学习学习方法论?》
中国科学院院士、西安交通大学徐宗本教授通过严格定义学习学习方法论问题,提出Simulate Learning Methodology(SLM)的双层优化模型和“超参数化”求解方法,建立SLM泛化性理论,并应用于几个具体的机器学习自动化问题,为机器学习自动化提供了可行的理论框架,为学习学习方法论的更深入研究提供了模型基础。
徐宗本院士首先介绍了SLM的数学框架,并从学习任务和学习方法的数学描述、学习空间的超参数化以及学习方法论的数学定义等方面展开讨论。徐宗本院士指出学习方法论是指导、管理学习者如何学习/完成学习任务的一般原则和方法学。同时也介绍了SLM的多个应用模型和其他研究(机器学习、Meta Learning、L2L和AutoML)的对比。紧接着,徐宗本院士总结了SLM的统计学习理论,主要包括能够解决的问题、主要定理、解释与评注、以及理论建立目前面临的挑战。徐宗本院士从数据自动化、网络自动化、度量自动化和算法自动化等四个方面介绍了SLM机器学习自动化的应用实例。
最后,徐宗本院士指出人工智能的应用尚处于“选择”阶段,还未达到“设计”的水平。AI的下一步发展必然会以实现机器学习自动化Auto6ML(数据样本自生成/自选择、模型算法自构建/自设计、环境任务自适应/自转换)为目标。实现Auto6ML要求数据、网络、损失、算法、任务等要素做出一体化的设计和调控。并从数学框架、严格定义、数学模型和一般算法展示了机器学习自动化问题如何用SLM模型来解决,说明了SLM能为Auto6ML研究提供形式化/模型化/科学化的研究框架和途径。
●黄维院士:《未来产业:柔性电子——厚植根部技术,打造中国碳谷》
中国科学院院士、俄罗斯科学院外籍院士、西北工业大学黄维教授从颠覆性创新定义国家未来、柔性电子产业发展、创新团队、研究成果以及柔性电子产业未来发展所面临的挑战和机遇等四个方面进行了分析和讨论。黄维院士指出,从手工业时代到蒸汽时代,再从电气时代到“硅+电”时代,我们中华民族错失了多次历史性机遇,而柔性电子是高度交叉融合的颠覆性技术,为后摩尔时代器件设计集成、能源革命、医疗技术变革提供创新引领,是我国在颠覆性科技创新前沿领域“开道”超车的重要战略机遇。黄维院士从柔性电子的概念、柔性电子器件的特性等方面对柔性电子进行了介绍,讨论了柔性电子技术与机器学习的融合、医疗领域、电子系统以及能源技术等多个方面的柔性电子产业发展趋势,基于柔性电子的可穿戴柔性智能感知技术及相关材料研究势必将实现人机深度融合与交互,极大的推动当前信息技术和产业的创新型快速发展。黄维院士还介绍了团队长期以来在柔性电子领域的基础研究,学科建设和专业建设的经验,以及重点研究计划。最后,黄维院士总结了柔性电子产业的机遇与挑战。柔性电子强国应坚持“三步走”战略:到2025年,建成柔性电子国家级创新中心、柔性电子产业集聚区和综合试验区以及公共服务平台,同时创立骨干企业。掌握柔性电子核心关键技术,具备较强原始创新能力,国际竞争力大幅提升;到2035年,柔性电子产业体系初具规模、形成较大的比较优势;到本世纪中叶,柔性电子相关产业在国民经济中占据重要地位,成为支柱产业、主导产业,成为支撑富强、民主、文明、和谐、美丽的社会主义现代化强国建设不可或缺的重要组成部分。
●龚健雅院士:《智能遥感解译的研究进展与挑战》
中国科学院院士、武汉大学龚健雅教授通过对人工智能背景的梳理,分析了目前遥感智能解译存在的问题,并对团队最新的遥感智能解译研究成果进行了介绍。人工智能是新一轮科技革命和产业变革的重要驱动力,深度学习已成为其中最有影响的关键共性技术,在视觉、语言和自然语言处理等领域取得突破性进展,促进了传统行业的智能转型,同时催生了新的智能产品和产业。随着遥感对地观测技术的发展,每天都产生大量的遥感影像数据,如何快速处理、解译和提取遥感信息面临巨大挑战。龚健雅院士首先介绍了基于深度学习的遥感智能解译的研究问题(样本库的设计与标注、网络结构和模型的设计、深度学习网络架构)及应用领域(目标检索、目标检测、地物分类、变化检测和三维重建等)。紧接着,龚健雅院士介绍了遥感影像样本库LuojiaSET以及遥感专用机器学习框架LuojiaNET的设计和研究进展。LuojiaSET主要包括统一类别体系、元数据规范、样本数据集、在线标注工具和共享服务平台。最后,龚健雅院士对智能遥感的生态进行了总结,指出了未来的改进和发展方向。
●杨宗凯教授:《人工智能驱动教育高质量发展》
武汉理工大学校长杨宗凯教授首先介绍了人工智能驱动教育高质量发展所面临的机遇和挑战,从教学场景能理解、教学资源能适配、教学过程能调节三个层面论述了人工智能与教育融合的关键技术和典型实践。针对教学场景的理解,打造数据驱动的教学场景感知方法。针对教学资源的适配,构建资源和教学反馈的精准服务技术体系。针对教学过程的调节,形成人机协同教学过程调节方法。针对教学应用的创新,开展精准化教育教学的应用创新(人机结合教育环境的构建和“人工智能+教育”标杆大学建设等)。杨宗凯教授对人工智能驱动教育高质量发展提出了愿景和建议:人机协同迈向人机共生,实现知识和数据的双驱动;人工智能与教育双向赋能;元宇宙推进教育全面数字化转型。最后,杨宗凯教授指出要推动数字化转型,重构教育新生态,形成情境化、虚拟化、个性化教学环境;实现沉浸式、体验式、交互式学习。
●田奇院士:《2022年的计算机视觉:挑战问题&潜在方向》
国际欧亚科学院院士、华为云人工智能领域首席科学家、IEEE Fellow田奇教授指出视觉领域面临的核心问题分别是识别和生成。识别包括图像分类、目标检测与分割等。生成包括图像/场景合成、场景重建等。生成是一种更高级别的理解能力。同时,在标准的识别任务中,准确率越来越高;但在小样本、长尾情况下能力有限,缺乏常识,难以在精细场景中工作。田奇院士指出,当前的计算机视觉的主要挑战是(1)图像语义信息高度稀疏;(2)域间差异性大,导致提取语义特征困难和模型迁移性差。图像信息的高度稀疏性可以从模型设计和预训练角度去解决,例如,建立强大的骨干结构和在大规模视觉数据上的预训练模型。对于域间差异问题,可以通过特征域的模型优化和减少微调的数据依赖性这两个角度去解决。
田奇院士分享了自己团队针对前述问题所开展的一系列优秀工作,包含自动网络架构设计、混合架构、纯视觉的自监督学习、无监督对比学习、多模态预训练、盘古多模态理解大模型、利用模拟数据减小域差异、主动学习更好地利用无标签数据等研究;介绍了华为云盘古视觉大模型的实际应用案例,对华为云盘古大模型的五大优势进行总结:低门槛AI开发、泛化性能高、高效样本标注、精准度高和解决碎片化问题。田奇院士指出,视觉发展将从单模态走向多模态,从2D走向3D,预训练和微调是强大的武器。
●王立军院士:《元宇宙终端-XR头戴式显示技术前沿及产业发展趋势》
俄罗斯工程院外籍院士、梦幻世界科技创始人、董事长王立军教授从多个角度系统阐述了作为元宇宙接入和交互终端的XR头戴式(HMD)显示技术的前沿及产业发展趋势,元宇宙不仅是虚拟的世界,同时用户还可以创造,可以交易虚拟资产和买卖。王立军院士介绍,现在元宇宙的底层技术架构和软硬件和以前完全不同,不仅有PC端而且有移动端。网络基础设施已经能够支撑世界级的元宇宙,其中区块链、云计算等技术解决了基础的计算问题。元宇宙的主要特点就是通过新一代虚拟和终端在现实中实现各行各业的三维沉浸式的体验,新一代元宇宙三大最显著的特征包括:去中心化、人工智能以及通过头戴式虚拟设备实现,XR是终端设备,即扩展现实,包括AR、VR和MR,是下一代元宇宙的接入和交互终端。在未来网络端的虚拟世界与XR终端创造的沉浸式体验这两点都实现后,工业元宇宙就会实现。王立军院士梳理了目前XR终端国内产业链面临的问题和挑战,同时指出下一代微显示Micro LED技术是主要趋势,VR头戴式终端关键硬科技的核心是微显示+光学系统。同时,王立军院士表示,相信未来随着Micro LED微显示技术和衍射(全息)光波导技术的发展成熟,XR智能终端必将替代手机成为人们主要的信息交互的手段,成为未来元宇宙核心的终端和交互设备。
●石光明教授:《智能时代信息技术从比特到语义》
鹏城实验室副主任、IEEE /IET/CIE Fellow、西安电子科技大学石光明教授首先对信息技术做了阐释。传统的信息技术以比特为基础,以系统复杂度换取性能增益。但随着信息技术的演进,通信系统需求逐渐从信息传递变为增强情感体验。通信的本质是内容的传输,但其更重要的目的是达意,即体验的再现。未来的6G通信包含了更多的场景与需求,如沉浸式服务、个性化服务、极端性能需求、通感融合等,特别是从信号向内容的转变,这些应用已经不能单纯通过增加天线、带宽、功耗等资源来实现。香农理论指导了过去几十年通信行业的发展,但它主要关注数据比特传输,很难继续指引通信向未来目标发展。未来通信的目标一定是:极低时延、最少资源、广泛链接、准确达意和正确理解。
石光明教授表示,未来通信网络由单纯的信息传输基础设施逐步变为集传输、计算、感知、存储、推理等功能于一体的智能通信系统,未来通信的趋势将会是信源信息复杂化、信道信宿功能化、网络连接智能化和性能目标多样化。同时,石光明教授介绍了团队在语义刻画、度量与计算、语义感知的一致性、构建语义符号库等方面取得的成果。目前,实验室牵头立项和获批了多项国内外标准,牵头了多项6G白皮书中语义通信部分的撰写,也发表了多篇业内顶级期刊会议论文和相关专利,获得了《物联网学报期刊》2022优秀论文。
最后,石光明教授介绍了团队设计的基于语义通信的三维会议系统。借助VR/AR等新型的技术,提高了会议的沉浸感,更适用于品牌产品发布会、研讨会、音乐会、大型会议/会展、大型教育培训等场景。
●梅涛院士:《深度时空视觉表征学习方法及应用》
加拿大工程院外籍院士、京东集团副总裁、IEEE/IAPR/CAAI Fellow梅涛教授从图像表征学习、视频表征学习以及应用三个方面对深度时空视觉表征学习进行了全面的介绍和分析。首先,梅涛院士从全监督(网络骨架设计)以及自监督(目标设计)两个方面对图像表征学习进行系统讲解。在全监督网络骨架设计中,主要对卷积神经网络、Transformer模型和神经网络架构搜索三种方法的原理,以及在图像表征领域的发展历程和代表性工作进行详细介绍。在此基础上,梅涛院士也对团队在Transformer领域,以增大网络感受野为导向相继提出的CoTNet、Wave-ViT以及Dual-ViT等工作进行了剖析。接着,从判别方法和生成方法两种方法,以及这两种方法所对应的经典工作出发,介绍了图像表征学习中的自监督方法。从2D卷积、3D卷积以及Transformer三种方法的发展历程和创新角度,梅涛院士对视频表征学习进行分析和讲解,重点介绍了团队所提出的DG-P3D、SIFA、DTF等工作。梅涛院士团队所提出的“人工智能供应链视觉平台”既包含了开源的数据和实用算法工具,同时也集成到了国家新一代人工智能开放平台以及人工智能深度学习应用平台中,在零售、工业制造、公共安全等场景中实现了具体的落地应用。最后,梅涛院士针对目前深度时空视觉表征学习发展的现状提出了三大挑战:先进的模型、更好的优化策略以及更多的数据集。在此基础上,也对未来人工智能的发展进行了展望。
●刘宏教授:《机器人视觉:仿生感知与自主学习》
中国人工智能学会副理事长、CAAI Fellow、北京大学刘宏教授围绕《机器人视觉:仿生感知与自主学习》主题,从机器人视觉的五大挑战、仿生和自主学习、团队开展的主要研究、集成应用等内容,对机器人如何与计算机视觉结合进行深度剖析。刘宏教授从人类视觉出发,以视觉具有最自然的感知手段、拥有最好的可解释性、最好的拟人性三个特性为基础,阐释了机器人视觉的重要性以及机器人视觉与计算机视觉的区别,提出机器人视觉的五大挑战:传感器外参数随运动实时改变、运动导向的视觉感知任务、训练学习负样本少、系统的实时性和在线自主性能要求高。然后,刘宏教授对自然界多种生物的卓越的运动性能、有限的视觉能力和受限的学习机制进行讲解,对为什么要仿生和自主学习的问题进行了阐述,并对目前现有的仿生感知机制和自主学习机制进行了总结,提出了机器人视觉仿生感知与自主学习的技术路线,希望在此基础上探索更通用的“运动智能”模型。刘宏教授也介绍了团队目前所开展的研究,通过视定位觉与导航、工业机器人视觉、水下机器人目标识别、人体目标Re-ID、场景深度估计、复杂场景建模等方面的工作对运动本体、交互物体、互动人体、动态环境感知方面的研究进行深度剖析。最后,刘宏教授详细介绍了新一代智能导购机器人系统,将新一代AI与公共服务机器人有机融合,展示了创新成果的集成应用及其优势,同时也提出了对机器人视觉发展的进一步思考。
●王国胤教授:《多粒度认知计算及其在智慧健康的应用》
重庆邮电大学副校长、中国人工智能学会副理事长、IRSS/CAAI/CCF Fellow王国胤教授从人脑认知与智能计算中几个矛盾冲突问题的科学思考、多粒度认知计算理论模型方法以及卫生健康科学大数据挖掘分析三个方面介绍了多粒度感知计算及其在智慧健康的应用。首先,王国胤教授对目前人脑认知与智能计算的一些矛盾问题进行阐述,包括:深度学习与人类认知机理、深度学习的识别机理和人类行为、计算机信息处理过程与人脑认知过程、计算机数据空间与人脑知识空间等问题。在此基础上,王国胤教授提出了融合人类认知原理与计算机信息处理空间变换过程的多粒度认知计算模型。王国胤教授从工业生产、社会组织、自然世界三个方面介绍了多粒度思维,对模糊集、粗糙集、商空间、云模型等四种多粒度计算模型方法中的基础理论进行了解释,同时提出了数据驱动的粒认知模型(DGCC)。进一步地,他对基于数据驱动的粒认知模型的通用多粒度结构进行深度剖析,指出了数据驱动的粒认知计算模型中待解决的九大理论问题,从数学的角度概括和总结了多粒度认知计算的学术思路形成,并对团队现有的一些研究工作和方法进行介绍。最后,王国胤教授从智慧健康角度,以多粒度认知计算为基础,对卫生健康科学大数据智能分析与挖掘项目及其所对应的科学问题进行分析讨论,并围绕基础理论、信息安全、公共安全、智慧司法等多个方面对多粒度认知计算的关键理论技术进行总结和展望。
●辛景民教授:《成为人工智能领域的开拓者和引领者——西安交大AI人才培养探索与实践》
西安交通大学304am永利集团常务副院长辛景民教授分享了西安交通大学在人工智能领域人才培养方面的历史沿革、探索和实践。西安交通大学在人工智能研究生培养上围绕模型、算法、芯片与计算架构、智能系统与应用构建面向人工智能研究与发展的创新链。针对人工智能本科生人才培养,以学生为本,以创造为源为指导思想。教学的基本宗旨是点燃学生内心探索人工智能奥秘的火种,帮助学生走进未来,并将在未来某个时刻能够放射出更加灿烂的光芒。在专业知识体系的构建中,注重“脑”(Mind)与“手”(Hand)相结合,即“知识的学习”与“动手的实践”相融相长,培养具有“科学家素养”的工程师和人工智能相关领域的领军人才。辛景民教授具体从人工智能拔尖人才培养措施、人工智能专业课程体系设置(八大课程群)、人工智能专业实践培养与教学实验、人工智能本科生人才培养持续充实优化等方面展开介绍了西安交大人工智能人才培养的探索与实践。
● 邓成教授:《多模态智能》
国家级人才、西安电子科技大学邓成教授指出,随着图像、视频、文本和音频等多模态数据大量涌现,人工智能研究也逐渐从单模态驱动转为多模态驱动,多模态智能将是通往通用人工智能的必经之路。多模态智能目前面临三个方面的挑战:一,数据到表示难,数据来源广泛的同时如何有效地表示数据。二,表示到知识难,有用知识隐藏在冗余、噪声信息中而且模型存在知识遗忘问题。三,已知到未知难,需要进行关系挖掘、因果推理。邓成教授从多模态感知、认知与推理三个方面介绍了团队的最新研究成果。在多模态感知方面,介绍了基于协调性表示的异质特征对齐和基于联合性表示的互补特征挖掘的研究。在多模态认知方面,介绍了基于网状化认知的泛化知识学习和基于持续性认知的在线知识更新的研究。在多模态推理方面,介绍了基于关联性推理的全新知识发现和基于因果性推理的未知概念检索的研究。
最后,邓成教授进行了展望,指出在开放环境下实现多模态人工智能以及实现可解释、可信多模态智能是值得探索的问题。
● 屈嵘教授:《Modeling of Algorithm Design within General Search Framework》
英国诺丁汉大学计算机学院屈嵘教授围绕实现有效新算法的自动化设计,提出基于算法设计的通用模型,构建了通用搜索框架(GSF),以统一的方式制定一系列不同的元启发式算法。屈嵘教授指出,运用各种优化算法及机器学习算法解决现实生活中的实际问题时,需要具体考虑问题的建模和算法的建模。在不同的问题场景里,算法的建模包括算子的选用及参数设计,然后通过实验调整参数来提高算法的有效性,最后提供给工业界最好的解。整个过程耗费时间周期长,且不同研究者经验不同,设计算法的有效性不同,面对新问题需要重新调整算法花费时间也不一样。屈嵘教授近期的研究重点就在于模型化算法及其自动算法设计,她具体介绍了基于算法模型建立的用于实现算法设计的通用的搜索框架(GSF)。框架的模块中不同的算子和方法由模型定义,称为通用组合优化问题(GCOP)模型。GCOP模型通过在算法空间中搜索算法分量,选用不同基本算子基本元素组合找到最佳组合,从而得到设计出最好的解。GCOP模型与超启发式算法相似,但是超启发式算法底层的启发式算法需要人工设计、选择和设置,是GCOP模型的一个子集。而GCOP模型通过自动选择,可能发现一些人类算法工程师尚未发现的新的算子的选择和设置。最后,屈嵘教授给出了一些GCOP模型的应用实例,展现了自动算法的优越性和有效性。
●袁进辉研究员:《深度学习系统软件如何最大化释放算法潜力?》
北京一流科技有限公司创始人、董事长袁进辉研究员指出,深度学习框架是人工智能工具链中最核心的软件。从垂直角度看,深度学习框架作为Al时代的底层操作系统,决定了平台技术的性能提升与迭代速度。从AI模型训练和生产的链路来看,深度学习框架一方面可以降低人力成本,提高模型搭建编程效率,另一方面可以使用GPU、分布式来降低算力成本,提升运行效率,编程效率和运行效率都关系到算法潜力释放的问题。大模型的发展非常依赖于分布式深度学习系统。具体来说,大模型的计算量和模型参数量超越了单芯片的能力,而横向扩展(分布式深度学习)成为唯一选择。但分布式深度学习编程复杂度极高,擅长分布式编程的工程师数量非常少并且训练大规模深度学习模型代价高昂。袁进辉研究员对团队所研发开源深度学习框架OneFlow进行了介绍。OneFlow旨在提供给编程者一种全局性视角,让多卡编程像单卡编程一样简单,极致性能优化,极致显存使用规划。接着,袁进辉研究员介绍了OneFlow的一些实现思路、用法和性能,具体包括基于编译器的自动并行方案、静态编译引入Graph机制和OneEmbedding等。OneFlow可以大大降低算法专家编程的复杂度,最大化释放算法潜力。
11月16日报告内容
●焦李成院士:《下一代深度学习的思考与若干问题》
欧洲科学院外籍院士、俄罗斯自然科学院外籍院士、IEEE/IET/CAAI/CAA/CIE/CCF Fellow、西安电子科技大学焦李成教授围绕深度学习的思想起源、基础理论,类脑启发、物理启发和进化启发的深度学习以及深度学习的思考挑战,对下一代深度学习的思考与若干问题进行全方位、多维度、多层次的深度剖析。焦李成院士首先介绍了深度学习的思想起源,对过去众多先驱者们的贡献进行总结,通过说明神经网络具有大数据样本的训练、稀疏编码与表征、泛化、可解释性和鲁棒性等难点和问题的基础上,提出了深度学习再认识和思考的十大科学问题。然后,焦李成院士从逼近理论、表征理论、学习理论和优化理论四个方面对深度学习的基础理论展开了系统、全面的讲解;从类脑启发、物理启发和进化启发等三个方面讨论了深度学习的表征、学习与优化理论,并对其发展历程和代表性工作进行梳理和总结。焦李成院士指出,对于类脑启发的深度学习而言,类脑结构中的建模均具有稀疏性、学习性、选择性、方向性、知识性和多样性等生物特性,但在目前的神经网络设计中并没有被充分考虑。在物理启发的深度学习中,焦李成院士对基于电磁学、光学、热力学、统计力学、量子力学等物理启发的深度学习方法进行了阐述,重点对量子机器学习利用叠加、纠缠、相干、并行等量子特性的科学思想进行论述。在进化启发的深度学习中,焦李成院士分别从网络架构、权重以及超参数优化方面对进化结合深度学习的方法进行了全面分析和介绍。最后,焦李成院士指出,下一代人工智能从单通道的数据驱动到加上知识的双驱动,再到物理的驱动,从感知到认知来实现推理、决策、优化,是“A(I)、B(I)、C(I)”(人工智能、计算智能、生物智能)的有机结合。
●宋永端院士:《元宇宙:一个虚幻而又可及的世界》
国际欧亚科学院院士、IEEE/CAA Fellow、重庆大学人工智能研究院院长宋永端教授的报告围绕元宇宙的概念、发展史、技术支撑、特色以及对于元宇宙的畅想五个部分对“元宇宙”进行详细分析与展望。首先对元宇宙的基本概念、现实应用以及发展史进行了阐述,接着分别从5G、云计算、拓展现实、脑机接口、人工智能、数字孪生、区块链等元宇宙的技术底座对元宇宙的技术支撑进行了深度剖析,从数据流的角度对元宇宙的底层要素进行总结,对元宇宙内容收集—传输—呈现的核心环节进行介绍,提出网络安全和数据版权要从“有形”和“无形”两个维度为元宇宙保驾护航。在此基础上,宋永端院士指出元宇宙有四大技术类别:构建、映射、接入和应用,每个类别对应一系列技术,这些技术以“四浪齐发、齐头并进”的方式共同发展,持续迭代,使得元宇宙的生态版图渐趋成熟,覆盖游戏、商业、教育、办公以及社交等场景。宋永端院士从生存空间扩展、视觉维度扩展、感官体验扩展和思想实践扩展四大“拓展”的角度,对元宇宙的特色进行阐述,总结了元宇宙的六大属性:持续性、实时性、可创造性、兼容性、可连接性和经济属性,对金融、游戏、教育等行业的元宇宙化进行了展望。最后,宋永端院士从社会、教育、食品安全、廉洁政府以及完全信息对称等方面对元宇宙进行了畅想,并且结合多种观点对于元宇宙的未来发展进行了讨论和总结。
●孙富春教授:《智能化咽拭子采样机器人的感知、交互与操作》
中国人工智能学会副理事长、IEEE/CAAI/CAA Fellow、清华大学孙富春教授的报告从新冠疫情中咽拭子采集的高传染性,以及病毒检测过程中的交叉感染风险的背景下出发,系统介绍了团队在咽拭子采样机器人方面的研究与开发历程,重点介绍了团队全自动智能化采样机器人技术,并对咽拭子采样机器人的未来发展进行了展望。
孙富春教授的报告从咽拭子采样机器人的背景与发展、感知、交互、操作、未来五个方面展开。截至目前,咽拭子采样机器人已更新至第四代,分别是半自动化、自动化、智能化口咽拭子采样机器人以及“采、检、管”一体化口/鼻咽拭子采样机器人。机器人的感知是使用基于注意力的多模态定位算法获得的,将不同模态图像分片,然后基于这些图像分片构建注意力机制,同时完成对齐与表征学习。咽拭子采样机器人的交互方面,孙富春教授团队通过对受试者主观感受进行评估,构建主观评价数据集,提出了基于加权模型与多尺度注意力机制的自修复情绪识别,建立了空间通道非局部注意机制,以及选择性特征的融合,从而实现咽拭子采集人机交互。由于受到鼻腔通道通行直径较小与消毒的限制,咽拭子采样机器人的操作是相当具有挑战性的问题,孙富春教授介绍,采样机器人操作主要从采样操作机构的设计、采样操作策略和鼻咽拭子采样路径规划三个方面展开,他和团队成员将触觉传感器与人体面部模型进行融合,建立人体面部的点云三维信息,从而保证采样的舒适性和安全性。最后,孙富春教授对咽拭子采样机器人的未来进行展望。他指出,随着智能制造、新型材料、人工智能等技术的进步,医疗机器人在高精尖的医疗技术、机器人复现性和数字化、客观性评价三方面发挥作用。如何融合行为交互模型和行为评价反馈,汲取专家作业经验,建立动态作业策略,是临床作业决策亟待解决的关键问题。
●吴飞教授:《端云协同下分布式模型学习与进化》
浙江大学上海高等研究院常务副院长、求是特聘教授、国家级人才吴飞教授的报告介绍了人工智能历史沿革和端云协同分布式机器学习研究等内容,旨在不断提升云端协同模式下认知推理能力。基于传统云计算在算法层面,围绕特定场景时需要进行端云协同的动机,吴飞教授团队提出了端云协同计算的研究方向和端云协同分布式机器学习,具体操作是将端侧和云侧之间的数据、特征、模型以及中间结果架构进行协同链路。另外,吴飞教授探讨了在移动设备上执行机器学习、深度学习等智能数据处理任务的动机、面临的挑战、软硬件方面的进展以及未来的发展方向。端云协同分布式机器学习系统包括云上预训练模型,由云向端蒸馏压缩以及端和云协同参数学习。端云协同的洛犀开源平台可以使得大小模型协同进化工程落地,云端大模型的认知推理能力得到提升。吴飞教授团队将“端和云”应用在了多个具有下游碎片化任务的场景中,例如,AI+司法服务系统“小智”、人工智能赋能角膜病智能诊断、智能教育等。吴飞教授指出,未来会将数据驱动、知识引导和物理建模的预训练模型和端云协同的开源平台应用于下游任务繁多的场景中,使得端侧个性化能力和云侧泛化能力得到提升,从而使得云和端的计算资源得到更好的发挥和应用。
●公茂果教授:《深度神经网络结构优化》
国家级人才、西安电子科技大学公茂果教授的报告介绍了团队近期在解决深度神经网络结构优化难题上的一些思路和尝试,以及在深度神经网络应用上的一些新进展。公茂果教授的报告从四个方面展开,第一,深度神经网络的优势和困难。深度神经网络的优势包括:深层结构,复杂建模,特征学习,自主分析,推广性强,应用广泛。深度神经网络的困难包括:结构设计困难、表达参数敏感和优化方法缺陷。第二,深度神经网络结构优化初探。具体分为以下五个方面:1.避免表达参数。2.超越梯度优化。团队提出的自然梯度优化结合了华为昇腾AI计算芯片中使用的达芬奇架构,可以批量化的计算小矩阵的逆,能够进一步提升计算效率。3.神经网络压缩。团队提出了网络流数据分类的神经网络压缩方法,将生成对抗训练和知识蒸馏相结合,并对网络重要性因子进行稀疏约束,达到网络裁剪目的,得到压缩率与准确率的平衡。4.隐私保护学习。针对数据分散且无法集中收集或共享的问题,团队提出了多方对偶学习,通过对偶预测补全缺失数据,保持原有数据结构不变,重叠验证扩充训练数据。此框架同时保护了数据隐私性和计算安全性。5.训练样本学习。团队提出了SPL模型和MOSPL模型,通过协同训练产生预测概率对节点进行排序,采用自步学习逐步将节点加入到训练集中,一方面将高置信度的伪标签扩充至训练集,另一方面减轻难以分类的节点对模型训练产生的扰动。第三,遥感影像变化检测应用探索。公茂果教授从遥感影像变化检测、多类变化检测、超像素变化检测、多视角变化检测、特定目标变化检测以及高光谱影像变化检测等多个方面进行了应用探索。最后,公茂果教授对深度神经网络结构优化的未来发展方向进行了展望。
●马楠教授:《人车路协同无人驾驶交互认知》
中国人工智能学会副秘书长、北京工业大学马楠教授的报告从以下四个方面展开:第一,人车路协同无人驾驶交互认知的研究意义。马楠教授指出,智能交互就是通过跨媒体感知、机器学习和认知计算等技术,构建与实体世界统一的智能表达与学习方法,增强机器的智能化呈现,促进人机共融。交互是人类社会形成共同认知的基础,那么智能交互就是人机行为协同的重要保障。第二,人车路协同无人驾驶交互认知组成及基础架构。马楠教授团队长期聚焦感知交互,重点研究面向无人车感知数据跨模态融合的交互架构,开发了“人车路协同无人驾驶云智能交互系统”,助力无人车商业推广,努力改变用车生态。除此之外,团队还研发了东风Sharing-VAN无人车智能交互与编队控制系统、无人驾驶BUS云智能交互系统、基于超视距感知及V2X无人驾驶交互系统(智能编队)等。第三,无人驾驶交互认知的研究与应用。面对基于在信息嵌定情况下如何更好地感知数据的问题,团队开发了多视角多模态数据获取与处理及在交互认知中的应用。为了更好实现信息感知与智能交互,团队开发了基于时空特征的连续手势识别及在特定场景中的应用。另外,团队还设计了车体语言及环境交互,实现智能车的车道跟随控制。除此之外,人车路协同无人驾驶智能交互算法在国际、国内赛事也得到了验证。第四,智能交互技术产学研建设。马楠教授团队围绕着新形态教材、实践教学案例及教学载体、虚拟仿真实践平台建立了一系列的新课程。另外,团队还开发了虚拟仿真的实践教学平台和其他新型态教材,围绕着无人驾驶、智能交互云端的数据库系统,撰写并出版了《数据库系统智能应用》教材。