人工智能学院举办“做活的AI之长程对话与多模态交互”科学前沿讲座

5月9日,中国科学院大学人工智能学院邀请中国人民大学高瓴人工智能学院长聘副教授宋睿华,在雁栖湖校区教一楼108教室为同学们带来科学前沿讲座——《做活的AI之长程对话与多模态交互》。报告中,宋睿华探讨了AI在生成高质量内容、革新沟通模式、以及展现多模态理解方面的能力,讨论了AI如何有效进行说服,AI在数据分析、自然语言理解、乃至模仿人类行为(如预测眼动轨迹)等方面的进展,还讨论了人与AI的交互过程中可能产生的伦理与安全问题。
在学术界对大模型的复现和尝试中,通过构造特定的指令数据集,能够训练出表现优异的模型。在多轮对话中,模型面临的挑战包括理解上下文、处理省略和指代等问题。为解决这些难题,研究者通过生成类似人类的对话来改进模型的上下文理解能力。此外,通过构造“好”与“坏”的对比数据,使模型能区分并学习更优的响应策略,从而提升其在多轮对话中的表现。这种方法不仅增强了模型的理解能力,还提高了其在复杂对话场景中的适应性和准确性。
现场,宋睿华讨论了AI用于说服性多轮对话的可能性。在各种生活场景中,如情感支持、法律辩论、求职、销售以及家庭沟通中,说服性交流具有重要性及挑战性。在说服过程中既要达到目标,又要考虑到对方的感受和持续的对话。宋睿华团队通过研究和实践,探索利用大模型来编写更具真实感和协商性的对话,以解决在收集和处理真实数据时遇到的问题,从而提升说服性交流的效果。
宋睿华还介绍了团队在模拟人类真实眼动方面的工作,重点在于模拟眼球在不同力的影响下的运动轨迹。研究中,眼球被比作弹簧,其运动受到惯性、视觉吸引力(如特定颜色的吸引力)和语音吸引力三个主要力量的影响。通过构建简单的神经网络,结合物理和医学背景,研究者尝试预测眼球的下一步运动。特别提到了使用MLP(多层感知机)来加合这三个力的影响,并提出了一种新的方法来优化预测,包括利用视频定位技术识别特定目标(如垃圾桶)的位置。
最后,宋睿华讨论了如何利用大语言模型推理和行动交互的模式来控制机器人与他者进行交互,特别是在非指令性互动中的表现,如握手或击掌。研究者通过将文本信息和动作数据统一在同一个空间中,使机器人能够根据人类的行为做出相应的反应,从而实现更自然、真实的交互体验。