AI读懂说话人情绪,数据堂语音情感识别数据等你Pick

最近,小米推出了完全支持情感语音交互的小米萧艾音箱Art,小米成为业内第一家大规模推出情感TTS的企业。

基于有限但不同类型的情感音频数据,如快乐、关心和害羞,该扬声器支持情感TTS合成并实现& ldquo小爱同学& rdquo声音的影响和拟人化。

随着人工智能技术的发展,各大AI企业在实现人机对话的基础上,正在积极探索情感语音交互领域。

例如,在智能客服领域,当用户的问题无法解决或问题不清楚时,智能客服很可能无法识别用户的情绪并进行进一步的操作,从而引起用户的不满和投诉。

针对这种情况,日本NTT研究所开发了客服电话情绪识别系统,对用户的电话语音进行采集和处理,如果没有检测到用户的愤怒情绪,则继续当前的语音服务;如果检测到愤怒情绪,会转入人工服务进行业务处理。

语音情感识别通常是指机器从语音中自动识别人类情感和情感相关状态的过程。通过分析说话人的情绪,使机器进行拟人化交互,识别说话人的情绪,是语音技术的新焦点。

语音情感识别有两种,NTT客服电话情感识别系统只通过语音分析情感。这种情感语音识别模型的应用离不开训练数据的支持。

Data Hall深入AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务。业界高标准的语音情感识别训练数据“20人英语情感语音麦克风采集数据”和“30部电影语音视频标注数据”受到广泛重视和好评。

语音情感识别的另一个模型是结合语音和图像的多模态情感分析。

机器人小辣椒是应用多模态情感分析的典型案例。

Pepper是由日本软银集团和法国阿鲁迪巴机器人公司开发的一款人形机器人,能够综合考虑周围环境,主动做出反应。

Pepper配备了语音识别技术和情感识别技术,用于分析表情和声调。经过定制开发,Pepper可以通过表情、动作、声音,甚至舞蹈、笑话等方式与人类进行交流和反馈。

如今,在商业领域,全球有2000多家企业应用了胡椒,服务于零售、金融和医疗保健等多个行业。

麻省理工学院(MIT)的媒体实验室衍生公司Affectiva用语音和面部数据创建了情感文件,其神经网络SoundNet只需1.2秒就能识别音频数据中的愤怒。

人的情绪除了愤怒之外,还可以分为高兴、悲伤、失望、惊讶等面部情绪,内心情绪又可以细分为尴尬、犹豫、赞同、羡慕。这些情绪可以用VAD方法量化评分。

所谓VAD指的是三个测量维度:效价、唤醒和支配。

& middot化合价是指实现一个目标以满足个人需求的价值。同一个目标对每个人来说可能有三个价:正、零、负。

& middot觉醒(积极程度),即精神和身体都反映的积极程度,如活力或昏睡。

& middot优势(优势)表示个人对形势和他人的控制。比如,愤怒是一种支配性高的情绪,而恐惧是一种支配性低的情绪。

Data Hall一直致力于开发个性化的机器训练数据,为AI产品和业务带来数据和服务,带给人们更好的产品体验,让每个人都能享受到人工智能带来的更美好的生活。

为您推荐

发表评论

电子邮件地址不会被公开。