[toc]
只记录要点
Introduction
- 问题定义:
- 人格识别:通过非语言行为(面部表情、语音、姿态等)自动推断个体的性格特质,分为表观人格(APR)(外部观察者的印象)和自我报告人格(SPR)(个体自我评估的内在特质)。
- 挑战:
- 数据异质性:现有模型依赖复杂的数据预处理(如帧采样、特征工程),导致复现困难。
- 评估不一致:不同论文使用不同训练策略(如超参数、标签分配),难以公平比较模型性能。
- 任务差异:APR与SPR的数据分布、标签生成机制不同,需针对性建模。
- 研究目标:
- 构建首个标准化、可复现的音频-视觉人格识别基准框架,统一数据预处理、模型训练与评估流程。
- 对比现有模型(8种人格计算模型 + 7种通用深度学习模型)在APR和SPR任务中的性能,揭示多模态融合与长期建模的关键问题。
- 注:现有工作大部分是依赖于APR数据
Related Work
自动表观人格识别(Automatic Apparent Personality Recognition, APR)
表观人格是指外部观察者对目标对象的第一印象或印象人格。这一领域的研究主要集中在如何从非语言的面部行为(如表情、姿态)和音频信号中识别表观人格特质。
基于静态图像的方法
- 单帧图像:许多研究尝试从单帧图像中预测表观人格。例如,Joo等人从650名美国政客的面部图像中提取方向梯度直方图(HOG)特征来预测人格特质。Dhall等人则结合手工特征和深度学习特征来描述Twitter用户头像,并结合背景信息进行人格预测。
- 局限性:这些方法通常忽略了时间动态信息,仅从单帧图像中提取信息可能无法捕捉到人格特质的长期表现。
基于音频视频的方法
- 多模态方法:大多数研究集中在音频视频方法上,这些方法通常比单一模态(如仅视觉或仅音频)表现更好。例如,Zhang等人提出了一种双流残差网络(ResNet),分别从音频和视觉信号中提取特征,并在帧级别进行融合以预测表观人格。
- 长期行为建模:近期的研究开始关注从长期行为中提取人格特征。例如,Beyan等人通过提取关键动态图像来总结视频,并基于这些图像预测表观人格。这种方法避免了将视频级标签直接用于帧级预测的问题,从而提高了模型的可靠性。
- 局限性:尽管这些方法在表观人格识别上取得了进展,但它们大多依赖于帧级或短片段级标签进行训练,这可能导致模型在泛化能力上存在不足。
自动自我报告人格识别(Automatic Self-Reported Personality Recognition, SPR)
自我报告人格是指个体对自己人格特质的真实评估,通常通过问卷调查获得。与表观人格识别相比,自我报告人格识别的研究相对较少。
基于静态图像的方法
- 手工特征:一些研究尝试从静态面部图像中提取手工特征(如HOG、LBP等)来预测自我报告人格。例如,Qin等人从面部图像中提取多种手工特征,并使用标准回归器进行人格预测。
- 深度学习方法:近年来,基于深度学习的方法开始应用于自我报告人格识别。例如,Curto等人提出了一种基于Transformer的模型,从短片段中提取个体和人际行为特征,以联合识别自我报告人格。
基于音频视频的方法
- 多模态方法:一些研究尝试从音频视频信号中识别自我报告人格。例如,Song和Shao提出了一种基于神经架构搜索(NAS)的方法,为每个个体探索个性化的网络结构,以预测大五人格特质。
- 局限性:尽管这些方法在自我报告人格识别上取得了一定进展,但大多数研究仅在单一数据集上进行评估,且模型的泛化能力尚未得到充分验证。
研究空白与挑战
- 缺乏标准化基准:现有的人格计算方法大多缺乏标准化的基准测试框架,导致不同研究之间的结果难以直接比较。
- 代码和数据的可复现性:许多研究未公开代码或数据,这使得其他研究人员难以复现和扩展这些工作。
- 模型性能的局限性:尽管一些方法在表观人格识别上取得了较好结果,但在自我报告人格识别上,现有模型的性能仍然较低,表明从非语言行为中直接预测自我报告人格是一个更具挑战性的问题。
- 长期行为建模的不足:大多数现有方法依赖于帧级或短片段级标签进行训练,这可能导致模型无法有效捕捉长期行为中的人格特征。
相关工作部分的核心要点
-
表观人格识别(APR):
- 基于静态图像的方法:从单帧图像中提取特征,但忽略了时间动态信息。
- 基于音频视频的方法:多模态方法表现优于单一模态,长期行为建模逐渐受到关注。
- 局限性:依赖帧级或短片段级标签,可能导致模型泛化能力不足。
-
自我报告人格识别(SPR):
- 基于静态图像的方法:使用手工特征和深度学习方法从静态图像中预测人格。
- 基于音频视频的方法:多模态方法开始应用于自我报告人格识别。
- 局限性:研究较少,模型性能较低,泛化能力有待验证。
-
研究空白与挑战:
- 缺乏标准化基准,导致不同研究结果难以比较。
- 许多研究未公开代码或数据,影响了研究的可复现性。
- 自我报告人格识别更具挑战性,现有模型性能有待提高。
- 长期行为建模不足,需要更有效的方法来捕捉人格特征。
THE PROPOSED BENCHMARKING FRAMEWORK
编码基础设施 (Coding Infrastructure)
基准测试框架的目标是提供一个公平的比较平台,用于评估人格计算模型的性能。为此,作者强调了统一的框架设计,确保所有模型在相同的条件下进行评估。具体来说,框架统一了以下组件:
- 数据输入
- 数据预处理
- 数据后处理
- 模型初始化
- 训练
- 验证
- 评估
- 编码平台/库
数据输入和预处理 (Data Input and Pre-processing)
为了确保公平性,所有实验都使用相同的数据集划分(训练集、验证集和测试集)。预处理步骤也保持一致,以减少因数据处理差异带来的性能波动。具体步骤如下:
- 静态图像模型:将视频均匀分割为多个短片段,从每个片段中选择一帧(例如,每段的第一帧),使用MTCNN裁剪并对齐面部图像,然后进行数据增强(如随机水平翻转、像素归一化等)。
- 时空模型:将视频分割为短片段或使用视频级序列作为输入。对于短片段,每个片段包含一定数量的帧(如32帧或64帧)。对于视频级序列,从视频中均匀采样一定数量的帧(如32帧)。
- 音频模型:使用FFmpeg从视频中提取原始音频信号,并进行相应的预处理。
训练、验证和测试协议 (Training, Validation, and Testing Protocol)
- 训练:所有模型在训练集上进行训练,使用早停法(early stopping)防止过拟合。
- 验证:在验证集上评估模型性能,选择验证集上表现最佳的模型作为最终模型。
- 测试:使用最终模型在测试集上生成结果,并报告性能指标。
评估指标 (Evaluation Metrics)
为了评估模型性能,作者使用了以下指标:
- ACC(准确率):用于评估表观人格识别任务。
- MSE(均方误差):用于评估自我报告人格识别任务。
- CCC(一致性相关系数):用于衡量预测值与真实值之间的相关性。
基准测试的人格计算模型 (Benchmarked Personality Computing Models)
作者选择了多种现有人格计算模型和标准深度学习模型进行基准测试。这些模型包括:
- 现有人格计算模型:这些模型已经在人格识别领域被广泛研究和应用。例如,DAN(Descriptor Aggregation Network)、CAM-DAN+、Bi-modal CNN-LSTM等。
- 标准深度学习模型:这些模型广泛用于图像和视频分析任务,但尚未应用于人格识别。例如,SENet、HRNet、VIT(Vision Transformer)等。
- 视频级表示生成模型:这些模型用于将帧级或片段级预测汇总为视频级预测。例如,通过平均帧级预测或使用频谱表示来生成视频级预测。
模型纳入和排除标准 (Model Inclusion and Exclusion Criteria)
- 纳入标准:
- 在ChaLearn第一印象数据集上评估和比较的代表性方法。
- 最近三年发表的端到端音频视频深度学习模型。
- 可直观展示人格与行为关系的模型。
- 排除标准:
- 非基于音频视频的深度学习模型。
- 无法端到端训练的模型。
- 未在ChaLearn第一印象数据集上评估的模型。
- 不以大五人格为识别目标的模型。
- 非回归任务的模型。
现有人格计算模型 (Existing Personality Computing Models)
作者详细描述了多种现有人格计算模型,包括视觉模型、音频模型和音频视频模型。这些模型在表观人格识别任务中表现出色,但大多数在自我报告人格识别任务中的表现较差。
广泛使用的静态/时空视觉深度学习模型 (Widely-used Static/Spatio-temporal Visual Deep Learning Models)
作者还选择了多种标准视觉深度学习模型进行基准测试。这些模型在图像和视频分析任务中表现出色,但尚未应用于人格识别。通过将这些模型纳入基准测试,作者希望探索它们在人格识别任务中的潜力。
视频级表示生成模型 (Clip-level Representation Generation Models)
为了将帧级或片段级预测汇总为视频级预测,作者比较了两种方法:
- 平均帧/片段级预测 (AFP):通过平均所有帧级或片段级预测来生成视频级预测。
- 频谱表示 (SFP):通过频谱表示来捕捉帧级或片段级预测中的时间依赖关系,并生成视频级预测。
评估数据集 (Evaluation Datasets)
为了评估基准测试模型的性能,作者选择了两个公开可用的音视频人格计算数据集:
- UDIVA数据集:包含188个双人互动片段,记录了147名志愿者的行为。每个片段包含两个音频视频文件,分别记录了单个参与者的行为。数据集提供了大五人格特质作为每个音频视频片段的标签。
- ChaLearn第一印象数据集:包含10,000个来自2,764名YouTube用户的视频,每个视频时长约15秒。标签为通过亚马逊机械土耳其人标注的大五人格特质。数据集提供了官方的训练、验证和测试划分。
THE PROPOSED BENCHMARKING FRAMEWORK 的核心要点
- 统一的编码基础设施:确保所有模型在相同的条件下进行评估,减少因数据处理和训练策略差异带来的性能波动。
- 多种人格计算模型:涵盖了现有人格计算模型和标准深度学习模型,为研究人员提供了广泛的比较基础。
- 标准化的评估流程:通过统一的数据预处理、训练、验证和测试协议,确保评估结果的公平性和可比性。
- 公开的代码和设置:为了促进研究的可重复性和进一步发展,所有代码和设置均已公开。
- 两个公开数据集:在UDIVA和ChaLearn第一印象数据集上评估模型性能,涵盖了表观人格和自我报告人格识别任务。
Experiments
基准测试人格计算模型(Benchmarking Personality Computing Models)
在这一部分,作者展示了所有基准测试模型在自我报告人格(SPR)和表观人格(APR)识别任务上的性能结果。实验在两个公开数据集上进行:UDIVA数据集(用于SPR)和ChaLearn第一印象数据集(用于APR)。
自我报告人格识别(Self-Reported Personality Recognition, SPR)
- 数据集:UDIVA数据集,包含188个双人互动片段,记录了147名志愿者的行为。每个片段包含两个音频视频文件,分别记录了单个参与者的行为。标签为基于问卷调查的大五人格特质。
- 评估指标:使用MSE(均方误差)和CCC(一致性相关系数)评估模型性能。
- 结果:
- 音频模型:大多数音频模型的CCC值接近零,表明它们难以从非语言音频信号中提取与自我报告人格相关的线索。
- 视觉模型:一些视觉模型(如SENet、HRNet)在某些人格特质上取得了超过0.15的CCC值,但总体性能仍然较低。
- 多模态模型:CRNet和VGGish等多模态模型在某些特质上表现略好,但整体性能仍然有限。
表观人格识别(Apparent Personality Recognition, APR)
- 数据集:ChaLearn第一印象数据集,包含10,000个来自2,764名YouTube用户的视频,每个视频时长约15秒。标签为通过亚马逊机械土耳其人标注的大五人格特质。
- 评估指标:使用ACC(准确率)和CCC(一致性相关系数)评估模型性能。
- 结果:
- 视觉模型:HRNet和VAT等视觉模型在表观人格识别任务上表现较好,CCC值超过0.6。
- 多模态模型:CRNet和Amb-Fac-VGGish等多模态模型也表现出色,CCC值超过0.5。
- 音频模型:大多数音频模型的性能较低,但VGGish模型在某些特质上表现较好。
消融研究(Ablation Studies)
在这一部分,作者通过消融研究分析了不同预处理、后处理和模型设置对人格识别性能的影响。主要分析了以下几个方面:
全帧与面部区域(Full Frames vs. Face Regions)
- 比较:使用对齐的面部区域和包含背景的全帧作为输入,比较视觉模型的性能。
- 结果:使用面部区域的模型通常比使用全帧的模型表现更好,尤其是在表观人格识别任务中。这表明面部行为比背景信息更可靠地反映了人格特质。
静态模型与时空模型(Static vs. Spatio-temporal Models)
- 比较:静态模型(基于单帧图像)与时空模型(基于视频序列)的性能比较。
- 结果:静态模型在大多数情况下优于时空模型,尤其是在表观人格识别任务中。这表明短期行为可能包含更多与人格相关的线索。
短片段级与视频级建模(Short Segment-level vs. Video-level Modelling)
- 比较:短片段级建模(基于短片段)与视频级建模(基于整个视频)的性能比较。
- 结果:短片段级建模在表观人格识别任务中表现更好,而视频级建模在自我报告人格识别任务中表现较差。这表明短片段级建模能够更好地捕捉人格相关的短期行为。
音频、视觉与多模态模型(Audio, Visual, and Audio-Visual Models)
- 比较:音频模型、视觉模型和多模态模型的性能比较。
- 结果:视觉模型在大多数情况下优于音频模型,多模态模型在某些情况下表现更好,尤其是在表观人格识别任务中。这表明视觉信息比音频信息更可靠地反映了人格特质。
汇总帧/片段级预测(Summarising Frame/Segment-level Predictions)
- 比较:使用平均法(AFP)和频谱表示法(SFP)汇总帧/片段级预测的性能比较。
- 结果:频谱表示法(SFP)在表观人格识别任务中表现更好,能够更有效地捕捉时间依赖性线索。
其他因素(Other Factors)
- 联合预测与单独预测:联合预测所有五种人格特质比单独预测每种特质表现更好。
- 输入的时间尺度:输入的时间尺度对模型性能有显著影响,尤其是在表观人格识别任务中。
- 元数据的影响:在非语言行为基础上添加受试者的元数据并未显著改善自我报告人格识别的性能。
讨论(Discussion)
在这一部分,作者讨论了实验结果的意义,并指出了现有方法的局限性和未来研究的方向。
部分重现方法性能低于原报告(Some Reproduced Approaches Have Lower Performance Than Originally Reported)
- 原因:部分重现的模型未能达到原报告的性能,可能是因为原报告中未完整报告训练、评估和预处理细节,或者训练和评估过程中的随机因素。
人格特质与非语言行为的关系(Relationships Between Personality Traits and Non-verbal Behaviours)
- 表观人格与行为的关系:表观人格特质与非语言行为(如面部表情和姿态)有较强的关联,这使得深度学习模型能够较好地预测表观人格。
- 自我报告人格与行为的关系:自我报告人格特质与非语言行为的关联较弱,这使得模型难以直接从非语言行为中预测自我报告人格。
自我报告人格识别的低性能(Poor Performance in Self-reported Personality Recognition)
- 原因:自我报告人格标签是基于问卷调查获得的,而表观人格标签是基于行为观察获得的。这导致非语言行为与自我报告人格之间的关联较弱,从而影响了模型的性能。
挑战与研究空白(Challenges and Research Gaps)
- 现有方法的局限性:现有方法大多依赖于帧级或短片段级标签进行训练,这可能导致模型无法有效捕捉长期行为中的人格特征。
- 未来研究方向:未来的研究需要开发更有效的方法来建模长期行为,并整合人格相关的领域知识,以提高模型的性能和泛化能力。
实验部分的核心要点
-
基准测试结果:
- 表观人格识别(APR)任务中,视觉模型和多模态模型表现出色,CCC值超过0.5。
- 自我报告人格识别(SPR)任务中,所有模型的性能较低,CCC值普遍低于0.2。
-
消融研究:
- 使用面部区域的模型优于使用全帧的模型。
- 静态模型在大多数情况下优于时空模型。
- 短片段级建模优于视频级建模。
- 视觉模型优于音频模型,多模态模型在某些情况下表现更好。
- 频谱表示法(SFP)在汇总帧/片段级预测时表现更好。
-
讨论:
- 部分重现的模型未能达到原报告的性能,可能是因为训练和评估过程中的随机因素。
- 表观人格与非语言行为的关联较强,而自我报告人格与非语言行为的关联较弱。
- 现有方法的局限性在于依赖帧级或短片段级标签进行训练,未来需要开发更有效的方法来建模长期行为。
Conclusions
研究贡献
本文提出了首个音视频人格计算基准测试框架,旨在为表观人格(APR)和自我报告人格(SPR)识别任务提供一个公平且一致的评估环境。主要贡献包括:
- 标准化框架:提出了一个标准化的音视频人格计算基准框架,涵盖了多种人格计算模型和深度学习模型。
- 公开代码和设置:为了促进研究的可重复性和进一步发展,所有代码和设置均已公开。
- 两个公开数据集:在UDIVA数据集(用于SPR)和ChaLearn第一印象数据集(用于APR)上对模型进行了全面评估。
主要发现
通过基准测试,作者得出以下主要结论:
- 表观人格识别(APR)优于自我报告人格识别(SPR):
- 表观人格特征(如通过面部表情和姿态预测的第一印象)通常比自我报告人格特征(如通过问卷调查获得的真实人格)更容易被深度学习模型预测。
- 在表观人格识别任务中,一些视觉模型(如HRNet和VAT)和多模态模型(如CRNet和Amb-Fac-VGGish)表现出色,CCC值超过0.6。
- 在自我报告人格识别任务中,所有模型的性能较低,CCC值普遍低于0.2。
- 视觉模型优于音频模型:
- 在人格识别任务中,视觉模型通常优于音频模型,表明面部行为比非语言音频行为更可靠地反映了人格特质。
- 多模态模型在某些情况下表现更好,尤其是在表观人格识别任务中,但音频模型的性能提升有限。
- 短期行为比长期行为更有用:
- 短片段级建模(基于短片段)通常优于视频级建模(基于整个视频),表明短期行为可能包含更多与人格相关的线索。
- 长期行为建模方法(如视频级表示)在自我报告人格识别任务中表现较差,可能是因为这些方法忽略了短期行为中的重要信息。
- 频谱表示法(SFP)优于平均法(AFP):
- 在汇总帧/片段级预测时,频谱表示法(SFP)能够更有效地捕捉时间依赖性线索,从而提高模型性能。
- 人格特质与非语言行为的关系:
- 每种人格特质与非语言行为的关系不同,某些特质(如尽责性和神经质)更容易通过面部行为预测,而其他特质(如宜人性)的预测难度较大。
If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !