Ride or Die

be yourself

Multimodal Sentimental Privileged Information Embedding for Improving Facial Expression Recognition

[toc] Conclusion 模型概述 MPI-FER 模型: 通过跨模态翻译和多模态特征融合,将音频和文本数据作为特权信息嵌入到面部表情识别任务中。 模型包含三个主要模块: 图像-音频模态翻译模块 (IA-MTM):实现图像到音频的跨模态翻译。 图像-文本模态翻译模块 (IT-MTM):实现图像到文本的跨模态翻译。 多模态特权信息嵌入模块 (MPI-EM):融合图像、音频和文本的......

An Open-source Benchmark of Deep Learning Models for Audio-visual Apparent and Self-reported Personality Recognition

[toc] 只记录要点 Introduction 问题定义: 人格识别:通过非语言行为(面部表情、语音、姿态等)自动推断个体的性格特质,分为表观人格(APR)(外部观察者的印象)和自我报告人格(SPR)(个体自我评估的内在特质)。 挑战: 数据异质性:现有模型依赖复杂的数据预处理(如帧采样、特征工程),导致复现困难。 评估不一致:不同论文使用不同训练策略(如超参数、标签分配),难以公平......

强化学习-PPO

[toc] PPO(Proximal Policy Optimization,近端策略优化) 是OpenAI于2017年提出的一种强化学习算法,属于策略梯度(Policy Gradient)方法的改进版本。它以高稳定性和样本高效性著称,广泛应用于机器人控制、游戏AI等领域(如《Dota 2》AI和《星际争霸II》AI)。 策略梯度(Policy Gradient)的局限性 问题:传统策略梯度......

2012.数组美丽值求和

2012.数组美丽值求和思路两次遍历 代码1234567891011121314151617181920212223242526272829303132class Solution {public: int sumOfBeauties(vector<int>& nums) { int n = nums.size(); ......

强化学习-传统策略梯度算法

[toc] 传统策略梯度算法(Policy Gradient Methods) 是强化学习中一类直接优化策略(Policy)的方法,与基于价值函数的方法(如Q-Learning)不同,它通过梯度上升直接调整策略参数,以最大化长期累积奖励。 核心思想 策略(Policy):定义智能体在状态 s下选择动作 a 的概率分布,通常用参数化函数 $$π_θ(a∣s)$$ 表示(如神经网络)。 ......

强化学习

[toc] 定义强化学习(Reinforcement learning,RL)讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的 环境里面去极大化它能获得的奖励。通过感知所处环境的 状态(state) 对 动作的 反应(reward), 来指导更好的动作,从而获得最大的 收益(return),这被称为在交互中学习,这样的学习方法就被称作强化学习。 特点强化学习是除了监督学习和非监督......

2269.找到一个数字的k美丽值

2269.找到一个数字的k美丽值1234567891011121314class Solution {public: int divisorSubstrings(int num, int k) { if(num==0) return 0; int ans=0; string str=to_string(num); ......

2234.花园的最大总美丽值

2234.花园的最大总美丽值 地址:2234. 花园的最大总美丽值 ...

2597.统计美丽子集数目

2597.统计美丽子集数目地址:2597. 美丽子集的数目 - 力扣(LeetCode) 思路同余dp ...

True Knowledge Comes from Practice Aligning LLMs with Embodied Environments via Reinforcement Learning

[toc] DISCUSSION AND CONCLUSIONTWOSOME: 通过强化学习将LLMs与环境对齐,来解决决策任务,并且不需要任何准备的数据集或环境的先验知识,同时不会显著损失LLM的原始能力。 更可控、更可行、可解释性更强。 具有单词归一化,采样效率更高 。 泛化能力强。 计算量比较大,批处理规模较小。 Introduction 大模型在简单决策任务上会失败,原因: L......