孟义航

孟义航

2001-04-16 中共党员 安徽

教育背景

东南大学(985)

计算机技术 硕士(研二)

2023.09~至今

河海大学(211)

计算机科学与技术 本科

2019.09~2023.06

技能/方向

  • 专业技能:熟悉 Pytorch 框架和 Python 基本语法及数据结构,善于进行模型整合、修改、调优及部署;掌握 C++,使用 Qt 开发客户端;熟悉目前视频动作质量评估的所有算法;
  • 研究方向:视频理解、动作质量评估、多模态等。

科研经历

《Score-Aware Distribution Learning for Action Quality Assessment》(在投)

共同一作

IEEE Transactions on Circuits and Systems for Video Technology (CCF-B)

挑战:

当前动作质量评估方法仅仅是预测一个最终分数或者分数分布,忽视了裁判之间分数的分布关系;其次,基于分数分布的方法无法应用到对比回归任务当中。

思路:

  • 在原有 I3D 提取视频片段特征后,引入一层 self-attention 用于捕获不同 clip 之间的时序关系;
  • 提出新的 score-aware 的解码器,受启发于 DETR 的框架,将每个 query 作为一个分数原型,通过 cross-attention 得到每个分数原型对视频片段的打分,最后计算所有分数分布与 7 个裁判的得分分布的 KL 散度进行训练,学习裁判分数之间的分布关系,加权计算最终得分,更符合实际打分规则;
  • 将分数分布学习的范式引入到对比回归框架中,计算样本与示例之间的相对分数分布。

结果:

复现了该领域的大部分工作并进行了充分的消融实验,在单视频回归任务上实现了 SOTA 性能,将分数分布引入到对比回归中进一步刷新纪录。

《Efficient Multi-modal Human-centric Contrastive Pre-training with A Pseudo Body-structured Prior》

第一作者

Chinese Conference on Pattern Recognition and Computer Vision (CCF-C)

挑战:

现有工作通常将深度图像作为辅助输入,这可能导致模型无法充分学习模态之间的模态不变信息;其次,图像中大量背景和少量人体信息形成长尾分布问题。

思路:

  • 利用深度图像中包含的丰富人体结构信息,将 RGB 图像划分成若干不同的局部组成,通过不同部分的信息交流构建出一个新的伪 RGB 图像作为锚点进行全局、局部以及关键点对比学习;
  • 包含丰富人体结构信息的伪 RGB 图像可以有效的引导模型学习不同模态之间关于人体的模态不变信息;
  • 深度值将大量背景和人体前景区分开解决图像长尾分布问题。

结果:

在 COCO、Human3.6M、NTURGBD 以及 ITOP 数据集上的下游任务测试中达到了 SOTA 性能。

项目经历

雷达信号识别与分类

2024.08~至今

负责模型开发

挑战:

信号种类多,同一调频类型下不同类别数据混淆较大;嵌入式设备上运行。

思路:

  • 多层 MLP 效果不佳,使用 STFT 将一维信号转化为时频图,使用若干层 2d-CNN 进行分类;
  • 受限于访问权限,仅用 c++ STL 实现权重加载、模型推理,包括 Conv、BatchNorm、Maxpool、FC 等。

结果:

在 c++上实现 python 相同的效果,bpsk、lfm 分类效果近乎 100%,无调制类型分类效果 87%。

竞赛经历

2024 年南电智能科技有限公司第一批智能应场景算法 "赛马"项目-变电站刀闸状态智能识别

2024.04~2024.05
负责人 得分:87.9 排名:Top 25%

挑战:

小样本训练;相似外观设备较多,无法准确识别。

思路:

  • 短时间在昇思系统上修改模型难度较大,通过寻找变电站相关的数据集进行预训练;
  • 使用 yolov8+DETR 集成学习,采用 coarse-to-fine 的策略,融合两个模型的 boxes,提升 IoU。

结果:

使用相似数据集对进行预训练,效果从 65.2 上涨到 84.3;采用集成学习效果进一步提升至 87.9。

技能标签

PyTorch Python C++ Qt 深度学习 视频理解 多模态 动作质量评估 图像处理 信号处理