中伝学生チームがコンピュータビジョン国際トップカンファレンスCVPR AI生成動画品質評価チャレンジで準優勝を獲得

发布时间:2025-04-05浏览量:10

近日、中国伝媒大学情報通信工学院放送テレビ工学科の史萍教授が指導し、2023年度通信・情報システム専攻修士課程学生の亓澤魯、王書琪、2024年度情報通信工学専攻博士課程学生の張朝陽で構成された学生チームが、コンピュータビジョン国際トップカンファレンスである国際コンピュータビジョン・パターン認識会議(CVPR)2025 NTIRE Workshop主催のAI生成動画品質評価チャレンジで準優勝を獲得しました。  

 

CVPRが開催するNTIREチャレンジは、インテリジェント画像復元・強化分野で重要な影響力を持つ国際大会の一つです。今回のCVPR NTIRE Workshopで設定されたXGC Quality Assessmentチャレンジでは、複数のサブトラックが設けられ、そのうちAI生成動画品質評価トラックは、AI生成動画の品質を多面的に評価することに焦点を当て、AI生成動画の内容理解と品質モデリング手法の研究を推進することを目的としています。今回の大会には、北京理工大学、中国科学技術大学、上海交通大学を含む世界中の100以上の大学、研究機関、企業チームが参加しました。  

  CVPR 2025 AI生成動画品質評価チャレンジランキング(上位6チーム)  

AI生成動画品質評価トラックのタスクは、プロンプトワードと動画のペアおよびその主観的品質評価ラベル(MOSスコア)に基づいて、AI生成動画の知覚品質スコアを予測することです。大会の結果は、参加チームの予測結果とMOSスコアの一致度に基づいて評価されます。大会のデータセットは34,029の動画をカバーし、14種類の主流動画生成モデルを含み、動画はさまざまな歪みタイプをカバーしており、品質評価タスクにとって非常に挑戦的です。  

   データセット内のAI生成動画の歪みタイプの例  

中国伝媒大学の学生チームは、AI生成動画でよく見られる時空間の歪みに対応するため、多分岐エンコーダーアーキテクチャを提案し、視覚品質を技術品質、動きの品質、セマンティックコンテンツの3つの次元に分解して包括的にモデル化しました。チームはマルチモーダルプロンプトエンジニアリングフレームワークを設計し、上記の3種類の視覚特徴を言語空間に整列させ、同時にセマンティックアンカーを導入して、大規模言語モデルが3つの特徴の関連推論を確立するのを支援しました。トレーニング段階では、LoRAファインチューニング技術を使用して大規模言語モデルをタスク指向で微調整し、品質予測の精度を大幅に向上させました。中国伝媒大学チームのソリューションは、テストセットでMOSスコアとの一致度が60%を超えた2つのソリューションの1つであり、優れたモデリング能力と実際の性能を示しました。関連する研究成果は、CVPR 2025 Workshopで論文として発表される予定です。  

 ソリューション全体のアーキテクチャ図  

中国伝媒大学情報通信工学院は、国家人工知能発展戦略に密接に連携し、動画品質評価技術分野で継続的にオリジナル研究を展開し、動画理解と生成の効果的な評価方法を探求し、AI生成技術の規範化された発展に知恵とソリューションを提供しています。 


この記事は大規模言語モデルによって翻訳されました。


編集 張亦瑋



(数据截止到2025年04月05日)