Compass: 推論強化と文書読解の統合による日本語金融Vision-Language Modelの開発
日本語金融文書理解に特化したVision-Language Model「Compass」を提案する。LLaVA-OneVisionアーキテクチャにllm-jp-4-8bを統合し、三段階の学習パイプラインにより、視覚-言語アライメント、知識蒸留による数学的推論強化、及び政府金融文書の直接的な視覚読解による金融ドメイン特化を実現する。
Sections:
はじめに
アーキテクチャ
学習パイプライン
データセット
実装の詳細
評価設定
実験結果
まとめと今後の展望
謝辞
参考文献
Read more →