SFT | 栁澤篤

日本語金融文書理解に特化したVision-Language Model「Compass」を提案する。LLaVA-OneVisionアーキテクチャにllm-jp-4-8bを統合し、三段階の学習パイプラインにより、視覚-言語アライメント、知識蒸留による数学的推論強化、及び政府金融文書の直接的な視覚読解による金融ドメイン特化を実現する。