Blind Model Evaluation
金融專業回答盲測
請依照你的金融知識與實際使用感受,比較三個匿名模型回答的品質。
研究目的
本研究旨在了解不同大型語言模型在金融問答情境中的回答品質。你會看見三個匿名回答 A / B / C,並依正確性、完整性與可讀性進行比較;過程中不會看到模型名稱。
- 時間
- 約 8-12 分鐘
- 題數
- 5 題開放問題
- 比較方式
- A / B / C 匿名盲測
- 資料用途
- 論文量化與質性分析
你需要完成的事
- 輸入一個符合當題方向的問題。
- 閱讀三個匿名模型回答。
- 比較三個回答中整體最好與整體最差的回答。
- 依正確性、完整性與可讀性選出各面向較佳的回答。
- 簡短說明您的選擇理由與觀察。
作答前請注意
題目可以來自學習、工作或理解金融資訊時真的可能會問 AI 的問題;請避免使用固定背誦題,也不要刻意輸入與金融無關的問題。
請不要輸入姓名、帳號、持股明細、公司內部資料、未公開資訊或其他個人敏感資訊。
背景資料主要用於樣本描述與金融相關性檢核;主要分層變項預先指定為金融工作或實習經驗,金融熟悉度作為次要連續變項;其他人口統計與使用經驗欄位僅作探索性分析,不作為主要推論依據。
模型回答僅供研究比較,不構成投資建議,也不應作為實際買賣依據。本研究資料只會用於整體量化比較與文字理由的質性分析。
駱泳誌
國立政治大學 資訊管理系 碩士生
指導教授:蔡瑞煌博士
Thesis Title: The Augmentative Residual Adapter Approach to Pre-training