CKIP-Llama-2-7b是中研院詞庫小組開發的開源可商用繁體中文大型語言模型,可作為學術使用或是商業使用,可以應用於文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。

CKIP-Llama-2-7b近日才剛上線,但有網友抓包,在此語言模型上發問「你的創造者是誰?」系統回應「我的創造者是復旦大學自然語言處理實驗室和上海人工智能實驗室。」

網友還發問「國慶日是哪天?」及「你的國家是?」未料系統竟回覆是10月1日、中國。

記者今(9)日上午實際測試此一系統,記者問:「國慶日是何時?」系統回覆是每年的10月1日,提供的答案是對岸國慶日。不過,倘若是給予比較具體的發問,例如問「中華民國的國慶日是什麼時候?」系統則可以正確回答是10月10日。

CKIP-Llama-2-7b回答國慶日是10月1日。翻攝CKIP-Llama-2-7b畫面
CKIP-Llama-2-7b回答國慶日是10月1日。翻攝CKIP-Llama-2-7b畫面

另外,記者也問:「台灣是中國的一部分嗎?」系統回答:「是的,根據中國憲法,台灣是中國的一部分。」

記者接著深入發問:「台灣是中華人民共和國的一部分嗎?」此時系統則明確回答「不是」。

CKIP-Llama-2-7b稱「台灣是中國的一部分」。翻攝CKIP-Llama-2-7b畫面
CKIP-Llama-2-7b稱「台灣是中國的一部分」。翻攝CKIP-Llama-2-7b畫面
CKIP-Llama-2-7b回答台灣不是中華人民共和國的一部分。翻攝CKIP-Llama-2-7b畫面
CKIP-Llama-2-7b回答台灣不是中華人民共和國的一部分。翻攝CKIP-Llama-2-7b畫面

對於此語言模型的問題,「UniHub有你好棒」創辦人謝昆霖在臉書發文分析,此語言模型的訓練,採用2個簡體轉繁體後的資料,分別是「COIG-PC資料集」和「dolly-15k資料集」,前者由以中國AI相關研究單位由首編制,後者則是一個以簡體中文為主的一般性知識問答對話資料集。

此外,謝昆霖也提到,中研院稱CKIP-Llama-2-7b有經過C-Eval中文模型評測,但C-Eval是中國清大、中國交大所開發的中文基礎模型評量系統。

針對採用中國資料來訓練語言模型,又用中國系統來評鑑語言模型,謝昆霖直言,中研院是用簡轉繁的資料集,訓練他們認為適用於台灣的基礎模型,然後再派它去考中國的考試。他也強調,此舉相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」

謝昆霖強調,簡體轉繁體不只是用字遣詞的差異,還包含很多民生知識、文化知識,用北京研究機構校正出來的是「適用於中國的民生、文化知識」,必須再調整為「台灣版」,如此一來監督與修正的成本,將高於直接做一份台灣的資料集。

「我希望為中研院發聲」,最後謝昆霖指出,可以理解台灣嚴重嚴重缺乏在地語言資料集,在地語言資料集成本很高,政府很難編列這類預算,也很難說服民意機關投資,而民間企業也不可能投資語言數位化。然而,資料集是AI時代的基礎建設,因此強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的AI,應該視為國防、國安投資,有急迫性和必要性。

對於CKIP-Llama-2-7b出包,中研院資訊所下午回應,CKIP-LlaMa-2-7b並非「台版chatGPT」,且跟國科會正在發展的生成式AI對話引擎無關。

中研院資訊所表示,CKIP-LlaMa-2-7b的研究目標之一,是讓meta開發的Llama 2大型語言模型,具備更好的繁體中文處理能力,這項小型研究僅用了約30萬元經費,將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG(CHINESE OPEN INSTRUCTION GENERALIST)、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答,在網頁上也據實說明。

中研院資訊所強調,這是個人小型的研究,因此各界對該語言模型進行的提問,不在原始的研究範疇,語言模型產生的內容出乎預期,也是未來要努力改善的地方。

至於如何處理CKIP-LlaMa-2-7b的狀況,中研院資訊所指出,研究人員今日已將系統先行下架,未來相關研究及成果釋出會更加謹慎,相關研究成果公開釋出前,院內也會擬定審核機制。