機器之心報道
編輯:澤南、小舟
不增加算力需求,谷歌總結的指令微調方法能讓 8000 萬到 5400 億參數的模型都顯著提升性能。
人工智能一個重要的目標是開發泛化能力強的模型。在自然語言處理(NLP)領域中,預訓練語言模型在這方面取得了重大進展。這類模型往往通過微調來適應新的任務。
近日,來自谷歌的研究者分析了多種指令微調方法,包括擴展對指令微調的影響。實驗表明,指令微調確實可以根據任務數量和模型大小實現良好的擴展,最大到 5400 億參數的模型都能明顯受益,未來的研究應該進一步擴大任務的數量和模型的大小。此外,該研究還分析了微調對模型執行推理能力的影響,結果都是很吸引人的。
由此產生的 Flan-T5 對 1800 余種語言任務進行了指令微調,明顯提高了提示和多步推理能力,30 億參數跑基準就能超過 GPT-3 的 1750 億參數。

看起來谷歌又為大模型找到了一個能力提升的方向。不過這一研究不僅引來了機器學習社區的歡迎,也有 Gary Marcus 的吐槽:

谷歌的模型為什么把谷歌自己的著名科學家 Geoffrey Hinton 的出生日期搞錯了?人家明明是 1947 年出生的老前輩。
論文作者之一的谷歌大腦首席科學家 Quoc Le 趕緊出來圓場:是臨時工圖片做錯了,在論文里 Flan-T5 模型其實沒有把 Geoff 的出生年月搞錯,有圖為證。

順便說一句,出生于 1963 年的著名 AI 學者是 Jürgen Schmidhuber。
既然出錯的不是 AI 模型,讓我們看看谷歌的新方法究竟能夠為預訓練模型帶來哪些改變吧。
論文:Scaling Instruction-Finetuned Language Models

論文地址:https://arxiv.org/abs/2210.11416
公開模型:https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints
該研究使用 540B 參數模型訓練 Flan-PaLM,將微調任務的數量增加到 1800 個以上,并包含思維鏈(CoT;Wei et al., 2022b)數據。經過訓練后的 Flan-PaLM 優于 PaLM,在多個基準測試中達到了新的 SOTA。在推理能力方面,Flan-PaLM 能夠利用 CoT 和自洽性(self-consistency;Wang et al., 2022c)在大規模多任務語言理解(MMLU; Hendrycks et al., 2020)上實現 75.2% 的準確率。

此外,在一組具有挑戰性的開放式生成問題上,Flan-PaLM 的表現明顯優于 PaLM,可用性大幅提高。
總體而言,谷歌的這項研究闡明了使用指令微調來提高模型性能的具體方法。
方法
具體來說,該研究主要關注影響指令微調的幾個方面,包括:(1)擴展任務數量,(2)擴展模型大小,以及(3)對思維鏈數據進行微調。
該研究發現具有上述方面的指令微調顯著改進了各種模型類(PaLM、T5、U-PaLM)、prompting 設置(零樣本、少樣本、CoT)和評估基準(MMLU、BBH、 TyDiQA、MGSM、開放式生成)。例如,在 1.8K 任務上進行指令微調的 Flan-PaLM 540B 大大優于 PALM 540B(平均 + 9.4%)。Flan-PaLM 540B 在幾個基準測試中實現了最先進的性能,例如在五次 MMLU 上達到 75.2%。
研究者還公開了 Flan-T5 檢查點,即使與更大的模型(例如 PaLM 62B)相比,它也能實現強大的少樣本性能。總體而言,指令微調是提高預訓練語言模型的性能和可用性的通用方法。

圖 1. 研究人員在 1800 余個任務中對各種語言模型進行了微調,在有 / 缺乏樣本(零樣本和少樣本)以及有 / 沒有思維鏈的情況下進行微調,從而能夠在一系列評估場景中進行泛化。

圖 2. 微調數據包括 473 個數據集、146 個任務類別和共計 1836 個任務。

在數據微調和程序微調過程完成后,研究者根據模型大小對任務的性能來對比規模擴展的影響。首先,對于所有三種模型大小,多任務指令微調與沒有微調相比性能有很大提高,增益范圍從 9.4% 到 15.5%。其次,增加微調任務的數量可以提高性能。
最后,我們可以看到將模型規模增加一個數量級(8B → 62B 或 62B → 540B)可以明顯提高微調和未微調模型的性能。

多任務指令微調相對于模型大小(參數量)和微調任務數量及規模擴展對準確率的影響。

增加微調數據中的任務數量可以提高 Flan-PaLM 在大多數評估基準上的性能。
研究人員證明了在微調混合中包含九個帶有思維鏈 ( CoT ) 注釋的數據集可以提高推理能力。下表顯示 Flan-PaLM 的 CoT 提示能力在四個保留的評估基準上優于 PaLM。

該研究發現對 CoT 數據進行指令微調的另外一個好處是可以實現零樣本(zero-shot)推理,模型在沒有針對 CoT 的少量樣本的情況下就自行產生了推理能力,這可能需要大量工程調教才能正確實現。

圖 6:PaLM 和 Flan-PaLM 在一組 23 個具有挑戰性的 BIG-Bench 任務 ( BBH ) 上的 zero-shot 性能。Flan-PaLM 需要通過「讓我們一步一步思考」指令激活的思想鏈 ( CoT ) 生成。
為了展示新方法的通用性,谷歌訓練了 T5、PaLM 和 U-PaLM,涵蓋了從 8000 萬到 5400 億參數的模型體量范圍,發現所有模型都能大幅提升性能。

表 5. 指令微調 ( Flan ) 在其他持續預訓練方法之上提高了性能。
經過測試,指令微調大大提高了所有模型類型的歸一化平均性能,與非微調模型相比,T5 模型從指令微調中受益最多。這些結果對于某些基準測試來說是相當強的——例如,Flan-T5-XL 只有 30 億參數,就達到了 47.6% 的 MMLU 分數,超過了 GPT-3 1750 億參數的 43.9% 分數。
除了 NLP 基準之外,語言模型還能夠為開放式問題請求生成長格式答案。在這一方面,標準的 NLP 基準和用于評估它們的自動指標不足以衡量人類的偏好。研究人員對此進行了評估,創建了一個包含 190 個示例的評估集。該評估集包括以零樣本方式向模型提出的問題,涉及五個具有挑戰性的類別,每個類別 20 個問題:創造力、上下文推理、復雜推理、計劃和解釋。
對于其中的 60 個示例(來自復雜的推理、計劃和解釋類別),該研究創建了一個帶有思維鏈觸發短語(例如,「讓我們一步一步思考」)的變體,作為微調是否進行的另一個評估在 CoT 上啟用 zero-shot。除了上述 160 個零樣本輸入之外,研究中還包括 30 個用于測試少樣本能力的輸入,這些沒有指令微調的強語言模型已被證明在這些方面表現良好。
研究人員認為,指令微調和規模擴展均可以持續提升大語言模型性能,而微調對于推理能力至關重要,其還能泛化模型能力。通過指令微調與其他模型適應技術(例如 UL2R)結合,谷歌在這項工作中提出了最強模型 Flan-U-PaLM。
重要的是,指令微調并不像模型規模擴展一樣會大幅增加計算成本,例如對于 PaLM 540B,指令微調只需要 0.2% 的預訓練計算,但卻可以將跨評估基準的歸一化平均值提高 9.4%。使用指令微調的小型模型有時可以勝過沒有微調的大模型。
出于這些原因,研究人員建議對幾乎所有預訓練的語言模型都進行指令微調。
原文地址:http://www.myzaker.com/article/63541a748e9f090dee776cae