淺談ChatGPT

RobertWang

Apr 23, 2023

前言

在ChatGPT爆紅之前都只是耳聞AI，知其然不知其所以然，當然背後的知識量十分龐大，重點還是放在了解基本的原理。以下文章大部分為看了台大李宏毅教授的Youtube影片所整理的心得，講的深入淺出，推薦有興趣的人可以去觀看。

AI

1956年達特茅斯會議：AI的誕生，人工智慧其實就是用機器電腦去模擬人類智慧。

機器學習

機器學習是人工智慧的一種，深度學習則是機器學習的一種方法，機器學習翻成白話其實就是機器自動去找到一個函式，就像是丟一段輸入給ChatGPT，他也回應給你一段文字，同樣丟一段文字給Bing Creator，他則會對應給你圖片，以前有名的AlphaGo則是會給你下棋的位址。

以前的機器學習只能給你一個數值或是一個選項，舉例來說就是預測明天的降雨機率是多少，是給你一個選項就是判斷一封信是否為垃圾郵件。現在的機器學習從ChatGPT來看很明顯不只給你一個數值或選項，可以給你一段文字或是Bing給你一張圖片，這就稱為生成式的AI。

模型(Model)

ChatGPT是一個大型語言模型(LLM)，先介紹到底何謂模型，剛提到機器學習就是找到函式，多個函式的集合就式模型。從1950年代開始AI發展了這麼多年，為什麼直到最近才有明顯的突破性發展呢？個人覺得是因為隨著以前最熱門的雲端計算與大數據，算力的提升以及越來越多的資料量可以拿來訓練AI，帶動了AI的發展。

大模型與大資料會讓模型的錯誤率下降。

上面圖片的縱軸代表錯誤率，橫軸則是資料量。可以看出錯誤率會越來越低。

大模型的頓悟現象

當資料量大到一個地步，模型的正確率會突然大幅度提升，原因是模型增加的圖中，雖然結果越來越趨於正確，但是在怎麼接近正確也還是錯，所以小模型可能錯的居多，中模型可能對了一半但還是錯，大模型就都正確了，所以看起來就像是一種頓悟的現象。

ChatGPT

ChatGPT是一個大型語言模型，他並不是像以前可能是一些罐頭回應的AI或是在網路上隨便複製一段話給你，他其實就是語言接龍模型，上面有提到模型就是多個函數的集合，函數自然會有一些參數，而GPT這個model就有高達一千七百五十億的參數，真是難以想像的數字。所謂文字接龍其實就是他會不斷地遞迴找出機率分布最高的一個字來回答，所以從此可以知道為什麼他的數學偶爾會出錯，因為它並不是真的會算數學，他只是找一個機率分布給你，並不是他所擅長的事情。

我個人最常用來中英翻譯，效果非常好，或是寫程式的後變數的命名，從此不用苦惱要如何命名變數或是方法名稱。

Token

在自然語言處理和人工智能中，token是一種基本的單位，代表著一個文本序列中的單詞、標點符號或其他類型的符號。在ChatGPT中，token通常是指一個單詞或一個字符，它是ChatGPT用來處理和理解自然語言的基本單位。粗略的估計 1 token 接近 4 英文字母或 0.75 英文單字，中文比英文多兩倍，一個中文大約有8個token，也就是說輸入的文字會先被轉換為tokens再進行分析，讓系統更好地理解並回應輸入．

tokenizer 可以看出一段句子大概多少，”你好，請問“有禮貌一點的句子開頭就使用了13 tokens，ChatGPT的收費也是根據Token來收費的。

Prompt

大型語言模型有兩種，一種是專才，專門處理某個特定領域的問題，另一種則是ChatGPT這樣的通才，而要把通才用的好就是靠提詞(Prompt)，俗話稱為詠唱，這篇提示工程有一些蠻不錯的說明跟介紹。