AI底層原理:從機器學習到深度學習完整解析
隨著人工智慧(AI)技術快速發展,像是 ChatGPT、影像辨識、語音助理、自動駕駛 等應用已經深入我們的生活。但很多人仍然好奇:
AI 到底是怎麼「學習」的?
深度學習(Deep Learning)又是什麼?
這篇文章將從 AI 的基礎架構開始,一步步解析 深度學習的底層原理。
一、AI 技術架構
AI 其實是一個很大的概念,通常分成三個層次:
人工智慧 (AI)
│
├── 機器學習 (Machine Learning)
│ │
│ ├── 監督式學習
│ ├── 非監督式學習
│ └── 強化學習
│
└── 深度學習 (Deep Learning)
│
├── 神經網路 (Neural Network)
├── CNN
├── RNN
└── Transformer
簡單理解:
| 技術 | 說明 |
|---|---|
| AI (Artificial Intelligence) | 模擬人類智慧,使電腦可以進行思考、推理與決策 |
| Machine Learning | 讓電腦從資料中自動學習規律,而不需要明確寫出所有規則 |
| Deep Learning | 利用多層神經網路來進行學習,能處理更複雜的資料與模式 |
二、機器學習的基本概念
機器學習的核心目標是:
讓電腦從資料中找到規律
例如:
輸入資料
房屋大小 -> 房價
透過大量資料訓練模型後:
模型可以預測未知房屋價格
常見機器學習方式:
1 監督式學習 (Supervised Learning)
資料有 標籤
例如:
| 圖片 | 標籤 |
|---|---|
| 貓圖片 | 貓 |
| 狗圖片 | 狗 |
模型會學習如何辨識。
2 非監督式學習 (Unsupervised Learning)
資料 沒有標籤
例如:
將客戶分群
常見技術:
-
K-Means
-
Clustering
-
PCA
3 強化學習 (Reinforcement Learning)
透過 獎勵機制學習
例如:
-
AlphaGo
-
自動駕駛
-
機器人控制
三、深度學習的核心概念
深度學習的核心是:
人工神經網路 (Artificial Neural Network)
概念來自 人類大腦神經元。
四、神經網路結構
神經網路通常包含三個部分:
輸入層 (Input Layer)
│
隱藏層 (Hidden Layer)
│
輸出層 (Output Layer)
範例:
輸入層
x1 x2 x3
↓
隱藏層
o o o o
↓
輸出層
結果
每一個神經元都會做一件事情:
加權計算
公式:
y = w1x1 + w2x2 + w3x3 + b
其中:
| 參數 | 說明 |
|---|---|
| w (Weight) | 權重,用來決定每個輸入特徵對輸出結果的影響程度 |
| b (Bias) | 偏差,用來調整模型輸出的基準值,使模型更靈活 |
| x (Input) | 輸入資料,例如影像像素、文字向量或數值特徵 |
五、Activation Function(激活函數)
神經網路會使用 Activation Function 來增加非線性能力。
常見函數:
| 函數 | 說明 |
|---|---|
| Sigmoid | 輸出範圍在 0 到 1 之間,常用於二元分類問題 |
| Tanh | 輸出範圍在 -1 到 1 之間,通常比 Sigmoid 收斂速度更快 |
| ReLU (Rectified Linear Unit) | 目前深度學習最常用的激活函數,計算速度快並減少梯度消失問題 |
ReLU 公式:
f(x) = max(0, x)
優點:
-
計算快
-
梯度消失問題較少
六、深度學習訓練流程
深度學習訓練流程如下:
資料輸入
↓
Forward Propagation
↓
計算 Loss
↓
Backpropagation
↓
更新權重
Forward Propagation
資料從 輸入層 → 輸出層
計算預測值。
Loss Function
計算 預測誤差
常見:
| Loss Function | 用途 |
|---|---|
| MSE (Mean Squared Error) | 常用於回歸問題,例如房價預測或數值預測 |
| Cross Entropy | 常用於分類問題,例如影像分類、文本分類 |
Backpropagation(反向傳播)
透過 梯度下降(Gradient Descent) 更新權重。
公式概念:
w = w - learning_rate * gradient
七、深度學習常見模型
深度學習有許多不同架構:
| 模型 | 用途 |
|---|---|
| CNN (Convolutional Neural Network) | 影像辨識、物件偵測、醫療影像分析 |
| RNN (Recurrent Neural Network) | 處理時序資料,例如語音辨識、語言模型、股票預測 |
| LSTM (Long Short-Term Memory) | 改進RNN的長期記憶能力,適用於長序列資料 |
| Transformer | NLP與大型語言模型,例如GPT、BERT、語言翻譯 |
CNN(卷積神經網路)
主要用於:
-
影像辨識
-
物件偵測
例如:
-
人臉辨識
-
醫療影像
RNN(循環神經網路)
適合 序列資料
例如:
-
語音
-
股票預測
-
語言模型
Transformer
目前 AI 的主流架構。
例如:
-
GPT
-
BERT
-
LLaMA
核心技術:
Self Attention
讓模型能夠理解句子上下文。
八、深度學習訓練的挑戰
深度學習雖然強大,但也存在許多問題:
1 資料需求大
通常需要:
數萬 ~ 數百萬資料
2 訓練成本高
需要 GPU / TPU
例如:
-
NVIDIA GPU
-
Google TPU
3 模型可解釋性低
深度學習常被稱為:
Black Box
因為難以解釋模型決策。
九、AI 深度學習未來趨勢
未來 AI 技術將朝幾個方向發展:
1 大型語言模型 (LLM)
例如:
-
GPT
-
Claude
-
Gemini
2 Multimodal AI
AI 可以同時理解:
文字
圖片
聲音
影片
3 Edge AI
AI 直接在設備端運算:
-
手機
-
IoT
-
車輛
4 AI Agent
AI 可以自動完成任務:
例如:
-
自動寫程式
-
自動做研究
-
自動操作系統
十、總結
深度學習是目前 AI 發展的核心技術,其本質是:
透過多層神經網路從大量資料中學習模式。
整體流程:
資料
↓
神經網路
↓
訓練 (Backpropagation)
↓
模型
↓
預測
隨著算力與資料持續增加,深度學習將持續推動:
-
AI
-
自動化
-
智慧決策
未來 AI 的影響力只會越來越大。
留言
張貼留言