3月 15, 2026

AI底層原理：從機器學習到深度學習完整解析

隨著人工智慧（AI）技術快速發展，像是 ChatGPT、影像辨識、語音助理、自動駕駛 等應用已經深入我們的生活。但很多人仍然好奇：

AI 到底是怎麼「學習」的？
深度學習（Deep Learning）又是什麼？

這篇文章將從 AI 的基礎架構開始，一步步解析 深度學習的底層原理。

一、AI 技術架構

AI 其實是一個很大的概念，通常分成三個層次：


人工智慧 (AI)
    │
    ├── 機器學習 (Machine Learning)
    │        │
    │        ├── 監督式學習
    │        ├── 非監督式學習
    │        └── 強化學習
    │
    └── 深度學習 (Deep Learning)
             │
             ├── 神經網路 (Neural Network)
             ├── CNN
             ├── RNN
             └── Transformer

簡單理解：

技術	說明
AI (Artificial Intelligence)	模擬人類智慧，使電腦可以進行思考、推理與決策
Machine Learning	讓電腦從資料中自動學習規律，而不需要明確寫出所有規則
Deep Learning	利用多層神經網路來進行學習，能處理更複雜的資料與模式

二、機器學習的基本概念

機器學習的核心目標是：

讓電腦從資料中找到規律

例如：

輸入資料


房屋大小 -> 房價

透過大量資料訓練模型後：


模型可以預測未知房屋價格

常見機器學習方式：

1 監督式學習 (Supervised Learning)

資料有標籤

例如：

圖片	標籤
貓圖片	貓
狗圖片	狗

模型會學習如何辨識。

2 非監督式學習 (Unsupervised Learning)

資料 沒有標籤

例如：


將客戶分群

常見技術：

K-Means
Clustering
PCA

3 強化學習 (Reinforcement Learning)

透過 獎勵機制學習

例如：

AlphaGo
自動駕駛
機器人控制

三、深度學習的核心概念

深度學習的核心是：

人工神經網路 (Artificial Neural Network)

概念來自 人類大腦神經元。

四、神經網路結構

神經網路通常包含三個部分：


輸入層 (Input Layer)
      │
隱藏層 (Hidden Layer)
      │
輸出層 (Output Layer)

範例：


輸入層
x1 x2 x3

   ↓

隱藏層
o o o o

   ↓

輸出層
結果

每一個神經元都會做一件事情：


加權計算

公式：


y = w1x1 + w2x2 + w3x3 + b

其中：

參數	說明
w (Weight)	權重，用來決定每個輸入特徵對輸出結果的影響程度
b (Bias)	偏差，用來調整模型輸出的基準值，使模型更靈活
x (Input)	輸入資料，例如影像像素、文字向量或數值特徵

五、Activation Function（激活函數）

神經網路會使用 Activation Function 來增加非線性能力。

常見函數：

函數	說明
Sigmoid	輸出範圍在 0 到 1 之間，常用於二元分類問題
Tanh	輸出範圍在 -1 到 1 之間，通常比 Sigmoid 收斂速度更快
ReLU (Rectified Linear Unit)	目前深度學習最常用的激活函數，計算速度快並減少梯度消失問題

ReLU 公式：


f(x) = max(0, x)

優點：

計算快
梯度消失問題較少

六、深度學習訓練流程

深度學習訓練流程如下：


資料輸入
   ↓
Forward Propagation
   ↓
計算 Loss
   ↓
Backpropagation
   ↓
更新權重

Forward Propagation

資料從 輸入層 → 輸出層

計算預測值。

Loss Function

計算 預測誤差

常見：

Loss Function	用途
MSE (Mean Squared Error)	常用於回歸問題，例如房價預測或數值預測
Cross Entropy	常用於分類問題，例如影像分類、文本分類

Backpropagation（反向傳播）

透過 梯度下降（Gradient Descent） 更新權重。

公式概念：


w = w - learning_rate * gradient

七、深度學習常見模型

深度學習有許多不同架構：

模型	用途
CNN (Convolutional Neural Network)	影像辨識、物件偵測、醫療影像分析
RNN (Recurrent Neural Network)	處理時序資料，例如語音辨識、語言模型、股票預測
LSTM (Long Short-Term Memory)	改進RNN的長期記憶能力，適用於長序列資料
Transformer	NLP與大型語言模型，例如GPT、BERT、語言翻譯

CNN（卷積神經網路）

主要用於：

影像辨識
物件偵測

例如：

人臉辨識
醫療影像

RNN（循環神經網路）

適合 序列資料

例如：

語音
股票預測
語言模型

Transformer

目前 AI 的主流架構。

例如：

GPT
BERT
LLaMA

核心技術：


Self Attention

讓模型能夠理解句子上下文。

八、深度學習訓練的挑戰

深度學習雖然強大，但也存在許多問題：

1 資料需求大

通常需要：


數萬 ~ 數百萬資料

2 訓練成本高

需要 GPU / TPU

例如：

NVIDIA GPU
Google TPU

3 模型可解釋性低

深度學習常被稱為：


Black Box

因為難以解釋模型決策。

九、AI 深度學習未來趨勢

未來 AI 技術將朝幾個方向發展：

1 大型語言模型 (LLM)

例如：

GPT
Claude
Gemini

2 Multimodal AI

AI 可以同時理解：


文字
圖片
聲音
影片

3 Edge AI

AI 直接在設備端運算：

手機
IoT
車輛

4 AI Agent

AI 可以自動完成任務：

例如：

自動寫程式
自動做研究
自動操作系統

十、總結

深度學習是目前 AI 發展的核心技術，其本質是：

透過多層神經網路從大量資料中學習模式。

整體流程：


資料
 ↓
神經網路
 ↓
訓練 (Backpropagation)
 ↓
模型
 ↓
預測

隨著算力與資料持續增加，深度學習將持續推動：

AI
自動化
智慧決策

未來 AI 的影響力只會越來越大。

搜尋此網誌

jeff的blog