Google TPU：從「內部神器」變成撼動 NVDA 的 AI 武器？

Google TPU 是 Google 自家為 AI 打造的專用加速晶片，從早期只在內部服務使用，到今天變成雲端產品與獨立 AI 晶片業務，正在改變整個 AI 基礎設施的遊戲規則。在這個過程中，TPU 一邊幫 Google 降低自家 AI 成本，一邊直接走向外部銷售與雲端供貨，對目前在 AI 晶片幾乎壟斷的 Nvidia 形成實質的長期威脅，同時也可能讓未來 AI 產品「更便宜、更省電、更 everywhere」。

什麼是 TPU？為何 Google 要自己做晶片？

TPU（Tensor Processing Unit）不是一般通用 GPU，而是針對矩陣乘法、向量運算這種深度學習核心工作負載設計的 ASIC 晶片，特別對現在的 Transformer、Llama、Gemini 類模型極度友善。早年 TPU 主要藏在 Google 的資料中心裡，默默幫 Search、YouTube、廣告推薦系統加速，外界只看到「Google AI 很強」，卻看不到背後的硬體差異；到了這幾年，Google 開始開放 Cloud TPU 給企業客戶使用，並在 2025 年之後，把最新一代 TPU 產品線（如 Trillium、Ironwood / TPU v7）推向更大規模的雲端市場，甚至計畫讓客戶在自己的 data center 直接部署。

從 v1 到 Ironwood：專門為 LLM 時代而生

如果把 TPU 的演進拉長來看，它其實是一條很「Google 風格」的路線：

2016：TPU v1，只做推理，用在內部產品。
2017–2020：TPU v2 / v3 / v4，引入訓練、Pod 架構與液冷，大幅增加規模與能效。
之後：v5e/v5p、Trillium，開始強調「perf/W」和大規模分散式訓練。

2025 年的主角，是代號 Ironwood 的第七代 TPU，也就是 TPU v7。Ironwood 針對「推理時代」（age of inference）設計，重點不再只是訓練，而是讓超大型 LLM 和推理模型在超大規模下「既快又省電」地跑起來。單顆 Ironwood TPU 擁有數 PetaFLOPS 等級的 FP8 算力、超過百 GB HBM 記憶體和極高頻寬，官方提供的 Pod 配置更是誇張：最多可以堆到 9,216 顆晶片，整體 compute 相當於一台專門為生成式 AI 打造的超級電腦。這樣的設計，目標很直接：為 Gemini 2.5 這類超大模型提供穩定的訓練與推理平台，同時讓外部客戶可以在 Google Cloud 上以「超高密度＋液冷」的方式啟動 AI 工作負載，而不用自己鑽研硬體調教細節。

能效與碳排：AI 擴張的隱形關鍵

Ironwood 的另一個關鍵，是能效與碳排。Google 在 2025 年釋出的研究指出，從 TPU v4 演進到第六代 Trillium，AI 工作負載的「碳效率」已經提升約 3 倍，也就是同樣的計算量、碳排可以被壓到原本的三分之一左右。在此基礎上，Ironwood 再把每瓦效能相對上一代進一步提升，等於短短幾代之間，整體 perf/W 疊加的效果非常驚人，對那些在意 ESG、需要大規模跑 LLM 的客戶來說，這種能效提升直接代表電費、碳足跡和「能不能說服董事會繼續擴張 AI 預算」的現實問題。從更宏觀的角度看，當主流 AI 晶片變得更省電、更容易吃到綠電時，政府與監管機構對大規模 AI 計畫的態度也會比較友善，反過來推動 AI 應用加速落地。

TPU vs GPU：不只是一場規格戰

相比之下，GPU 世界仍然是 Nvidia 的天下。Nvidia 透過 CUDA 生態及早押注 AI，形成軟硬體深度綁定，讓多數 AI 團隊的第一選擇仍然是「買 GPU、寫 CUDA 或跑在相容框架上」，這種早期優勢，造就了現今其在 AI GPU 市場非常高的市占率。但隨著 Ironwood 這種高階 TPU 在性能與能效上逐步接近，甚至在特定場景超越 Nvidia 最新 Blackwell GPU，不少分析開始把 Google TPU 視為「在 AI ASIC 領域可以與 Nvidia 分庭抗禮」的主要對手，尤其是在雲端推理和內部服務上。

從生意模式來看，TPU 對 Nvidia 的殺傷力，很大一部分在「包裝方式」，而不只是在「晶片規格」。Nvidia 的核心模式，是賣 GPU（加上軟體授權和平台服務），由雲端供應商和企業自己搭建服務；Google 則把 TPU 深度整合進 Cloud 產品，變成「AI Hypercomputer」、「Gemini API」這種一站式方案，客戶其實買的是一整套 compute＋storage＋network＋模型＋工具鏈，而不是單純一片卡。當 Google 可用 Ironwood 把自家服務成本壓得更低，再將這種成本優勢透過雲端價格和 bundle 方案釋放給客戶，Nvidia 在雲端市場就會感受到壓力：即使 TPU 尚未完全取代 GPU，只要在推理階段搶下部分工作負載，對 Nvidia 的長期成長曲線就是一種「邊際擠壓」。

Google 從大客戶變成競爭對手

更敏感的是角色轉變：Google 不再只是 Nvidia 的最大客戶之一，而是積極想要「吃回」這塊利潤。有報導指出，Google 內部設定的目標，是藉由擴大 TPU 採用，有機會搶走 Nvidia 每年 AI 晶片營收的一部分，這已經不只是戰略備援，而是實打實的收入競爭。近期更有消息稱，Google 正與其他大型科技公司（例如雲端與社交平台巨頭）洽談 TPU 合作，甚至可能讓對方直接採用 TPU 來替代部分 Nvidia GPU 需求，市場解讀也因此出現「Nvidia 最強對手其實是 Google」的說法。[3][16][17][18]

同時，Google 也不再滿足於只在自家雲裡租出 TPU，而是開始談把 TPU 放進別人的資料中心。部分消息指，Google 願意與資料中心營運商簽訂多年的保底合約，確保對方不會因為「怕沒客戶」而不敢壓注 TPU，這本質上就是在複製過去 Nvidia 與超大規模客戶的捆綁策略，甚至反攻對方的主場。如果這種「外放 TPU」模式成功，未來企業在考慮 AI 基礎設施時，選項就不再只是「買 Nvidia 卡＋自己搭」，還可能是「與 Google 合作，拿一整櫃 TPU＋軟體堆疊＋長期價保」，供應鏈的談判權力分配會跟現在非常不一樣。

對 AI 發展本身的長期影響

那這對 AI 發展本身意味著什麼？第一，計算成本曲線會被壓低，特別是推理成本。Ironwood 這類 TPU 在 perf/W 上的提升，再搭配 vLLM、Pathways 等軟體優化，Google 對外宣稱在許多 LLM 推理場景中可以提供更高的性價比，這對想要把「AI 功能塞進每一個產品角落」的團隊來說，是很關鍵的條件。當每一千次 query 的成本變得更接近「一杯咖啡的零頭」，產品設計思維會從「小心用、少用」變成「預設永遠 on、所有流程都可以問一下 AI」，這就是 agent、copilot 類應用大量湧現的基礎。

第二，能效與碳排的優化，讓 AI 更有機會長期以巨大規模運作而不被「能源與環境壓力」快速卡死。Google 的研究指出，TPU 在短短兩代內把 AI 工作負載的碳效率拉高約三倍，且營運用電占整體壽命週期碳排的大頭，這也意味著「硬體能效＋清潔能源」，會是 AI 擴張能否可持續的核心組合。當雲端供應商可以拿出這樣的數據向客戶與監管機構說明「我們每一單位算力的碳排在下降」，大型政府案、金融機構與跨國企業導入 AI 的阻力就會小得多，推進更多 real-world use cases 落地。

第三，生態將更加分裂但也更加專業化：Nvidia 會繼續主導通用 GPU＋CUDA 開發者生態，而 Google TPU 則在 Google Cloud、部分合作資料中心以及自家產品線內打造一個「高度整合、成本極優」的平行宇宙，同時 AWS 的 Trainium / Inferentia 也在推自己的路線。對開發者與企業來說，未來很可能是多平台共存：用 Nvidia GPU 訓練模型、用 TPU 或其他 ASIC 做大規模推理，甚至按照應用場景在不同雲之間調度，這種「多元 AI 硬體組合拳」會成為常態。結果是：AI 的創新速度可能更快，因為硬體層在互相競爭壓價，但同時，工程團隊也必須學會在不同平台之間做抽象層，避免被任何一個供應商過度鎖定。

對投資者來說，Google TPU 的崛起並不等於 Nvidia 會立刻失寵。短期內，Nvidia 仍然享受高毛利、高需求與強烈生態黏著度，TPU 更像是一個「慢慢啃掉邊緣市場」的對手，而非一槍斃命的殺手。但長期來說，當 Google、AWS 甚至其他雲端和大客戶陸續推自己的專用 AI 晶片，Nvidia 的議價能力與市占率若逐年被稀釋，估值也需要反映一個「不再是唯一選擇」的世界。在這個新格局下，TPU 代表的，是一條更節能、更雲端原生、更多樣化競爭的 AI 發展道路，而這條路，已經走在成形的途中。

無限科技實驗室

搜尋此網誌

從提示詞到正式上線：為什麼「框架工程師 (Harness Engineer)」是 2026 年最重要的 AI 職位