LLM 1.5-bit pada iPhone: Mengapa 'Cukai Perkakasan' Apple Adalah Gerbang Hasil, Bukan Kejuruteraan

A 7-billion parameter LLM, yang dikecilkan kepada 1.58 bit bagi setiap berat (weight), muat dengan selesa dalam 1.2 GB RAM. iPhone 12 mempunyai 4 GB. Kekangan yang disebut Apple — “Apple Intelligence memerlukan A17 Pro atau lebih baru” — adalah satu omong kosong kejuruteraan pada tahun 2026.

BitNet b1.58 (Microsoft Research, 2024) → Prestasi skala LLaMA pada 1/8 saiz model.
Recover-LoRA (Jun 2026) → Kuantisasi 2-bit memulihkan ketepatan penuh melalui fine-tuning low-rank.
Hybrid Gated Flow (Feb 2026) → Mengenal pasti “Dinding Memori” (Memory Wall) sebagai kekangan sebenar, bukan pengiraan (compute).
Langkah Apple: Menyekat Apple Intelligence pada iPhone 15 dan versi lebih lama. Memaksa 250 juta+ pengguna untuk menaik taraf demi mendapatkan pengalaman Siri pada peranti.
Status: Gerbang perkakasan adalah gerbang hasil. Kejuruteraan sudah bersedia. Pelaksanaan yang belum bersedia.

Versi 30-saat: apakah itu LLM “1.5-bit” #

Apabila LLM berjalan pada telefon anda, setiap “berat” — setiap sambungan dalam rangkaian neural — biasanya adalah nombor yang memerlukan 16 bit (2 byte) memori. Model dengan 7 bilion parameter, sebesar Meta LLaMA 2 7B, memakan sekitar 14 GB pada ketepatan 16-bit. Itulah sebabnya AI awan kekal di awan: tiada telefon yang mempunyai 14 GB kosong untuk satu model sahaja.

Kuantisasi mengecilkan setiap berat kepada bit yang lebih sedikit. Daripada 16-bit kepada 8-bit memotong memori separuh (7 GB). 4-bit memotong separuh lagi (3.5 GB). 2-bit membawanya kepada 1.75 GB. Reka bentuk BitNet b1.58 daripada Microsoft Research [The Era of 1-bit LLMs] adalah yang paling agresif: setiap berat adalah salah satu daripada tiga nilai — negatif satu, sifar, atau positif satu. Setiap berat mengambil kira 1.58 bit. Model 7B menjadi 1.2 GB.

Angka 1.2 GB itu adalah keseluruhan ceritanya. iPhone 12, yang dikeluarkan pada 2020, mempunyai 4 GB RAM. iPhone 13, 14, dan 15 milik Apple mempunyai 4–8 GB. Tiada telefon ini yang kekurangan keupayaan pengiraan untuk model 1.2 GB. Memori mencukupi. Pengiraan mencukupi. Neural Engine tidak menjadi jauh lebih baik antara A14 dan A17 untuk beban kerja ini — ia hanya menjadi lebih pantas secara berperingkat, bukan secara kategori.

Apa yang dikatakan oleh penyelidikan — dalam istilah mudah #

Tiga kertas kerja yang diterbitkan pada 2026 menetapkan bahawa 1.5-bit bukan lagi bersifat eksperimental.

[Hybrid Gated Flow] (Feb 2026) memberikan kenyataan paling jelas tentang realiti kejuruteraan: “Penggunaan Model Bahasa Besar (LLM) pada peranti edge secara asasnya dihadkan oleh ‘Dinding Memori’ — had perkakasan di mana jalur lebar memori, bukan pengiraan, menjadi kekangan.” Kertas kerja tersebut kemudian menunjukkan cara menggunakan LLM 1.58-bit pada perkakasan edge dengan pembetulan low-rank terpilih. Ia berfungsi.

[Recover-LoRA] (Jun 2026) menangani kebimbangan sejarah: apabila anda mengecilkan model secara agresif, ia kehilangan ketepatan. Kertas kerja tersebut menunjukkan bahawa kuantisasi 2-bit, dipadankan dengan fine-tune LoRA yang kecil selepas pemampatan, memulihkan ketepatan penuh. Pipelinnya adalah: ambil mana-mana model 7B → kuantisasi ke 2-bit → fine-tune adaptor LoRA kecil → hantar. Masalah ketepatan telah diselesaikan.

[Sparse-BitNet] (Mac 2026) menunjukkan bahawa model 1.58-bit dan sparsity (kelangsingan) boleh digabungkan — anda boleh memangkas 2 daripada setiap 4 berat kepada sifar dan format 1.58-bit memampatkan model dengan lebih lanjut tanpa latihan semula. Model 7B Sparse-BitNet muat dalam kira-kira 600 MB.

[BitNet Distillation] (Okt 2025) menyediakan pipelin produksi: alat “ringan” yang menukar model ketepatan penuh seperti Qwen kepada bentuk 1.58-bit. Apple sudah pun menggunakan Qwen dan Apple Foundation Model secara dalaman. Mereka boleh menjalankan penukaran ini hari ini.

Di luar stack akademik, [Litespark] (Mei 2026) menunjukkan rangkaian neural ternary berjalan pada CPU pengguna melalui kernel SIMD tersuai. [PD-Swap] (Dis 2025) menunjukkan Transformer 1.58-bit berjalan pada FPGA edge — cip dengan pengiraan yang jauh lebih rendah daripada iPhone Neural Engine. Jika FPGA berharga $20 (~RM 94) boleh melakukannya, iPhone 12 juga boleh.

Gerbang perkakasan, mengikut angka #

Peranti	Cip	RAM	Neural Engine TOPS	Tahun	Apple Intelligence?
iPhone 11	A13	4 GB	6 TOPS	2019	Tidak (iOS 18 telah menggugurkannya)
iPhone 12	A14	4 GB	11 TOPS	2020	Tidak
iPhone 13	A15	4 GB	15.8 TOPS	2021	Tidak
iPhone 14	A16	6 GB	17 TOPS	2022	Tidak
iPhone 15	A16	6 GB	17 TOPS	2023	Tidak
iPhone 15 Pro	A17 Pro	8 GB	35 TOPS	2023	Ya
iPhone 16	A18	8 GB	35 TOPS	2024	Ya
iPhone 16 Pro	A18 Pro	8 GB	35 TOPS	2024	Ya
iPhone 17 (khabar angin)	A19	8–12 GB	~45 TOPS	2025	Ya

Lini sempadan dilukis pada A17 Pro. Lompatan 2× TOPS daripada A16 (17) ke A17 Pro (35) adalah nyata tetapi tidak bersifat kategori. Kedua-duanya boleh menjalankan model 1.2 GB. RAM 8 GB vs 6 GB penting untuk KV cache semasa konteks panjang, tetapi varian BitNet Sparse (600 MB) meninggalkan lebih 5 GB ruang lega pada iPhone 14 dengan 6 GB.

Mengapa Apple melakukan ini anyway #

Tiga sebab, mengikut berat korporat:

Hasil. Kira-kira 250 juta iPhone dalam penggunaan aktif adalah A16 atau lebih lama, berdasarkan pendedahan pangkalan terpasang Apple dan anggaran penganalisis untuk kitaran 2025–2026. Jika walaupun 10% daripada pengguna tersebut menaik taraf untuk mendapatkan Apple Intelligence — ciri yang telah mereka dengar selama dua tahun — itu adalah 25 juta unit dengan harga jualan purata $900 (~RM 4,230), atau $22 bilion (~RM 103.4 bilion) hasil perkakasan. Gerbang kelayakan peranti iOS 27 adalah satu tuas tarikan $22 bilion, yang tersembunyi di dalam pelepasan ciri perisian.

Kunci ekosistem. Apple Intelligence berintegrasi dengan Photos, Mail, Messages, Notes, dan Siri. Sebaik sahaja anda memilikinya pada iPhone 15 Pro, anda membeli Mac dengan Apple Silicon untuk meneruskan pengalaman tersebut, AirPods yang dipadankan dengan lancar, dan Apple TV yang menjalankan lapisan kecerdasan yang sama. Gerbang perkakasan juga bertindak sebagai pemecut kunci: pengguna yang melangkauinya akan terkunci daripada fasa AI ekosistem Apple untuk 4–5 tahun akan datang.

Kawalan ke atas naratif AI. Apple tidak mahu pengguna menjalankan Qwen atau LLaMA 1.58-bit sumber terbuka secara tempatan — itu bersaing dengan Apple Intelligence, yang Apple jual (akhirnya) sebagai tahap langganan berbayar. Gerbang perkakasan memastikan pengalaman “AI pada iPhone” kekal berjenama Apple dan dikawal oleh Apple. Ini adalah sebahagian daripada logik Apple AI Safety walled-garden — semakin ketat gerbangnya, semakin sedikit permukaan AI alternatif yang perlu dipertahankan oleh Apple.

Apa maksud sebenar “Dinding Memori” #

Pembingkaian kertas kerja HGF adalah penting di sini. “Dinding Memori” adalah jurang antara kelajuan CPU boleh mengira dan kelajuan memori boleh membekalkan data kepada mereka. Untuk LLM 16-bit, jurang ini sangat besar: model itu terlalu besar untuk membekalkan data kepada cip dengan cukup pantas. Untuk model 1.58-bit, jurang itu runtuh: 1.2 GB muat dalam jalur lebar LPDDR5, Neural Engine boleh mengekalkan bekalan data, dan kekangan menjadi kependaman penjanaan token, bukan memori.

Neural Engine A14 boleh menjalankan model 1.58-bit. A13, cip dalam iPhone 11, boleh menjalankannya dengan lebih perlahan tetapi masih boleh menjalankannya. Jalur lebar memori, bukan pengiraan TOPS, adalah apa yang keluarga BitNet buka kunci. Dan iPhone 12 dan yang lebih baru mempunyai jalur lebar memori tersebut.

Laluan kejuruteraan yang boleh dihantar Apple hari ini #

Langkah	Apa	Mengapa
1	Ambil Apple Foundation Model (3B params)	Sudah dilatih, sudah dioptimumkan untuk perkakasan Apple
2	BitDistill kepada ketepatan 1.58-bit	Saiz model ~600 MB, muat dalam 4 GB RAM dengan ruang untuk KV cache
3	Tambah pemangkasan Sparse-BitNet	Turun kepada 300 MB, muat walaupun pada iPhone 11 dengan 3 GB
4	Fine-tune Recover-LoRA pada tugas Apple Intelligence	Memulihkan sebarang kehilangan kualiti daripada kuantisasi
5	Hantar sebagai kemas kini iOS 26.5 untuk iPhone 12+	Sokong model lama berbanding gerbang hadapan

Ini adalah projek kejuruteraan selama 4 bulan. Apple mempunyai penyelidik (pasukan Apple Foundation Model telah menerbitkan kerja inferens pada peranti), perkakasan (setiap iPhone 12 dan yang lebih baru), dan stack perisian (Core ML sudah menyokong model terkuantisasi 1-bit dan 2-bit melalui mlpackage). Sebab ia tidak berlaku bukanlah teknikal. Ia adalah komersial — dan kerjasama Apple yang semakin mendalam dengan Anthropic dalam Project Glasswing dan Mythos cybersecurity menunjukkan ke mana aliran pengiraan AI yang bukan pada peranti sepatutnya mengalir.

Apa maksudnya untuk kitaran iOS 27 #

Gerbang kelayakan peranti iOS 27 akan dibentangkan sebagai keperluan perkakasan. Keynote akan menyatakan Apple Intelligence “memerlukan Neural Engine dalam A17 Pro” atau kata-kata yang serupa. Keynote tersebut hanya boleh dipertahankan secara teknikal untuk ciri Apple Intelligence yang paling berat — penjanaan imej pada peranti, aliran ejen pelbagai langkah yang kompleks, dan terjemahan antara bahasa dengan skrip yang sangat berbeza.

Untuk sebahagian besar Apple Intelligence — bahagian yang merumuskan Mail, merangka balasan dalam Messages, menjana Genmoji, mengutamakan Pemberitahuan, dan Siri yang ditulis semula — gerbang perkakasan tidak diperlukan. Stack penyelidikan 1.58-bit / 2-bit / Sparse-BitNet membuktikannya. Pilihan Apple untuk menyekat ciri-ciri ini adalah keputusan perniagaan, bukan kejuruteraan. Pecahan keserasian peranti iOS 27 lengkap menjelaskan ciri Apple Intelligence mana yang sebenarnya dimungkinkan oleh gerbang A17 Pro+.

Pembingkaian yang jujur #

Apple mempunyai kejuruteraan tersebut. iPhone 12, peranti berusia enam tahun, boleh menjalankan Apple Intelligence pada tahun 2026 jika Apple memilih untuk menghantar model terkuantisasi. Pilihan untuk tidak menghantarnya adalah rasional dari sudut pandangan hasil, boleh dipertahankan dari sudut pandangan pemasaran, dan tidak jujur dari sudut pandangan komunikasi kejuruteraan. Menyebut gerbang hasil sebagai keperluan perkakasan, tanpa mengakui penyelidikan kuantisasi 1.5-bit yang menjadikannya tidak perlu, adalah satu pengabaian yang sengaja.

250 juta pengguna iPhone pada A16 dan lebih lama tidak disekat oleh telefon mereka. Mereka disekat oleh P&L Apple.

Sumber rujukan #

BitNet b1.58 — The Era of 1-bit LLMs (Ma et al., 2024) — Kertas kerja asas Microsoft Research.
Hybrid Gated Flow — Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction (Feb 2026) — Mengenal pasti Dinding Memori sebagai kekangan sebenar AI edge.
Recover-LoRA — Reclaiming Accuracy in 2-Bit Language Models (June 2026) — Penyelesaian kejuruteraan untuk kehilangan ketepatan 2-bit.
Sparse-BitNet — 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity (Mar 2026) — Pemampatan gabungan melalui pemangkasan.
BitNet Distillation — Lightweight Pipeline for 1.58-bit Fine-Tuning (Oct 2025) — Pipelin kuantisasi sedia produksi.
Litespark — Custom SIMD Kernels for Ternary Networks on Consumer CPUs (May 2026) — Bukti inferens 1.5-bit pada perkakasan biasa.
PD-Swap — 1.58-bit Transformers on Edge FPGAs (Dec 2025) — Perkakasan yang lebih murah pun boleh menjalankan 1.58-bit.