← 返回作品集

AI 即時翻譯耳機系統

混合邊緣-行動運算架構的多語言即時翻譯解決方案

邊緣運算 人工智慧 ONNX Runtime 語音識別 機器翻譯 語音合成 Raspberry Pi iOS/Android 離線處理

專案概述

本系統是一套創新的硬體-軟體整合方案,透過混合邊緣-行動運算架構實現即時多語言翻譯。系統結合 Raspberry Pi Zero 2W 邊緣裝置與 iOS/Android 智慧型手機,將輕量級語音偵測部署於邊緣端,而 AI 模型推論則在行動裝置上執行,達成低延遲、離線運行的翻譯體驗。

核心價值:透過創新的邊緣-行動混合架構,在保持高品質翻譯的同時,實現完全離線運行與極低延遲,打破傳統翻譯裝置對網路的依賴。
100+
支援語言
<1.5s
端對端延遲
60%
效能提升
100%
離線運行

系統架構

混合邊緣-行動運算模型

系統採用革命性的分散式處理架構,將運算任務智慧分配:

Pi Zero 2W(邊緣裝置)

  • Silero VAD:語音活動偵測,僅 <20MB 記憶體
  • 音訊處理:48kHz 即時音訊輸入/輸出
  • USB 複合裝置:UART + USB Audio 雙功能
  • WiFi 通訊:WebSocket 串流傳輸
  • 記憶體使用:<100MB(512MB 總量)

行動裝置(AI 處理中心)

  • Whisper ASR:語音轉文字,0.4-1.0s
  • M2M100 翻譯:100+ 語言,80-200ms
  • Piper TTS:文字轉語音,120-350ms
  • ONNX Runtime:量化模型加速
  • 硬體加速:Neural Engine / NNAPI

翻譯處理流程

語音輸入

48kHz 麥克風

VAD 偵測

Silero 語音分段

WiFi 傳輸

WebSocket 串流

語音識別

Whisper ASR

機器翻譯

M2M100 模型

語音合成

Piper TTS

音訊播放

耳機輸出

兩階段通訊協定

UART 設定階段

透過 USB 連接進行 WiFi 設定、語言選擇與系統配置,確保初始化的可靠性

WiFi 運行階段

WebSocket 即時串流音訊與 AI 結果,實現低延遲的雙向通訊

核心功能

完全離線處理

所有 AI 推論皆在本地執行,無需雲端 API,保護隱私且無網路限制

100+ 語言支援

M2M100 多語言模型支援超過 100 種語言的直接翻譯

即時語音偵測

Silero VAD 精準偵測語音活動,自動分段並觸發翻譯流程

硬體加速推論

iOS Neural Engine、Android NNAPI 加速,提升 60% 效能

模組化安裝系統

8 階段視覺化安裝流程,彩色進度指示與錯誤處理

跨平台一致性

iOS 與 Android 共用相同 ONNX 量化模型,確保翻譯品質一致

USB 複合裝置

UAC2(音訊)+ ACM(序列埠)雙功能,靈活的連接方式

Material Design 3

現代化 UI 設計,企業品牌整合,直覺操作體驗

效能指標

iOS 平台(Neural Engine 加速)

處理階段 處理時間 效能提升
Whisper ASR 0.4-0.8 秒 60%(vs Core ML)
M2M100 翻譯 80-150 ms 65%
Piper TTS 120-300 ms 60%
端對端總計 ~0.8-1.3 秒 -

Android 平台(NNAPI 加速)

處理階段 處理時間 效能提升
Whisper ASR 0.6-1.0 秒 60%(vs TensorFlow)
M2M100 翻譯 100-200 ms 60%
Piper TTS 160-350 ms 60%
端對端總計 ~1-2 秒 -

模型優化成效

50-70%
模型大小縮減
40-50%
記憶體使用縮減
3-5x
模型載入加速
60%
推論延遲降低

技術棧

Pi Zero 2W(邊緣裝置)

Python 3 PyTorch Silero VAD WebSocket ALSA SystemD

核心模組:sounddevice、numpy、scipy、pyserial、gpiozero、RPi.GPIO

Android 應用

Kotlin 1.9 Jetpack Compose Material Design 3 ONNX Runtime Hilt DI Coroutines

目標平台:Android 7.0+(API 24)至 Android 14(API 34)

iOS 應用

Swift 5.9 SwiftUI ONNX Runtime External Accessory Network Framework Core Audio

目標平台:iOS 15+

AI 模型

Whisper ASR M2M100 Piper TTS ONNX 量化

系統模組

邊緣裝置模組

translator_headset.py

主要翻譯耳機功能,整合所有子模組的核心邏輯

communication_manager.py

雙階段通訊協調器,管理 UART 設定與 WiFi 運行切換

audio_manager.py

48kHz 即時音訊處理,麥克風輸入與喇叭輸出管理

vad_silero.py

Silero VAD 語音活動偵測,精準語音分段觸發

行動應用模組

AIProcessorManager

統一 AI 處理管線,協調 ASR、翻譯、TTS 三階段處理

ONNXModelLoader

ONNX 模型管理,支援 NNAPI/Neural Engine 硬體加速

UARTConnectionManager

USB 序列通訊管理,處理設備配對與設定傳輸

WhisperASRProcessor

語音識別處理器,將語音轉換為文字輸入

創新特點

專案價值

技術創新

商業價值

技術亮點:本專案展示了如何將先進 AI 模型部署於資源受限的行動裝置,透過創新的混合架構設計,在維持高品質翻譯的同時實現即時響應與離線運行。

開發狀態

已完成

規劃中