本系統是一套創新的硬體-軟體整合方案,透過混合邊緣-行動運算架構實現即時多語言翻譯。系統結合 Raspberry Pi Zero 2W 邊緣裝置與 iOS/Android 智慧型手機,將輕量級語音偵測部署於邊緣端,而 AI 模型推論則在行動裝置上執行,達成低延遲、離線運行的翻譯體驗。
系統採用革命性的分散式處理架構,將運算任務智慧分配:
48kHz 麥克風
Silero 語音分段
WebSocket 串流
Whisper ASR
M2M100 模型
Piper TTS
耳機輸出
透過 USB 連接進行 WiFi 設定、語言選擇與系統配置,確保初始化的可靠性
WebSocket 即時串流音訊與 AI 結果,實現低延遲的雙向通訊
所有 AI 推論皆在本地執行,無需雲端 API,保護隱私且無網路限制
M2M100 多語言模型支援超過 100 種語言的直接翻譯
Silero VAD 精準偵測語音活動,自動分段並觸發翻譯流程
iOS Neural Engine、Android NNAPI 加速,提升 60% 效能
8 階段視覺化安裝流程,彩色進度指示與錯誤處理
iOS 與 Android 共用相同 ONNX 量化模型,確保翻譯品質一致
UAC2(音訊)+ ACM(序列埠)雙功能,靈活的連接方式
現代化 UI 設計,企業品牌整合,直覺操作體驗
| 處理階段 | 處理時間 | 效能提升 |
|---|---|---|
| Whisper ASR | 0.4-0.8 秒 | 60%(vs Core ML) |
| M2M100 翻譯 | 80-150 ms | 65% |
| Piper TTS | 120-300 ms | 60% |
| 端對端總計 | ~0.8-1.3 秒 | - |
| 處理階段 | 處理時間 | 效能提升 |
|---|---|---|
| Whisper ASR | 0.6-1.0 秒 | 60%(vs TensorFlow) |
| M2M100 翻譯 | 100-200 ms | 60% |
| Piper TTS | 160-350 ms | 60% |
| 端對端總計 | ~1-2 秒 | - |
核心模組:sounddevice、numpy、scipy、pyserial、gpiozero、RPi.GPIO
目標平台:Android 7.0+(API 24)至 Android 14(API 34)
目標平台:iOS 15+
主要翻譯耳機功能,整合所有子模組的核心邏輯
雙階段通訊協調器,管理 UART 設定與 WiFi 運行切換
48kHz 即時音訊處理,麥克風輸入與喇叭輸出管理
Silero VAD 語音活動偵測,精準語音分段觸發
統一 AI 處理管線,協調 ASR、翻譯、TTS 三階段處理
ONNX 模型管理,支援 NNAPI/Neural Engine 硬體加速
USB 序列通訊管理,處理設備配對與設定傳輸
語音識別處理器,將語音轉換為文字輸入