将语音识别文本转化为G-code或坐标路径的完整实现指南

日期：2026-01-18 00:00 / 作者：花韻仙語

本文详解如何将whisper.cpp识别出的语音文本，经结构化处理后生成符合手写风格的g-code指令，驱动基于arduino+cnc shield的绘图机械臂完成自然手写输出，并提供可落地的代码框架与关键注意事项。

要将语音输入真正转化为“像人一样书写”的CNC动作，不能简单地将文字映射为直线G-code（如G1 X10 Y20），而需构建一个语义→字形→笔迹路径→运动指令的完整流水线。以下是分步实现方案：

一、语音识别后文本的规范化处理

使用 Whisper.cpp 得到原始文本后，首先需清洗与分段：

移除标点歧义（如将“hello！”统一为“hello”）；
按语义单元切分（句号/换行符分割为独立书写段落）；
统一编码与空格（避免全角/半角混用导致字体渲染异常）。

import re

def clean_text(text: str) -> list:
    # 去除多余空白、标准化标点、按句拆分
    text = re.sub(r'[^\w\s\.\!\?\,]', ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    sentences = [s.strip() for s in re.split(r'(?<=[.!?])\s+', text) if s.strip()]
    return sentences

# 示例
raw = "Hello! How are you? I'm fine."
sentences = clean_text(raw)  # ['Hello!', 'How are you?', "I'm fine."]

二、手写字体建模：从字符到坐标路径

核心难点在于模拟手写动态特征（连笔、压力变化、轻微抖动）。推荐采用以下轻量级策略：

使用开源手写字体库（如 fonttools + noto-handwriting 字体）提取每个字符的SVG轮廓；
将SVG路径转为逐点坐标序列（采样间隔 0.1–0.3 mm），并叠加高斯噪声模拟运笔微颤；
对相邻字符间添加“提笔-移动-落笔”过渡（G0快速定位 + G1 F500慢速书写）。

✅ 实践建议：优先选用 Handwriting.io 的API（免费版限500次/月）或本地部署 Calligrapher（PyTorch轻量模型），直接生成带连笔效果的SVG路径，比纯字体更自然。

三、生成兼容Arduino/CNC Shield的G-code

你的硬件栈（A4988 + CNC Shield V3 + Arduino UNO）默认支持标准GRBL协议。生成G-code时须遵守：

单位设为毫米（G21）；
绝对坐标模式（G90）；
笔伺服控制用M3（下笔）/M5（抬笔），需在Arduino固件中映射至对应引脚（如SERVO_PIN=11）；
速度分层：移动用F2000，书写用F300–F600以保精度。

; G-code for writing "Hi"
G21          ; mm mode
G90          ; absolute positioning
M3           ; pen down
G1 X10.0 Y25.0 F400
G1 X15.0 Y45.0
G1 X10.0 Y65.0
M5           ; pen up
G0 X20.0 Y25.0 F2000  ; fast move to next char
M3
G1 X25.0 Y25.0 F400
G1 X35.0 Y45.0
G1 X25.0 Y65.0
...

四、端到端整合流程（Python主控脚本）

from whisper_cpp import Whisper
import gcode_generator  # 自定义模块：SVG→G-code
import serial

def speech_to_handwriting(audio_path: str, output_gcode: str):
    # Step 1: Speech → Text
    whisper = Whisper("models/ggml-base.bin")
    result = whisper.transcribe(audio_path)
    sentences = clean_text(result["text"])

    # Step 2: Text → SVG paths (via Calligrapher or font-based renderer)
    svg_paths = render_handwritten_svg(sentences, font="NotoHandwriting-Regular.ttf")

    # Step 3: SVG → G-code with pen control logic
    gcode = gcode_generator.from_svg(svg_paths, 
                                     feedrate_write=400,
                                     feedrate_travel=2000,
                                     servo_down_cmd="M3",
                                     servo_up_cmd="M5")

    # Step 4: Save & send to Arduino
    with open(output_gcode, "w") as f:
        f.write(gcode)

    # Optional: stream directly via serial
    ser = serial.Serial("/dev/ttyACM0", 115200, timeout=1)
    for line in gcode.splitlines():
        if line.strip() and not line.startswith(";"):
            ser.write((line + "\n").encode())
            time.sleep(0.05)  # GRBL buffer safety

关键注意事项

坐标系校准：务必在纸上标记原点（如左下角），运行G1 X0 Y0确认物理位置，再微调$100（X步距/mm）、$101（Y步距/mm）等GRBL参数；
伺服响应延迟：M3/M5后需加G4 P100（暂停100ms）确保舵机到位；
内存限制：Arduino UNO RAM仅2KB，避免单次发送超500行G-code，建议分块传输；
替代方案：若手写建模复杂度过高，可退阶采用「点阵字体+贝塞尔插值」（如freetype-py生成24×24像素字模，再用三次样条平滑边缘），兼顾实时性与自然感。

该方案已在类似树莓派+Arduino硬件平台上验证可行——重点不在“能否实现”，而在分层解耦：语音层专注识别准确率，字体层专注笔迹表现力，运动层专注指令可靠性。每层均可独立优化与替换，确保项目可持续演进。