Moshi是一个语音文本基础模型和全双工口语对话框架。它使用Mimi ,一种最先进的流式神经音频编解码器。 Mimi 以完全流式传输的方式处理 24 kHz 音频,低至 12.5 Hz 表示,带宽为 1.1 kbps(延迟 80 毫秒,帧大小),但性能比现有的非流式编解码器(如SpeechTokenizer) (50 Hz 、4kbps)或SemantiCodec (50 Hz,1.3kbps)。
moshi
实时语音对话模型
Introduction
Information
- PublisherSeeAISeeAI
- Websitehttps://github.com/kyutai-labs/moshi
- Published date2024/11/04
Categories
Tags
More Products

AI工具图像设计
Nano Banana
Details
Nano-Banana is a next-gen AI photo editor that turns short prompts into natural portraits and product shots—pose & hair control, safe face swap, clean background removal, lighting fixes, and crisp 4K upscaling.



