moshi

实时语音对话模型

Introduction

Moshi是一个语音文本基础模型和全双工口语对话框架。它使用Mimi ,一种最先进的流式神经音频编解码器。 Mimi 以完全流式传输的方式处理 24 kHz 音频,低至 12.5 Hz 表示,带宽为 1.1 kbps(延迟 80 毫秒,帧大小),但性能比现有的非流式编解码器(如SpeechTokenizer) (50 Hz 、4kbps)或SemantiCodec (50 Hz,1.3kbps)。

Information

Categories

Tags

    Newsletter

    加入社群

    输入邮箱,免费接收最新AI资讯、AI软件推荐