因此,我在这里使用Watson ExampleStreaming Speech to Text演示作为Unity SDK的起点
https://github.com/watson-developer-cloud/unity-sdk
这是可行的,但问题是准确性。
我在这里读过这篇文章,我如何提高沃森语音对文本的准确性?但有一个问题
通过简单地使用我自己的声音创建一个自定义的声学模型,我可以期望提高准确性水平吗?为了我的目的,我将只使用我的声音应用程序。
https://cloud.ibm.com/docs/services/speece-to-text?topic=speech-to-text-customization
使用您的声音可以帮助,但您需要记录大量的样本话语,可能会支付更多的自定义模型。在走这条路之前,我建议对错误的单词进行分析,看看是否存在模式,并在代码中为这些单词添加手动更正。
例如,如果模型混淆了“two”和“too”,您可以为此添加一个手动替换功能。