setting alipay wechat success appmanage dollor user cart order workorder logout left1 left2 app unfree free chart coupon note copy pencil price-tag database cog bin list link plus minus codepen 审核 cross table search user-tie eye github cancel-circle checkmark icon-upload icon-smartphon icon-auth-user icon-arroba-symbol icon-check-pass icon-red-cross icon-pwd-key icon-used icon-expired android appleinc tux windows8 java webAPI mail vip

语音评测常见问题FAQ

语音评测-功能咨询

语音评测服务支持哪些平台?

Android、iOS、Windows、Linux、WebAPI。

语音评测支持哪些题型?

  • 英文口语评测:支持单词,句子,篇章等题型评测。
  • 中文口语评测:支持字、词、句,篇章等题型评测。

语音评测最多支持多长时间的语音输入?

对于所有评测题型,都只支持最长 3分钟 的语音输入。

语音评测支持传入的音频格式有哪些?

sdk支持的音频类型是:单声道 16bit Inter PCM,支持的音频采样率是:16000HZ。 webapi支持类型参考webapi评测参数说明文档

各个题型支持哪些维度的评分?

不同的题型支持的多维度有所不同:

  • 英文单词题型 支持总分、准确度分;文本中每个单词的打分。
  • 英文句子题型 支持总分、准确度分、流畅度分、完整度分;每个分句的准确度分、流畅度分;每个单词的打分。
  • 英文篇章题型 支持总分、准确度分、流畅度分、完整度分;每个分句的准确度分、流畅度分;每个单词的打分。

各维度分数名称表示什么含义?

同一维度在不同题型中表示的含义基本相同。

  • 准确度分,对朗读内容的正确程度进行评分。
  • 流畅度分,对朗读的流利程度进行评分。
  • 完整度分,针对有固定文本的试题,对朗读的完整性进行评分。
  • 总分,对语音的总体评价,可以是各维度平均,或根据需要进行加权,也可以作为一个独立维度。

用户非正常朗读怎么办?

  • 引擎将用户不按文本要求录入语音的行为称为“用户行为异常”。
  • 引擎重点支持11类的异常场景检测,包括:乱说英文、乱说普通话、纯音乐、咳嗽、敲键盘、敲桌子、乱说方言、触碰话筒、唱歌、聊天、吹气等。除此之外的用户行为异常也能进行检测,具体效果需要视情况而定。同时还支持对音量过小,截幅,低信噪比的数据检测。

用户录音设备或环境异常怎么办?

  • 引擎将用户录音设备或者环境异常导致录入的语音异常称为“音质异常”。
  • 引擎支持对音量过小,截幅,低信噪比的数据检测。当存在音质异常时,根据不同的异常程度,得分存在不同的置信度。

试题格式及结果说明

语音评测支持题型和结果格式及字段含义(中文)?

语音评测支持题型和结果格式及字段含义(英文)?

语音评测-价格购买咨询

语音评测的收费价格是多少?怎么购买?

  • 语音评测已于2020年8月11日升级为流式版,请尽快迁移至新版语音评测(流式版),与普通版差异及升级注意事项请参考文档说明
    语音评测(普通版)的SDK用户续费请前往新版语音评测(流式版)在线购买
    语音评测(普通版)的WebAPI用户若仍要续费普通版,请提交工单与我们联系。

英文音标标注试题制作规范

文本输入格式

  • [content]、[word] 是用来说明文本的类型的,试卷中必须并且仅能有一个类型的头。
  • [word]单词题型头、[content]句子和篇章题型头,其中[word]标记的试卷中,每行仅能有一个单词。
  • [vocabulary]中罗列每个单词的音标,多发音的音标必须用“|”隔开。每个音标序列不能大于128字节。

英文单词自定义发音

用户可通过试卷音标标注指定单词发音,以下是几个题型的示例,供参考。

  • 英文句子题型
    [content]
    May I help you. Yes please. Does this sweater come in yellow.
    [vocabulary]
    help/hh eh l p/

  • 英文单词题型

  • 示例一:
    [word]
    kitchen
    [vocabulary]
    kitchen/'k ih - ch ih n/

  • 示例二:
    [word]
    off
    [vocabulary]
    off/oo f | ao f/

  • 示例三:
    [word]
    they
    there
    [vocabulary]
    there/dh ar/

:以上采用的音标均为讯飞音标,详细请参见 科大讯飞语音评测试题格式及结果说明 文档中评测结果格式 --> 音标对照表。

英文分词分句的规则

  • 句子结束的标点符号是“.!?;”,缩写中的点号不作为句子的结束标记进行句子切分;
  • 引擎支持小数的解析,如果点号左右紧接着数字,则该点号为小数点;如果点号左右为非数字字符,则该点号为句子结束标点或者缩写中的点号。
  • 单词题型中没有句子的概念,故不会根据句子结束标点进行分句。表示句子结束的标点在单词首尾将被过滤掉,在单词间将不做任何处理。
  • 分词符号是“:\x0A,|\ ”、“|”、“\”、“,”、“.”以外的符号将转换为空格进行分词。

文本规范

  • 文本中的标签必须拼写正确,而且不能杂含其他多余的字符;中括号“[ ]”为标签的符号,正文中不能出现中括号,否则解析结果为未定义。圆括号“( )”为标记符号,用于标记连读、停顿、句末升降调、重读等信息,括号内除去约定的字符外,不能为其他字符,否则解析结果不正确。
  • 一个标签不能在一个文本中出现两次;不能在同一文本中出现两个同一类型的标签。
  • 文本中第一个标签的前面不要出现任何字符。
  • 标签和正文之间是通过换行来控制位置关系的,这种位置上的相对关系不能被打破。
  • 生词中的音标标签必须按照文本格式要求标写,每行是一个单词对应其相应的音标,音标序列中不能杂含其他不是(引擎定义的)音标字符或非法字符。
  • 引擎不对文本进行语义解析,例如:“-780”(引擎不能解析出这是一个负数)”。
  • “ " ”、“ ' ”、“.”、“!”、“?”、“ ”、“:”、“;”、“-”、“|”、“\x0A”、“\t”以及数字、字母之外的字符将被过滤掉。全角的标点将被转换为半角,全角字符或者非法字符不能超过全文字符的10%。
  • 英文文本中,除了 . (如:p.m),- (如:80-year-old),' (如:I'm) 这三个字符外,其余字符均会判定为非法字符。
  • 文本内容不区分大小写。

试卷制作中常见错误及修改方法

文本中的标点符号不能省略,否则会认为是非法格式。

常见错误码:28682(试卷内容有误),28693(试卷格式有误),28694(存在未登录词)

  • 28682错误码:试卷内容不正确。常见的几种错误:如出现了大量的全角字符,中文,圆括号中的标记符合规范、编码错误(将试卷保存为ANSI编码格式)等,可仔细检查试卷内容,进行删改。
  • 28693错误码:试卷格式有误。可参照 科大讯飞语音评测试题格式及结果说明 中的试题格式进行修改。
  • 28694错误码:存在未登录词。表明有引擎无法处理的文本,请参照文本规范检查文本内容。

结果获取

同一个句子,用美式发音读和用英式发音读,哪个得分会高些

  • 引擎支持多发音匹配,会自动匹配发音。如果匹配出是美式发音,就按美式发音进行评分;如果匹配出是英式发音,就按英式发音进行评分。

XML中的beg_pos和end_pos可以怎么使用

beg_pos 和 end_pos 标记了对应节点下内容在语音中的边界,单位是帧,每帧10ms,例如一个单词“word“,其 beg_pos = n1,end_pos = n2,那么在语音中,“word”的位置在 n110ms 到 n210ms。

XML中的dp_message可以怎么使用

  • dp_message标记内容的切分信息,当值为0时,表示正常;值为16,表示漏读,值为32表示增读。
  • 在解析效果的时候,如果遇到dp_message不为 0 的情况,要进行相应的处理。一般情况下,word节点下dp_message值为16的时候,相关的效果信息都会缺失;值为32的时候,会选择得分最高的word节点作为最终结果。

为什么个别单词打分不准,如:打分不高或者不符合预期

  1. 我们的单词音标兼顾了各种发音的可能,如果您的发音恰好是其中一种,但您的预期是不应该打高分时,就会产生误差,建议您自己定义该单词发音,具体使用方法请参见 试卷制作 中英文单词自定义发音。
  2. 我们的评分标准参考了每个音素的得分情况,对于发音相近的音素或单词,引擎会产生混淆。例如单词“about”和“above”,这样有可能造成打分不准。
  3. 对于极个别人的发音,由于声学模型限制,可能识别不准,所以导致评测也有可能不准。

如果,以上解答仍有疑问,可联系我们,提供相关音频数据和试卷内容,我们具体分析后再做答复。

乱说、乱读得高分的问题怎么解决

  1. 评测结果中会给出 is_rejected 字段,当字段值为 true 时,说明此时是用户乱说导致的拒识,开发者可根据这个字段判断此次用户是否为乱说。
  2. 在拒识的同时依然会给出得分,因为目前识别乱说的准确率没有100%,所以存在误拒的情况。如果引擎给0分的话,也不合适。
  3. 引擎可以检测出来用户是乱说的,但无法保证一定是低分。所以说,如果引擎报出乱说,那么就可以认为评分已经不可信。这种情况下,开发者可以给用户显示 0 分,也可以在显示引擎分数的同时,给出乱说的检测结果。这个由开发者自己来决定哪一种方式更合适。
  4. 还有个属性字段 except_info,如果其属性值为28673(音量小/无语音),28680(信噪比低),28690(有截幅),则说明使用环境存在问题,打分也是不可信的。

结果评分分值与日常经验中的优、良、中、差的对应关系

其实这两者之间并没有严格的对应关系,以下对应关系仅供参考:

等级 五分制分值 百分制分值
4.3分~5分 86分~100分
3.5分~4.2分 70分~85分
2.5分~3.4分 50分~69分
1.5分~2.4分 30分~49分
很差 0分~1.4分 0分~29分