stepfun-ai
/

Step-Audio-2-mini

text-generation

Model card Files Files and versions

Step-Audio-2-mini / token2wav /flow.yaml

lijingbei

added model files

69690cd 12 days ago

1.1 kB

	flow: !new:cosyvoice2.flow.flow.CausalMaskedDiffWithXvec
	input_size: 512
	output_size: 80
	spk_embed_dim: 192
	output_type: 'mel'
	vocab_size: 6561
	encoder: !new:cosyvoice2.transformer.upsample_encoder_v2.UpsampleConformerEncoderV2
	input_size: 512
	output_size: 512
	input_layer: 'linear'
	pre_lookahead_len: 3
	num_blocks: 6
	num_up_blocks: 4
	up_stride: 2
	up_scale_factor: 2
	attention_heads: 8
	pos_enc_layer_type: 'rel_pos_espnet'
	selfattention_layer_type: 'rel_selfattn'
	key_bias: true
	linear_units: 2048
	dropout_rate: 0.1
	positional_dropout_rate: 0.1
	attention_dropout_rate: 0.1
	normalize_before: True
	decoder: !new:cosyvoice2.flow.flow_matching.CausalConditionalCFM
	inference_cfg_rate: 0.7
	estimator: !new:cosyvoice2.flow.decoder_dit.DiT
	in_channels: 320
	out_channels: 80
	mlp_ratio: 4.0
	depth: 16
	num_heads: 8
	head_dim: 64
	hidden_size: 512