Improve model card: Update library, add paper link, abstract summary, and refine tags

This PR significantly enhances the model card for Voxtral Small by:
- **Updating the `library_name`** from `vllm` to `transformers` in the metadata, as the model is natively supported and has extensive usage examples for the Hugging Face `transformers` library. This ensures proper functionality of the "how to use" widget on the Hub.
- **Adding `vllm` to the `tags`** in the metadata to maintain discoverability and highlight its recommended use for serving.
- **Removing the `inference: false`** metadata tag, as the model provides comprehensive usage instructions, indicating it is ready for inference.
- **Adding a direct link to the paper** "[Voxtral](https://huggingface.co/papers/2507.13264)" prominently in the introductory section.
- **Including a concise summary of the paper's abstract** at the top of the model card content for immediate understanding of the model's capabilities and contributions.

Files changed (1) hide show

README.md +36 -20

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 language:
 - en
 - fr
@@ -8,24 +10,23 @@ language:
 - pt
 - nl
 - hi
 license: apache-2.0
-library_name: vllm
-inference: false
-base_model:
-- mistralai/Mistral-Small-24B-Base-2501
-extra_gated_description: >-
-  If you want to learn more about how we process your personal data, please read
-  our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
 pipeline_tag: audio-text-to-text
 tags:
 - transformers
 ---
 # Voxtral Small 1.0 (24B) - 2507
 Voxtral Small is an enhancement of [Mistral Small 3](https://huggingface.co/mistralai/Mistral-Small-24B-Base-2501), incorporating state-of-the-art audio input capabilities while retaining best-in-class text performance. It excels at speech transcription, translation and audio understanding.
-Learn more about Voxtral in our blog post [here](https://mistral.ai/news/voxtral).
 ## Key Features
@@ -157,7 +158,9 @@ user_msg = UserMessage(content=[file_to_chunk(obama_file), file_to_chunk(bcn_fil
 print(30 * "=" + "USER 1" + 30 * "=")
 print(text_chunk.text)
-print("\n\n")
 response = client.chat.completions.create(
     model=model,
@@ -169,13 +172,15 @@ content = response.choices[0].message.content
 print(30 * "=" + "BOT 1" + 30 * "=")
 print(content)
-print("\n\n")
 # The model could give the following answer:
 # ```L'orateur le plus inspirant est le président.
 # Il est plus inspirant parce qu'il parle de ses expériences personnelles
 # et de son optimisme pour l'avenir du pays.
 # Il est différent de l'autre orateur car il ne parle pas de la météo,
-# mais plutôt de ses interactions avec les gens et de son rôle en tant que président.```
 messages = [
     user_msg,
@@ -184,7 +189,9 @@ messages = [
 ]
 print(30 * "=" + "USER 2" + 30 * "=")
 print(messages[-1]["content"])
-print("\n\n")
 response = client.chat.completions.create(
     model=model,
@@ -313,7 +320,8 @@ print(30 * "=" + "Transcription" + 30 * "=")
 req = TranscriptionRequest(model=model, audio=audio_chunk.input_audio, language="en", temperature=0.0).to_openai(exclude=("top_p", "seed"))
 response = client.audio.transcriptions.create(**req)
 print(response.text) # How is the weather in Madrid at the moment?
-print("\n")
 print(30 * "=" + "Function calling" + 30 * "=")
@@ -328,7 +336,9 @@ response = client.chat.completions.create(
 )
 print(30 * "=" + "BOT 1" + 30 * "=")
 print(response.choices[0].message.tool_calls)
-print("\n\n")
 ```
 </details>
@@ -384,7 +394,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -442,7 +453,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -481,7 +493,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -520,7 +533,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -581,7 +595,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)
@@ -610,7 +625,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)

 ---
+base_model:
+- mistralai/Mistral-Small-24B-Base-2501
 language:
 - en
 - fr
 - pt
 - nl
 - hi
+library_name: transformers
 license: apache-2.0
 pipeline_tag: audio-text-to-text
 tags:
 - transformers
+- vllm
+extra_gated_description: If you want to learn more about how we process your personal
+  data, please read our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
 ---
 # Voxtral Small 1.0 (24B) - 2507
+We present Voxtral Mini and Voxtral Small, two multimodal audio chat models. Voxtral is trained to comprehend both spoken audio and text documents, achieving state-of-the-art performance across a diverse range of audio benchmarks, while preserving strong text capabilities. Voxtral Small outperforms a number of closed-source models, while being small enough to run locally. A 32K context window enables the model to handle audio files up to 40 minutes in duration and long multi-turn conversations.
 Voxtral Small is an enhancement of [Mistral Small 3](https://huggingface.co/mistralai/Mistral-Small-24B-Base-2501), incorporating state-of-the-art audio input capabilities while retaining best-in-class text performance. It excels at speech transcription, translation and audio understanding.
+Learn more about Voxtral in our paper [Voxtral](https://huggingface.co/papers/2507.13264) and our blog post [here](https://mistral.ai/news/voxtral).
 ## Key Features
 print(30 * "=" + "USER 1" + 30 * "=")
 print(text_chunk.text)
+print("
+")
 response = client.chat.completions.create(
     model=model,
 print(30 * "=" + "BOT 1" + 30 * "=")
 print(content)
+print("
+")
 # The model could give the following answer:
 # ```L'orateur le plus inspirant est le président.
 # Il est plus inspirant parce qu'il parle de ses expériences personnelles
 # et de son optimisme pour l'avenir du pays.
 # Il est différent de l'autre orateur car il ne parle pas de la météo,
+# mais plutôto de ses interactions avec les gens et de son rôle en tant que président.```
 messages = [
     user_msg,
 ]
 print(30 * "=" + "USER 2" + 30 * "=")
 print(messages[-1]["content"])
+print("
+")
 response = client.chat.completions.create(
     model=model,
 req = TranscriptionRequest(model=model, audio=audio_chunk.input_audio, language="en", temperature=0.0).to_openai(exclude=("top_p", "seed"))
 response = client.audio.transcriptions.create(**req)
 print(response.text) # How is the weather in Madrid at the moment?
+print("
+")
 print(30 * "=" + "Function calling" + 30 * "=")
 )
 print(30 * "=" + "BOT 1" + 30 * "=")
 print(response.choices[0].message.tool_calls)
+print("
+")
 ```
 </details>
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)