Smart 10
Smart 10

C’est quoi Whisper OpenAI ?

Whisper OpenAI (GPT3, Dall-e 2) est un modèle de reconnaissance vocale qui peut être configuré pour de multiples traductions, transcriptions et identifications de langues. Il a été entrainé avec une énorme base de données audio afin de connaitre toutes les langues et pouvoir ainsi les retranscrire.

reconnaissance vocale avec whisper en français
Smart 10

Modèle payant ou Open source ?

C’est un code Open source et on peut le retrouver sur GitHub (github.com/openai/whisper). Il est donc gratuit.

githuib whisper

Comment installer Whisper Openai ?

Il y a plusieurs façons de l’utiliser.

Si c’est pour travailler avec ce système, je vous recommande de l’installer sur votre ordinateur sous Linux, Windows ou Mac avec les commandes qui sont disponibles sur le GitHub .

Si c’est pour faire un test, il est plus simple d’utiliser Google colab (colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb)

J’utilise Colab pro qui permet d’enlever certaines limitations de temps afin de pouvoir vous faire des démonstrations.

Comment utiliser Whisper ?

Dans la version sur colab, il faut lancer les différentes séquences. Ensuite, il suffit de vous enregistrer avec votre microphone et d’appuyer sur Transcribe. Cela retranscrira ce que vous avez dit.

Si vous parlez en français, le texte sera en français, si vous parlez en japonais, la retranscription sera en japonais.

Smart 10
reconnaissance vocale avec whisper en japonais

Il y a des fautes mais ce n’est pas très grave car il suffit ensuite de passer le texte dans des applications comme Word ou Libreoffice pour corriger votre texte.

Pourquoi utiliser Whisper ?

On pourra l’utiliser pour traduire automatiquement un film, une série ou un documentaire. Le potentiel est assez énorme pour ce type de programme.

Démo de Whisper de Openai