Whisper od OpenAI to nowoczesny, darmowy system rozpoznawania mowy oparty na sztucznej inteligencji. Wyróżnia się swoją wszechstronnością i wysoką dokładnością. Narzędzie jest nie tylko efektywne, ale również wyjątkowo proste w instalacji a to sprawia, że nawet początkujący użytkownicy mogą z niego korzystać bez większych trudności. Whisper potrafi transkrybować mowę na tekst w różnych językach, radząc sobie z akcentami i dialektami.
Do czego możesz go użyć? Do szybkiego stworzenia napisów do podcastu, na YouTube, Instagram, TikToka czy inną platformę.
W tym artykule pokażę krok po kroku, jak zainstalować to narzędzie, abyś mógł samodzielnie przetestować jego możliwości i wykorzystać je w swoich projektach.
Instrukcja instalacji Whisper od OpenAI
Nie przerażaj się, instalacja na prawdę jest banalnie prosta. Wyobraź sobie, że robisz ciasto na którym chcesz postawić świeczkę. Potrzebne są 3 składniki (Python, PyTorch, FFMPEG) i świeczka (Whisper). Tak wiem, średnie porównanie, ale mam nadzieję, że wiesz o co mi chodzi 😉
Zatem darmowy i nielimitowany program do transkrypcji plików audio oraz video zainstalujesz w tych 4 prostych krokach:
1. Instalacja Python 3.11.9
Python jest kluczowym elementem całej konfiguracji, jest wymagany aby móc uruchomić Whispera który właśnie w tym języku programowania został napisany.
- Pobierz z oficjalnej strony Python 3.11.9: https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe
- Uruchom plik
- Na pierwszym ekranie zaznacz „Add python.exe to PATH” (i jeżeli nie jest to”Use admin privileges when installing py.exe„
- Wybierz „Install Now” i dokończ instalację.

2. Instalacja PyTorch 2.6.0
Wejdź na oficjalną stronę: https://pytorch.org/get-started/locally/
Zjedź niżej do sekcji, która wygląda tak jak na obrazku:

- Wybierz ostatnią stabilną wersję (w chwili pisania tego artykułu to Stable 2.6.0)
- Zaznacz swój system operacyjny (Windows)
- Ponieważ zainstalowałeś już Pythona, wybierz PIP (Python Installer Package – pythonowy menadżer pakietów). To narzędzie które pozwala instalować i zarządzać bibliotekami oraz pakietami w Pythonie
- Język programowania wybierz Python
- Compute Platform odnosi się do rodzaju sprzętu na którym PyTorch będzie działał oraz techonologii obliczeniowych które będą wykorzystywane. Wybór tutaj jest kluczowy ponieważ wpływa on na wydajność i możliwości obliczeniowe:
- CPU – wybierz, gdy nie masz karty graficznej (GPU) lub nie potrzebujesz dużej mocy obliczeniowej.
- CUDA – Technologia opracowana przez firmę NVIDIA która umożliwia wykorzystanie procesora graficznego (GPU) do przyspieszenia obliczeń. Wybierz wersję zgodną z Twoją kartą graficzną (prawdopodobnie 12.6 będzie ok). Dzięki temu dużo szybciej dokonasz transkrypcji.
- ROCm – alternatywa dla CUDA (platforma obliczeniowa), wybierz jeżeli korzystasz z karty graficznej od AMD.
- Zaznacz tekst z pola „Run this Command:” i skopuj do go pamięci podręcznej (CTRL+C albo prawy przycisk myszy a następnie wybierz „kopiuj”).
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126CMDNastępnie
- Naciśnij kombinację klawiszy WINDOWS + R
- wpisz cmd
- naciśnij OK/Enter

W czarnym (Wierszem Poleceń – Command Prompt) w pustym miejscu kliknij prawym przyciskiem myszy. Spowoduje wklejenie wcześniej skopiowanego polecenia. Ew użyj skrótu CTRL+V (wklej).

Naciśnij ENTER i poczekaj aż PyTorch zostanie zainstalowany.
3. Instalacja FFmpeg
Whisper działa na plikach WAV z częstotliwością próbkowania 16 kHz.
Jeżeli wskażemy mu inny rodzaj pliku (np video: MP4, MOV, WEBM lub audio: MP3, AAC , OGG, WMA itd.) to za pomocą narzędzia jakim jest FFmpeg przekonwertuje sobie w locie do WAV 16 kHz i na nim będzie pracował.
FFmpeg to otwartoźródłowe narzędzie do przetwarzania plików audio i wideo. Umożliwia konwersję formatów, edycję czy też obsługę transmisji na żywo. Posiada szerokie wsparciu kodeków i formatów, jest niezastąpiony w projektach multimedialnych.
- Pobierz skompilowany plik FFmpeg:
https://github.com/BtbN/FFmpeg-Builds/releases/download/latest/ffmpeg-master-latest-win64-gpl.zip - Utwórz katalog C:\ffmpeg
- Rozpakuj zawartość pobranego pliku do katalogu C:\ffmpeg
Musisz jeszcze w Windowsie dodać pewien rodzaj „skrótu” do FFmpeg. Chodzi o to, że Whisper nie wie gdzie znajduje się FFmpeg ale potrafi użyć komendy „ffmpeg”. I gdy jej użyje to ona ma zadziałać 🙂
- Wejdź w Ustawienia systemu Windows. Najszybciej będzie jak klikniesz na klawiaturze WINDOWS+PAUSE
- Wybierz „Zaawansowane ustawienia systemu„

Pojawi się okno o nazwie „Właściwości systemu„.
- Wybierz zakładkę „Zaawansowane„
- Kliknij przycisk „Zmienne środowiskowe…„

W kolejnym oknie o nazwie „Zmienne środowiskowe”:
- Kliknij na „Path„
- Wybierz „Edytuj„

W oknie o nazwie „Edycja zmiennej środowiskowej„:
- Kliknij przycisk „Nowy” i dodaj dwie ścieżki, tam gdzie skopiowałeś wcześniej ffmpeg:
- C:\ffmpeg
- C:\ffmpeg\bin

Pozamykaj wszystkie okna za pomocą przycisku „OK„.
4. Instalacja Whisper
W końcu! 🙂
- Naciśnij CTRL+R
- Wpisz cmd
- Wklej poniższy kod (w wierszu poleceń naciśnij prawy przycisk lub użyj CTRL+V)
pip install -U openai-whisperCMDPrędkość instalacji uzależniona jest oczywiście od prędkości łącza internetowego które posiadasz oraz mocy komputera.