Darmowy program do transkrypcji audio i video

Whisper od OpenAI to nowoczesny, darmowy system rozpoznawania mowy oparty na sztucznej inteligencji. Wyróżnia się swoją wszechstronnością i wysoką dokładnością. Narzędzie jest nie tylko efektywne, ale również wyjątkowo proste w instalacji a to sprawia, że nawet początkujący użytkownicy mogą z niego korzystać bez większych trudności. Whisper potrafi transkrybować mowę na tekst w różnych językach, radząc sobie z akcentami i dialektami.

Do czego możesz go użyć? Do szybkiego stworzenia napisów do podcastu, na YouTube, Instagram, TikToka czy inną platformę.

W tym artykule pokażę krok po kroku, jak zainstalować to narzędzie, abyś mógł samodzielnie przetestować jego możliwości i wykorzystać je w swoich projektach.

Instrukcja instalacji Whisper od OpenAI

Nie przerażaj się, instalacja na prawdę jest banalnie prosta. Wyobraź sobie, że robisz ciasto na którym chcesz postawić świeczkę. Potrzebne są 3 składniki (Python, PyTorch, FFMPEG) i świeczka (Whisper). Tak wiem, średnie porównanie, ale mam nadzieję, że wiesz o co mi chodzi 😉

Zatem darmowy i nielimitowany program do transkrypcji plików audio oraz video zainstalujesz w tych 4 prostych krokach:

1. Instalacja Python 3.11.9

Python jest kluczowym elementem całej konfiguracji, jest wymagany aby móc uruchomić Whispera który właśnie w tym języku programowania został napisany.

  1. Pobierz z oficjalnej strony Python 3.11.9: https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe
  2. Uruchom plik
  3. Na pierwszym ekranie zaznacz „Add python.exe to PATH” (i jeżeli nie jest to”Use admin privileges when installing py.exe
  4. Wybierz „Install Now” i dokończ instalację.

2. Instalacja PyTorch 2.6.0

Wejdź na oficjalną stronę: https://pytorch.org/get-started/locally/

Zjedź niżej do sekcji, która wygląda tak jak na obrazku:

  1. Wybierz ostatnią stabilną wersję (w chwili pisania tego artykułu to Stable 2.6.0)
  2. Zaznacz swój system operacyjny (Windows)
  3. Ponieważ zainstalowałeś już Pythona, wybierz PIP (Python Installer Package – pythonowy menadżer pakietów). To narzędzie które pozwala instalować i zarządzać bibliotekami oraz pakietami w Pythonie
  4. Język programowania wybierz Python
  5. Compute Platform odnosi się do rodzaju sprzętu na którym PyTorch będzie działał oraz techonologii obliczeniowych które będą wykorzystywane. Wybór tutaj jest kluczowy ponieważ wpływa on na wydajność i możliwości obliczeniowe:
    • CPU – wybierz, gdy nie masz karty graficznej (GPU) lub nie potrzebujesz dużej mocy obliczeniowej.
    • CUDA – Technologia opracowana przez firmę NVIDIA która umożliwia wykorzystanie procesora graficznego (GPU) do przyspieszenia obliczeń. Wybierz wersję zgodną z Twoją kartą graficzną (prawdopodobnie 12.6 będzie ok). Dzięki temu dużo szybciej dokonasz transkrypcji.
    • ROCm – alternatywa dla CUDA (platforma obliczeniowa), wybierz jeżeli korzystasz z karty graficznej od AMD.
  6. Zaznacz tekst z pola „Run this Command:” i skopuj do go pamięci podręcznej (CTRL+C albo prawy przycisk myszy a następnie wybierz „kopiuj”).
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
CMD

Następnie

  1. Naciśnij kombinację klawiszy WINDOWS + R
  2. wpisz cmd
  3. naciśnij OK/Enter

W czarnym (Wierszem Poleceń – Command Prompt) w pustym miejscu kliknij prawym przyciskiem myszy. Spowoduje wklejenie wcześniej skopiowanego polecenia. Ew użyj skrótu CTRL+V (wklej).

Naciśnij ENTER i poczekaj aż PyTorch zostanie zainstalowany.

3. Instalacja FFmpeg

Whisper działa na plikach WAV z częstotliwością próbkowania 16 kHz.

Jeżeli wskażemy mu inny rodzaj pliku (np video: MP4, MOV, WEBM lub audio: MP3, AAC , OGG, WMA itd.) to za pomocą narzędzia jakim jest FFmpeg przekonwertuje sobie w locie do WAV 16 kHz i na nim będzie pracował.

FFmpeg to otwartoźródłowe narzędzie do przetwarzania plików audio i wideo. Umożliwia konwersję formatów, edycję czy też obsługę transmisji na żywo. Posiada szerokie wsparciu kodeków i formatów, jest niezastąpiony w projektach multimedialnych.

  1. Pobierz skompilowany plik FFmpeg:
    https://github.com/BtbN/FFmpeg-Builds/releases/download/latest/ffmpeg-master-latest-win64-gpl.zip
  2. Utwórz katalog C:\ffmpeg
  3. Rozpakuj zawartość pobranego pliku do katalogu C:\ffmpeg

Musisz jeszcze w Windowsie dodać pewien rodzaj „skrótu” do FFmpeg. Chodzi o to, że Whisper nie wie gdzie znajduje się FFmpeg ale potrafi użyć komendy „ffmpeg”. I gdy jej użyje to ona ma zadziałać 🙂

  1. Wejdź w Ustawienia systemu Windows. Najszybciej będzie jak klikniesz na klawiaturze WINDOWS+PAUSE
  2. Wybierz „Zaawansowane ustawienia systemu

Pojawi się okno o nazwie „Właściwości systemu„.

  1. Wybierz zakładkę „Zaawansowane
  2. Kliknij przycisk „Zmienne środowiskowe…

W kolejnym oknie o nazwie „Zmienne środowiskowe”:

  1. Kliknij na „Path
  2. Wybierz „Edytuj

W oknie o nazwie „Edycja zmiennej środowiskowej„:

  1. Kliknij przycisk „Nowy” i dodaj dwie ścieżki, tam gdzie skopiowałeś wcześniej ffmpeg:
    • C:\ffmpeg
    • C:\ffmpeg\bin

Pozamykaj wszystkie okna za pomocą przycisku „OK„.

4. Instalacja Whisper

W końcu! 🙂

  1. Naciśnij CTRL+R
  2. Wpisz cmd
  3. Wklej poniższy kod (w wierszu poleceń naciśnij prawy przycisk lub użyj CTRL+V)
pip install -U openai-whisper
CMD

Prędkość instalacji uzależniona jest oczywiście od prędkości łącza internetowego które posiadasz oraz mocy komputera.

Drukarka 3D Creality Hi Combo

Drukarka z systemem wielokolorowego wydruku CFS: https://allegro.pl/oferta/drukarka-3d-creality-hi-combo-1001010498-17354242579?utm_medium=afiliacja&utm_source=ctr_2&utm_campaign=e8fb64a6-6a83-4585-9759-23afb345b5b7&utm_content=d9fe98755e1e#

Przydatne narzędzia

Konwerter plików PDF do PNG lub JPG Pdf2Img: https://opentoolkit.github.io/Pdf2Img Stworzone z miłości ❤️ w kierunku prywatności ⭐