whispering/whispering/schema.py

#!/usr/bin/env python3

import sys
from typing import Final, List, Optional

import numpy as np
import torch
from pydantic import BaseModel, Field, root_validator
from whisper.audio import N_FRAMES


class WhisperConfig(BaseModel):
    model_name: str
    device: str
    language: str
    fp16: bool = True

    @root_validator
    def validate_model_name(cls, values):
        if values["model_name"].endswith(".en") and values["language"] not in {
            "en",
            "English",
        }:
            raise ValueError("English only model")
        return values


CURRENT_PROTOCOL_VERSION: Final[int] = int("000_006_003")


class Context(BaseModel, arbitrary_types_allowed=True):
    protocol_version: int
    timestamp: float = 0.0
    buffer_tokens: List[torch.Tensor] = []
    buffer_mel: Optional[torch.Tensor] = None
    nosoeech_skip_count: Optional[int] = None

    temperatures: List[float]
    patience: Optional[float] = None
    compression_ratio_threshold: Optional[float] = 2.4
    logprob_threshold: Optional[float] = -1.0
    no_captions_threshold: Optional[float] = 0.6
    best_of: int = 5
    beam_size: Optional[int] = None
    no_speech_threshold: Optional[float] = 0.6
    logprob_threshold: Optional[float] = -1.0
    compression_ratio_threshold: Optional[float] = 2.4
    buffer_threshold: Optional[float] = 0.5
    vad_threshold: float
    max_nospeech_skip: int
    mel_frame_min_num: int = Field(N_FRAMES, ge=1, le=N_FRAMES)

    data_type: str = "float32"


class ParsedChunk(BaseModel):
    start: float
    end: float
    text: str
    tokens: List[int]
    temperature: float
    avg_logprob: float
    compression_ratio: float
    no_speech_prob: float


class SpeechSegment(BaseModel, arbitrary_types_allowed=True):
    start_block_idx: int
    end_block_idx: int
    audio: np.ndarray


class StdoutWriter:
    def open(self, *args, **kwargs):
        return self

    def __enter__(self, *args, **kwargs):
        return self

    def __exit__(self, *args, **kwargs):
        pass

    def flush(self, *args, **kwargs):
        sys.stdout.flush()

    def write(self, text, *args, **kwargs):
        sys.stdout.write(text)
Initial commit 2022-09-23 10:20:11 +00:00			`#!/usr/bin/env python3`

Add --output option (Resolve #14) 2022-10-03 13:38:35 +00:00			`import sys`
Add protocol_version 2022-10-15 04:23:00 +00:00			`from typing import Final, List, Optional`
Initial commit 2022-09-23 10:20:11 +00:00
Fix 2022-10-02 10:47:17 +00:00			`import numpy as np`
Add Context to manage context 2022-09-29 11:14:56 +00:00			`import torch`
Add --frame option 2022-11-08 14:42:11 +00:00			`from pydantic import BaseModel, Field, root_validator`
			`from whisper.audio import N_FRAMES`
Initial commit 2022-09-23 10:20:11 +00:00

			`class WhisperConfig(BaseModel):`
			`model_name: str`
			`device: str`
Remove multi language feature (Close #23) 2022-10-07 15:03:03 +00:00			`language: str`
Fix dtype (Fix #2) 2022-09-23 13:39:27 +00:00			`fp16: bool = True`
Deal timestamp 2022-09-23 11:03:00 +00:00
Check model name (openai/whisper@2d3032d) 2022-09-29 11:26:03 +00:00			`@root_validator`
			`def validate_model_name(cls, values):`
			`if values["model_name"].endswith(".en") and values["language"] not in {`
			`"en",`
			`"English",`
			`}:`
			`raise ValueError("English only model")`
			`return values`

Deal timestamp 2022-09-23 11:03:00 +00:00
Add --frame option 2022-11-08 14:42:11 +00:00			`CURRENT_PROTOCOL_VERSION: Final[int] = int("000_006_003")`
Add protocol_version 2022-10-15 04:23:00 +00:00

Add Context to manage context 2022-09-29 11:14:56 +00:00			`class Context(BaseModel, arbitrary_types_allowed=True):`
Add protocol_version 2022-10-15 04:23:00 +00:00			`protocol_version: int`
Add Context to manage context 2022-09-29 11:14:56 +00:00			`timestamp: float = 0.0`
			`buffer_tokens: List[torch.Tensor] = []`
			`buffer_mel: Optional[torch.Tensor] = None`
Removed --allow-padding and add --max_nospeech_skip option (Resolve #13) 2022-10-15 05:48:08 +00:00			`nosoeech_skip_count: Optional[int] = None`
Add Context to manage context 2022-09-29 11:14:56 +00:00
Updated Context 2022-09-29 11:43:49 +00:00			`temperatures: List[float]`
			`patience: Optional[float] = None`
			`compression_ratio_threshold: Optional[float] = 2.4`
			`logprob_threshold: Optional[float] = -1.0`
			`no_captions_threshold: Optional[float] = 0.6`
			`best_of: int = 5`
			`beam_size: Optional[int] = None`
			`no_speech_threshold: Optional[float] = 0.6`
			`logprob_threshold: Optional[float] = -1.0`
			`compression_ratio_threshold: Optional[float] = 2.4`
			`buffer_threshold: Optional[float] = 0.5`
Removed --no-vad option and --vad option to set threshold 2022-10-15 04:33:39 +00:00			`vad_threshold: float`
Removed --allow-padding and add --max_nospeech_skip option (Resolve #13) 2022-10-15 05:48:08 +00:00			`max_nospeech_skip: int`
Add --frame option 2022-11-08 14:42:11 +00:00			`mel_frame_min_num: int = Field(N_FRAMES, ge=1, le=N_FRAMES)`
Updated Context 2022-09-29 11:43:49 +00:00
Make datatype in context mandatory 2022-10-17 13:01:33 +00:00			`data_type: str = "float32"`
feat: add datatype in context 2022-10-17 08:53:59 +00:00
Add Context to manage context 2022-09-29 11:14:56 +00:00
Deal timestamp 2022-09-23 11:03:00 +00:00			`class ParsedChunk(BaseModel):`
			`start: float`
			`end: float`
			`text: str`
			`tokens: List[int]`
			`temperature: float`
			`avg_logprob: float`
			`compression_ratio: float`
			`no_speech_prob: float`
Add 2022-10-01 14:21:58 +00:00

			`class SpeechSegment(BaseModel, arbitrary_types_allowed=True):`
			`start_block_idx: int`
			`end_block_idx: int`
Fix 2022-10-02 10:47:17 +00:00			`audio: np.ndarray`
Add --output option (Resolve #14) 2022-10-03 13:38:35 +00:00

			`class StdoutWriter:`
			`def open(self, args, *kwargs):`
			`return self`

			`def __enter__(self, args, *kwargs):`
			`return self`

Add args and kwargs to all methods of StdoutWriter 2022-10-07 14:41:47 +00:00			`def __exit__(self, args, *kwargs):`
Add --output option (Resolve #14) 2022-10-03 13:38:35 +00:00			`pass`

Add args and kwargs to all methods of StdoutWriter 2022-10-07 14:41:47 +00:00			`def flush(self, args, *kwargs):`
Add --output option (Resolve #14) 2022-10-03 13:38:35 +00:00			`sys.stdout.flush()`

Add args and kwargs to all methods of StdoutWriter 2022-10-07 14:41:47 +00:00			`def write(self, text, args, *kwargs):`
Add --output option (Resolve #14) 2022-10-03 13:38:35 +00:00			`sys.stdout.write(text)`