Working with large-scale speech corpus for phonetic research: Pipeline and tools

Transcription: Advanced Whisper Techniques

1 2 3 4

Model configuration

Provide language selection
Initial prompt
Dynamic temperature fallback

Segmentation strategies

4. Whisper-timestamped

5. VAD-guided chunking

model_size = "large-v2"
language = "en"
task = "transcribe"
initial_prompt = "umm uhh oh ah hm er erm urgh mm"

transcribe_args = {
    "task": task,
    "language": language,
    "patience": None,
    "length_penalty": None,
    "suppress_tokens": "-1",
    "initial_prompt": initial_prompt,
    "fp16": False,
    "condition_on_previous_text": False,
    "vad": True,
    "best_of": 5,
    "beam_size": 5,
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
}

result = whisper.transcribe(model, audio, seed=seed, **transcribe_args)model_size = "large-v2"
language = "en"
task = "transcribe"
initial_prompt = "umm uhh oh ah hm er erm urgh mm"

transcribe_args = {
    "task": task,
    "language": language,
    "patience": None,
    "length_penalty": None,
    "suppress_tokens": "-1",
    "initial_prompt": initial_prompt,
    "fp16": False,
    "condition_on_previous_text": False,
    "vad": True,
    "best_of": 5,
    "beam_size": 5,
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
}

result = whisper.transcribe(model, audio, seed=seed, **transcribe_args)model_size = "large-v2"
language = "en"
task = "transcribe"
initial_prompt = "umm uhh oh ah hm er erm urgh mm"

transcribe_args = {
    "task": task,
    "language": language,
    "patience": None,
    "length_penalty": None,
    "suppress_tokens": "-1",
    "initial_prompt": initial_prompt,
    "fp16": False,
    "condition_on_previous_text": False,
    "vad": True,
    "best_of": 5,
    "beam_size": 5,
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
}

result = whisper.transcribe(model, audio, seed=seed, **transcribe_args)model_size = "large-v2"
language = "en"
task = "transcribe"
initial_prompt = "umm uhh oh ah hm er erm urgh mm"

transcribe_args = {
    "task": task,
    "language": language,
    "patience": None,
    "length_penalty": None,
    "suppress_tokens": "-1",
    "initial_prompt": initial_prompt,
    "fp16": False,
    "condition_on_previous_text": False,
    "vad": True,
    "best_of": 5,
    "beam_size": 5,
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
}

result = whisper.transcribe(model, audio, seed=seed, **transcribe_args)model_size = "large-v2"
language = "en"
task = "transcribe"
initial_prompt = "umm uhh oh ah hm er erm urgh mm"

transcribe_args = {
    "task": task,
    "language": language,
    "patience": None,
    "length_penalty": None,
    "suppress_tokens": "-1",
    "initial_prompt": initial_prompt,
    "fp16": False,
    "condition_on_previous_text": False,
    "vad": True,
    "best_of": 5,
    "beam_size": 5,
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
}

result = whisper.transcribe(model, audio, seed=seed, **transcribe_args)

index	pos	word	pinyin	if_neutral	meaning	group
1	N	地方	dìfang	是	某一区域、空间的一部分、部位	A
1	N	地方	dìfāng	否	中央下属的各级行政区划的统称，本地、当地	A
2	N	地下	dìxia	是	指地面上	A
2	N	地下	dìxià	否	指地面下或秘密的	A
3	N	东西	dōngxi	是	泛指各种事物，特指人或动物	A
3	N	东西	dōngxī	否	指东和西两个方向	A
…