feat: new trained model + video gen

2025-05-19 00:25:02 +02:00 · 2025-05-19 00:25:02 +02:00 · f6f8e3ca8f
parent f069dfd589
commit f6f8e3ca8f
12 changed files with 952 additions and 528 deletions
--- a/.gitignore
+++ b/.gitignore
@ -27,6 +27,7 @@ bert_trained/
 checkpoint-*/

 # Data
+data/*
 data/*.csv
 data/*.srt
 data/*.txt
--- a/clips/highlights.mp4
+++ b/clips/highlights.mp4
--- a/data_loader/init.py
+++ b/data_loader/init.py
--- a/data_loader/dir_loader.py
+++ b/data_loader/dir_loader.py
@ -0,0 +1,21 @@
+from pathlib import Path
+import pandas as pd
+from subtitles.parser import parse_srt_to_df   # your existing parser
+
+
+def load_subtitles_from_dir(folder: str | Path, ext: str = ".srt") -> pd.DataFrame:
+    """
+    Читает каждый файл из заданной папки и возвращает обьединенный pd.DataFrame
+    """
+    folder = Path(folder)
+    all_frames: list[pd.DataFrame] = []
+
+    for file in folder.glob(f"*{ext}"):
+        df_file = parse_srt_to_df(file)
+        df_file["source_file"] = file.name
+        all_frames.append(df_file)
+
+    if not all_frames:
+        raise FileNotFoundError(f"No {ext} files found in {folder.resolve()}")
+
+    return pd.concat(all_frames, ignore_index=True)
--- a/keywords.py
+++ b/keywords.py
@ -0,0 +1,66 @@
+KEYWORDS: set[str] = {
+    # ── Угроза / конфликт ─────────────────────────
+    "убью", "убить", "убил", "убийство", "смерть", "грохнуть",
+    "взорвётся", "взорвать", "взрыв", "детонатор", "бомба",
+    "ловушка", "засада", "атака", "штурм", "напасть",
+    "останавливать", "надо бежать", "слишком поздно", "мы проиграли",
+    "конец света", "апокалипсис", "катастрофа",
+
+    # ── Ранение / критическое состояние ────────────
+    "ранен", "ранение", "умираю", "без сознания", "остановить кровотечение",
+    "пульс не прослушивается", "доктор срочно", "нужна помощь",
+    "реанимация", "скорая", "кровь повсюду",
+
+    # ── Секреты / скрытая информация ───────────────
+    "секрет", "засекречено", "никому не говори", "это между нами",
+    "улик нет", "улик достаточно", "доказательства", "у нас есть доказательства",
+    "двойной агент", "крота", "подслушивают", "прослушка",
+    "флешка", "пароль", "шифр", "код доступа",
+
+    # ── Планы / приказ / миссия ─────────────────────
+    "план", "план б", "новая миссия", "операция начинается",
+    "отмена операции", "действуем по плану", "приказ ясен",
+    "координаты", "время ч", "расклад таков", "приступаем",
+
+    # ── Решения / выбор / судьба ────────────────────
+    "выбирай", "нет пути назад", "жертвовать", "это мой выбор",
+    "ты со мной", "придётся рискнуть", "спасти", "пожертвовать собой",
+    "мы должны решить", "остановись пока не поздно",
+
+    # ── Сюжетные твисты / раскрытия ────────────────
+    "на самом деле", "вся правда", "это была ложь", "он жив",
+    "подмена личности", "я всё время знала", "мой отец", "его брат близнец",
+    "это был мой план", "теперь всё ясно",
+
+    # ── Отношения / эмоции ─────────────────────────
+    "я тебя люблю", "выходи за меня", "у нас будет ребёнок",
+    "мы расстаёмся", "ты мне нравишься", "я без тебя не могу",
+    "он изменяет", "прости меня", "мы начнём сначала",
+
+    # ── Юмор / неловкость (часто ключевые моменты) ─
+    "это было случайно", "я всё испортил", "не в ту дверь",
+    "костюм порвался", "конфуз", "не то письмо", "он же шутил",
+
+    # ── Sci-Fi / техно-угроза ──────────────────────
+    "портал", "временной скачок", "искусственный интеллект", "ядро реактора",
+    "система отказала", "энергощит упал", "обратный отсчёт",
+    "спутник выведен из строя", "корабль падает",
+
+    # ── Фэнтези / магия ────────────────────────────
+    "заклинание", "пророчество", "артефакт", "древний орден",
+    "пламя дракона", "тёмный лорд", "портал закрывается",
+    "круг ритуала", "великий маг",
+
+    # ── Правосудие / расследование ────────────────
+    "вы арестованы", "расследование", "ордер на обыск",
+    "признательные показания", "дело раскрыто", "дело закрыто",
+    "улик достаточно", "главный подозреваемый",
+
+    # ── Финансы / шантаж / выкуп ───────────────────
+    "выкуп", "заложники", "долг", "банковский счёт",
+    "переведи деньги", "вымогательство", "шантаж", "биткойны",
+
+    # ── Общие триггеры (англ. формы, если субтитры смешанные) ─
+    "kill", "bomb", "explode", "secret", "mission", "run!",
+    "we're out of time", "trust me", "it's a trap"
+}
--- a/main.py
+++ b/main.py
@ -2,20 +2,36 @@ import argparse

 from subtitles.parser import parse_srt_to_df
 from scoring.bert_ranker import BERTImportanceRanker
+from video_editor.highlight import VideoHighlighter
 import config


 def main():
    parser = argparse.ArgumentParser(
        description="Оценка важности фраз в субтитрах с помощью BERT.")
-    parser.add_argument("srt_file", help="Путь к .srt файлу субтитров")
+    parser.add_argument("--srt_path", help="Путь к .srt файлу субтитров")
+    parser.add_argument("--video_path", help="Путь к видео файлу")
    parser.add_argument(
        "--output", help="Путь к выходному CSV", default=config.CSV_OUTPUT)
    args = parser.parse_args()

-    df = parse_srt_to_df(args.srt_file)
+    df = parse_srt_to_df(args.srt_path)
    ranker = BERTImportanceRanker(config.MODEL_NAME)
    df_scored = ranker.apply_to_dataframe(df)
+    important_df = (
+        df[df["importance_score"] > 0.9]
+        .loc[:, ["start", "end"]]
+        .reset_index(drop=True)
+    )
+    vh = VideoHighlighter(
+        video=args.video_path,
+        segments_df=important_df,
+        pad=1.5,
+        join_gap=0.3,
+        out_dir="clips",
+        concat=True,
+    )
+    vh.cut()
    df_scored.to_csv(args.output, index=False, encoding='utf-8')
    print(f"✅ Сохранено в {args.output}")

--- a/requirements.txt
+++ b/requirements.txt
@ -7,15 +7,19 @@ certifi==2025.4.26
 chardet==5.2.0
 charset-normalizer==3.4.2
 datasets==3.6.0
+decorator==5.2.1
 dill==0.3.8
 filelock==3.18.0
 frozenlist==1.6.0
 fsspec==2025.3.0
 huggingface-hub==0.31.2
 idna==3.10
+imageio==2.37.0
+imageio-ffmpeg==0.6.0
 Jinja2==3.1.6
 joblib==1.5.0
 MarkupSafe==3.0.2
+moviepy==2.1.2
 mpmath==1.3.0
 multidict==6.4.3
 multiprocess==0.70.16
@ -37,11 +41,14 @@ nvidia-nvjitlink-cu12==12.6.85
 nvidia-nvtx-cu12==12.6.77
 packaging==25.0
 pandas==2.2.3
+pillow==10.4.0
+proglog==0.1.12
 propcache==0.3.1
 psutil==7.0.0
 pyarrow==20.0.0
 pysrt==1.1.2
 python-dateutil==2.9.0.post0
+python-dotenv==1.1.0
 pytz==2025.2
 PyYAML==6.0.2
 regex==2024.11.6
--- a/result.csv
+++ b/result.csv
--- a/subtitles/parser.py
+++ b/subtitles/parser.py
@ -1,9 +1,14 @@
 import pysrt
 import pandas as pd
+import chardet
+from pathlib import Path


-def parse_srt_to_df(filepath: str, encoding: str = "cp1251") -> pd.DataFrame:
-    subs = pysrt.open(filepath, encoding=encoding)
+def parse_srt_to_df(filepath: str) -> pd.DataFrame:
+    print(f"Загружаю {filepath}")
+    raw = Path(filepath).read_bytes()[:4096]
+    enc = chardet.detect(raw)["encoding"]
+    subs = pysrt.open(filepath, encoding=enc)
    rows = []

    for sub in subs:
--- a/train.py
+++ b/train.py
@ -4,10 +4,11 @@ from transformers.models.auto.modeling_auto import AutoModelForSequenceClassific
 from transformers.models.bert import BertTokenizer, BertForSequenceClassification
 from transformers.trainer import Trainer
 from transformers.training_args import TrainingArguments
-from subtitles.parser import parse_srt_to_df
 import torch
 from sklearn.model_selection import train_test_split
 import torch.nn.functional as F
+from keywords import KEYWORDS
+from data_loader.dir_loader import load_subtitles_from_dir

 sentiment_model_name = "cointegrated/rubert-tiny-sentiment-balanced"
 sentiment_tokenizer = AutoTokenizer.from_pretrained(sentiment_model_name)
@ -16,9 +17,11 @@ sentiment_model = AutoModelForSequenceClassification.from_pretrained(


 def is_important(text):
+    low = text.lower()
    try:
        inputs = sentiment_tokenizer(
-            text, return_tensors="pt", truncation=True, padding=True)
+            low, return_tensors="pt", truncation=True, padding=True
+        )
        with torch.no_grad():
            logits = sentiment_model(**inputs).logits
            probs = F.softmax(logits, dim=1)
@ -26,16 +29,19 @@ def is_important(text):
            labels = ["NEGATIVE", "NEUTRAL", "POSITIVE"]
            label = labels[label_id]
    except Exception:
+        print("Ошибка расчета сентимента")
+        return 0
+    if len(low.split()) < 2:
        return 0
    if label in ("NEGATIVE", "POSITIVE"):
        return 1
-    if len(text.split()) > 6:
+    if any(kw in low for kw in KEYWORDS):
        return 1
    return 0


 def main():
-    df = parse_srt_to_df("Breaking_Bad_RUS_2008_20210402033853.srt")
+    df = load_subtitles_from_dir("./data/subtitles/train")
    df["label"] = df["text"].astype(str).apply(is_important)

    train_texts, test_texts = train_test_split(
@ -45,7 +51,11 @@ def main():
    tokenizer = BertTokenizer.from_pretrained(model_name)

    def tokenize_function(example):
-        return tokenizer(example["text"], padding="max_length", truncation=True, max_length=64)
+        return tokenizer(
+            example["text"],
+            padding="max_length",
+            truncation=True, max_length=64
+        )

    train_dataset = Dataset.from_pandas(train_texts[["text", "label"]])
    test_dataset = Dataset.from_pandas(test_texts[["text", "label"]])
--- a/video_editor/init.py
+++ b/video_editor/init.py
--- a/video_editor/highlight.py
+++ b/video_editor/highlight.py
@ -0,0 +1,142 @@
+# highlight_cutter.py
+"""
+Класс VideoHighlighter
+======================
+
+Нарезает «важные» отрезки видео по DataFrame со столбцами
+`start` и `end` (секунды).  Умеет:
+
+• объединять соседние / перекрывающиеся интервалы (join_gap)
+• добавлять «окно» pad слева и справа
+• сохранять клипы отдельно или склеивать в единый highlights.mp4
+"""
+
+from __future__ import annotations
+from pathlib import Path
+from typing import List, Tuple, Union
+import datetime as dt
+
+import pandas as pd
+from moviepy.video.io.VideoFileClip import VideoFileClip
+from moviepy.video.compositing.CompositeVideoClip import concatenate_videoclips
+
+
+class VideoHighlighter:
+    """Высвечивает (вырезает) нужные фрагменты ролика."""
+
+    # ─────────────────────────── init ────────────────────────────
+    def __init__(
+        self,
+        video: Union[str, Path],
+        segments_df: pd.DataFrame,
+        pad: float = 1.0,
+        join_gap: float = 0.2,
+        out_dir: Union[str, Path] = "clips",
+        concat: bool = True,
+    ) -> None:
+        self.video = Path(video)
+        self.df = segments_df.copy()
+        self.pad = float(pad)
+        self.join_gap = float(join_gap)
+        self.out_dir = Path(out_dir)
+        self.concat = concat
+
+        if not {"start", "end"} <= set(self.df.columns):
+            raise ValueError(
+                "DataFrame должен содержать колонки 'start' и 'end'")
+
+        self.out_dir.mkdir(parents=True, exist_ok=True)
+
+    # ────────────────────────── public API ─────────────────────────
+    def cut(self) -> None:
+        intervals = self._prepare_intervals()
+
+        with VideoFileClip(str(self.video)) as video:
+            clips = self._make_subclips(video, intervals)
+            if self.concat:
+                self._save_concat(clips)
+
+    # ────────────────────────── helpers ───────────────────────────
+    def _to_seconds(self, x) -> float:
+        """Любое представление времени → float секунд."""
+        if isinstance(x, (int, float)):
+            return float(x)
+        if isinstance(x, dt.time):
+            return x.hour * 3600 + x.minute * 60 + x.second + x.microsecond / 1_000_000
+        if isinstance(x, str):
+            # принимает форматы HH:MM:SS, HH:MM:SS.mmm или просто число
+            parts = x.replace(",", ".").split(":")
+            if len(parts) == 1:
+                return float(parts[0])
+            h, m, s = map(float, parts) if len(
+                parts) == 3 else (0, *map(float, parts))
+            return h * 3600 + m * 60 + s
+        raise TypeError(f"Неподдерживаемый тип времени: {type(x)}")
+
+    def _prepare_intervals(self) -> List[Tuple[float, float]]:
+        df = self.df.copy()
+        df["start"] = df["start"].apply(self._to_seconds)
+        df["end"] = df["end"].apply(self._to_seconds)
+
+        raw = list(df.sort_values("start")[
+                   ["start", "end"]].itertuples(index=False, name=None))
+        merged = self._merge_intervals(raw)
+        return self._add_padding(merged, total_dur=self._get_duration())
+
+    def _merge_intervals(self, intervals: List[Tuple[float, float]]) -> List[Tuple[float, float]]:
+        if not intervals:
+            return []
+        intervals.sort()
+        out = [list(intervals[0])]
+        for s, e in intervals[1:]:
+            last_e = out[-1][1]
+            if s - last_e <= self.join_gap:          # перекрытие / стык
+                out[-1][1] = max(last_e, e)
+            else:
+                out.append([s, e])
+        return [tuple(x) for x in out]
+
+    def _add_padding(self, intervals: List[Tuple[float, float]], total_dur: float) -> List[Tuple[float, float]]:
+        return [(max(0.0, s - self.pad), min(total_dur, e + self.pad)) for s, e in intervals]
+
+    def _get_duration(self) -> float:
+        with VideoFileClip(str(self.video)) as v:
+            return v.duration
+
+    def _make_subclips(self, video: VideoFileClip, intervals: List[Tuple[float, float]]) -> List[VideoFileClip]:
+        clips: list[VideoFileClip] = []
+        for idx, (s, e) in enumerate(intervals, 1):
+            clip = video.subclipped(s, e)
+            if not self.concat:
+                fname = self.out_dir / f"clip_{idx:02d}.mp4"
+                self._save_clip(clip, fname)
+                clip.close()
+            clips.append(clip)
+        return clips
+
+    def _save_clip(self, clip: VideoFileClip, fname: Path) -> None:
+        print(f"Сохраняю {fname.name:>12}: {clip.duration:6.2f} сек")
+        clip.write_videofile(
+            fname.as_posix(),
+            codec="libx264",
+            audio_codec="aac",
+            temp_audiofile=str(fname.with_suffix('.m4a')),
+            remove_temp=True,
+            logger=None,
+        )
+
+    def _save_concat(self, clips: List[VideoFileClip]) -> None:
+        final = concatenate_videoclips(clips, method="compose")
+        outfile = self.out_dir / "highlights.mp4"
+        print(f"Сохраняю дайджест {outfile.name}: {final.duration:6.2f} сек")
+        final.write_videofile(
+            outfile.as_posix(),
+            codec="libx264",
+            audio_codec="aac",
+            temp_audiofile=str(self.out_dir / "temp_audio.m4a"),
+            remove_temp=True,
+            logger=None,
+        )
+        final.close()
+        for c in clips:
+            c.close()