From 05105071f3be1b7422079bf2055bdee247e7d7ee Mon Sep 17 00:00:00 2001 From: "Satsuki Akiba (aider)" Date: Wed, 4 Jun 2025 12:39:47 +0900 Subject: [PATCH] feat: implement feed classification and podcast content generation --- scripts/fetch_and_generate.ts | 128 +++++++++++++++++++--------------- services/llm.ts | 57 ++++++++++++--- 2 files changed, 119 insertions(+), 66 deletions(-) diff --git a/scripts/fetch_and_generate.ts b/scripts/fetch_and_generate.ts index ccbb56d..5d558ce 100644 --- a/scripts/fetch_and_generate.ts +++ b/scripts/fetch_and_generate.ts @@ -1,5 +1,8 @@ import Parser from "rss-parser"; -import { openAI_GenerateScript } from "../services/llm"; +import { + openAI_ClassifyFeed, + openAI_GeneratePodcastContent +} from "../services/llm"; import { generateTTS } from "../services/tts"; import { saveEpisode, markAsProcessed } from "../services/database"; import { updatePodcastRSS } from "../services/podcast"; @@ -36,68 +39,81 @@ async function main() { feedUrls = []; } + // フィードごとに処理 for (const url of feedUrls) { const feed = await parser.parseURL(url); - for (const item of feed.items) { + + // フィードのカテゴリ分類 + const feedTitle = feed.title || url; + const category = await openAI_ClassifyFeed(feedTitle); + console.log(`フィード分類完了: ${feedTitle} - ${category}`); + + // 昨日の記事のみフィルタリング + const yesterday = new Date(); + yesterday.setDate(yesterday.getDate() - 1); + + const yesterdayItems = feed.items.filter(item => { const pub = new Date(item.pubDate || ""); - const today = new Date(); - const yesterday = new Date(today); - yesterday.setDate(today.getDate() - 1); - - if ( + return ( pub.getFullYear() === yesterday.getFullYear() && pub.getMonth() === yesterday.getMonth() && pub.getDate() === yesterday.getDate() - ) { - // Use item.id if available, otherwise generate fallback ID from title or link - const itemId = item["id"] as string | undefined; - const fallbackId = item.link || item.title || JSON.stringify(item); - const finalItemId = - itemId && typeof itemId === "string" && itemId.trim() !== "" - ? itemId - : `fallback-${Buffer.from(fallbackId).toString("base64")}`; - - // Skip if even the fallback ID is missing (should be rare) - if (!finalItemId || finalItemId.trim() === "") { - console.warn(`フィードアイテムのIDを生成できませんでした`, { - feedUrl: url, - itemTitle: item.title, - itemLink: item.link, - }); - continue; - } - - const already = await markAsProcessed(url, finalItemId); - if (already) { - console.log(`既に処理済み: ${finalItemId}`); - continue; - } - - console.log(`スクリプト生成開始: ${finalItemId}`); - const scriptText = await openAI_GenerateScript({ - title: item.title ?? "", - link: item.link ?? "", - contentSnippet: item.contentSnippet ?? "", + ); + }); + + if (yesterdayItems.length === 0) { + console.log(`昨日の記事が見つかりません: ${feedTitle}`); + continue; + } + + // ポッドキャスト原稿生成 + console.log(`ポッドキャスト原稿生成開始: ${feedTitle}`); + const podcastContent = await openAI_GeneratePodcastContent(feedTitle, yesterdayItems); + + // トピックごとの統合音声生成 + const feedUrlHash = crypto.createHash("md5").update(url).digest("hex"); + const categoryHash = crypto.createHash("md5").update(category).digest("hex"); + const uniqueFilename = `${feedUrlHash}-${categoryHash}.mp3`; + + const audioFilePath = await generateTTS(uniqueFilename, podcastContent); + console.log(`音声ファイル生成完了: ${audioFilePath}`); + + // エピソードとして保存(各フィードにつき1つの統合エピソード) + const firstItem = yesterdayItems[0]; + const pub = new Date(firstItem.pubDate || ""); + + await saveEpisode({ + id: `topic-${categoryHash}`, + title: `${category}: ${feedTitle}`, + pubDate: pub.toISOString(), + audioPath: audioFilePath, + sourceLink: url, + }); + + console.log(`エピソード保存完了: ${category} - ${feedTitle}`); + + // 個別記事の処理記録 + for (const item of yesterdayItems) { + const itemId = item["id"] as string | undefined; + const fallbackId = item.link || item.title || JSON.stringify(item); + const finalItemId = + itemId && typeof itemId === "string" && itemId.trim() !== "" + ? itemId + : `fallback-${Buffer.from(fallbackId).toString("base64")}`; + + if (!finalItemId || finalItemId.trim() === "") { + console.warn(`フィードアイテムのIDを生成できませんでした`, { + feedUrl: url, + itemTitle: item.title, + itemLink: item.link, }); - - // Generate a unique filename using the feed URL hash and item ID - const feedUrlHash = crypto.createHash("md5").update(url).digest("hex"); - const itemIdHash = crypto.createHash("md5").update(finalItemId).digest("hex"); - const uniqueFilename = `${feedUrlHash}-${itemIdHash}.mp3`; - - const audioFilePath = await generateTTS(uniqueFilename, scriptText); - - console.log(`音声ファイル生成完了: ${audioFilePath}`); - - await saveEpisode({ - id: finalItemId, - title: item.title ?? "", - pubDate: pub.toISOString(), - audioPath: audioFilePath, - sourceLink: item.link ?? "", - }); - - console.log(`エピソード保存完了: ${finalItemId}`); + continue; + } + + const already = await markAsProcessed(url, finalItemId); + if (already) { + console.log(`既に処理済み: ${finalItemId}`); + continue; } } } diff --git a/services/llm.ts b/services/llm.ts index 31d0cf4..0c7266c 100644 --- a/services/llm.ts +++ b/services/llm.ts @@ -6,19 +6,56 @@ const clientOptions: ClientOptions = { }; const openai = new OpenAI(clientOptions); -export async function openAI_GenerateScript(item: { - title: string; - link: string; - contentSnippet?: string; -}): Promise { +export async function openAI_ClassifyFeed(title: string): Promise { const prompt = ` -あなたはポッドキャスターです。以下の情報をもとに、リスナー向けにわかりやすい日本語のポッドキャスト原稿を書いてください。 +以下のRSSフィードのタイトルを見て、適切なトピックカテゴリに分類してください。 -- 記事タイトル: ${item.title} -- 記事リンク: ${item.link} -- 記事概要: ${item.contentSnippet || "なし"} +フィードタイトル: ${title} -「今日のニュース記事をご紹介します…」といった導入も含め、約300文字程度でまとめてください。 +以下のカテゴリから1つを選択してください: +- テクノロジー +- ビジネス +- エンターテインメント +- スポーツ +- 科学 +- 健康 +- 政治 +- 環境 +- 教育 +- その他 + +分類結果を上記カテゴリのいずれか1つだけ返してください。 +`; + const response = await openai.chat.completions.create({ + model: import.meta.env["OPENAI_MODEL_NAME"] ?? "gpt-4o-mini", + messages: [{ role: "user", content: prompt.trim() }], + temperature: 0.3, + }); + const category = response.choices[0]!.message?.content?.trim() || "その他"; + return category; +} + +export async function openAI_GeneratePodcastContent( + title: string, + items: Array<{ title: string; link: string }> +): Promise { + const prompt = ` +あなたはプロのポッドキャスタです。以下に示すフィードタイトルに基づき、そのトピックに関する詳細なポッドキャスト原稿を作成してください。 + +フィードタイトル: ${title} + +関連するニュース記事: +${items.map((item, i) => `${i + 1}. ${item.title} - ${item.link}`).join("\n")} + +以下の要件を満たしてください: +1. トピックの簡単なイントロダクションから始めてください +2. 各ニュース記事の内容を要約し、関連性を説明してください +3. 視聴者にとっての価値や興味ポイントを解説してください +4. 約1000文字〜1500文字程度の長さにしてください +5. 自然な日本語の口語表現を使ってください +6. トピック全体のまとめで締めくくってください + +この構成でポッドキャスト原稿を書いてください。 `; const response = await openai.chat.completions.create({ model: import.meta.env["OPENAI_MODEL_NAME"] ?? "gpt-4o-mini",