前情提要:

🗡️ 武俠小說生成器(1):專案緣起


製作向量資料庫

在上次請AI繪製了架構圖,這次我就先從向量資料庫開始進行。

談到武俠小說,當然一定要提金庸。所以我挑了金庸小說的《天龍八部》(北宋)、《射鵰英雄傳》(南宋)、《神鵰俠侶》(南宋)、《倚天屠龍記》(元)、《笑傲江湖》(明)。這幾部算是建構金庸宇宙的主體,字數約528萬字。

在建置時,突然想到,這幾部小說是有時序的,從《天龍八部》到《笑傲江湖》,那麼我有需要讓AI知道彼此之間的關係嗎?

所以我問了AI這個問題:

<aside> ❓

當我在使用大型語言模型製作武俠小說生成器時,為了製作RAG系統,我預計在向量資料庫放入5套金庸小說,這5套金庸小說是獨立的,但是其實每一個小說彼此有一點點關係,有時序關係。你認為對於製作武俠小說生成器而言,我有沒有需要讓RAG系統知道這5套金庸小說有時序關係?如果沒必要,我就可以省下這個步驟。請你逐步分析。

</aside>

這是AI的回應,我稍微濃縮了一下:

<aside> 🤖

我建議可以省略添加時序關係這個步驟,原因如下:

RAG系統與前端

我的設想是生成總字數約為6-7萬字左右的輕武俠小說,每一章節控制在2000-3000字左右,章節控制在30章。

以現行大型語言模型的能力,是不可能一口氣生成數萬字的小說,勢必得分章節進行。因此我們必須把小說元素拆開,各自透過RAG系統生成,再儲存在資料庫中。

最後我們再從資料庫抓取資料,依據章節逐段生成小說。

目前設想的小說元素生成器有: