武俠小說生成器(2)：建立向量資料庫

前情提要：

🗡️ 武俠小說生成器(1)：專案緣起

製作向量資料庫

在上次請AI繪製了架構圖，這次我就先從向量資料庫開始進行。

談到武俠小說，當然一定要提金庸。所以我挑了金庸小說的《天龍八部》（北宋）、《射鵰英雄傳》（南宋）、《神鵰俠侶》（南宋）、《倚天屠龍記》（元）、《笑傲江湖》（明）。這幾部算是建構金庸宇宙的主體，字數約528萬字。

向量資料庫建立程式，有興趣的人可以閱讀

在建置時，突然想到，這幾部小說是有時序的，從《天龍八部》到《笑傲江湖》，那麼我有需要讓AI知道彼此之間的關係嗎？

所以我問了AI這個問題：

<aside> ❓

當我在使用大型語言模型製作武俠小說生成器時，為了製作RAG系統，我預計在向量資料庫放入5套金庸小說，這5套金庸小說是獨立的，但是其實每一個小說彼此有一點點關係，有時序關係。你認為對於製作武俠小說生成器而言，我有沒有需要讓RAG系統知道這5套金庸小說有時序關係？如果沒必要，我就可以省下這個步驟。請你逐步分析。

</aside>

這是AI的回應，我稍微濃縮了一下：

<aside> 🤖

我建議可以省略添加時序關係這個步驟，原因如下:

對於生成新的武俠小說來說，風格和寫作技巧的參考更為重要
時序關係對生成質量的提升有限
可以將精力集中在優化其他更重要的方面，如:
- 提升檢索準確度
- 優化提示詞設計
- 改進生成品質 </aside>

RAG系統與前端

我的設想是生成總字數約為6-7萬字左右的輕武俠小說，每一章節控制在2000-3000字左右，章節控制在30章。

以現行大型語言模型的能力，是不可能一口氣生成數萬字的小說，勢必得分章節進行。因此我們必須把小說元素拆開，各自透過RAG系統生成，再儲存在資料庫中。

最後我們再從資料庫抓取資料，依據章節逐段生成小說。

目前設想的小說元素生成器有：

角色生成器
武器裝備生成器