181351 posts 1993 follows 1215 followers
Please pay attention to random failures.
https://mstdn.maud.io/@omasanoriHTMLのパースめんどいなと思って、ひとまずPandocかなんかでプレーンテキストに変換して処理することを思いついた。
マークアップを捨てているのでマークアップを見て重要な部分でスコアリングする実装に比べたら結果はショボくなるけれど、やることは簡単になるしWordファイルなども検索できるようになる。