NLP_Note
そのEmbeddingしたベクトルの比較を、 NN Classifierで測る
- その前にとりあえずCos Distanceでやった。
- Cos-Distだと、次元が多い場合よくない
データー
- TED Talkのネット上のまとめノート
紐付け作業
- とりあえず、複数文にまたがる場合は最初のところに紐づけてる
- 一個飛ばしで、 http://www.kevinhabits.com/ted/ のノート
NN
- そのうち、できたら時間データー組み込む
将来的に課題になりそうなとこ
- 紐付け位置、最初の部分だけで良いのかな
- 長すぎる文/短すぎる文をそのまま突っ込んで問題あるかな
- 長すぎる文は、だいたい発言の連続
- BERTかけるだけで問題ないかな
- 選び方にバイアス出そう(動画の長さとか)
思ったこと
- 映像の中の欲しい部分を自然言語で書くと、字幕読んで持ってきてくれるものが生まれる
- “XXX"が引用ってことを学べる? (BERTを突っ込んでると無理かな?)
- ノートに取るべき/取らないべきところも学ぶ? #自然言語処理 #Minerva