前のパートでは、inceptionV3モデルの最後から2番目のレイヤーからの信号による写真ポートフォリオの分割について説明しました。 このパートでは、キーワードでポートフォリオを分割する方法を説明します。
大規模なポートフォリオのキーワード辞書では、約100,000語に達することがあります。 あなたが額で直接行動する場合、私たちは100,000サインを取得します。 多くのキーワードは他のキーワードに関連付けられているため、特に大量の冗長情報が含まれているため、このような大量の情報をRAMに保存したくありません。 たとえば、「家族」は「子供」という言葉でよく見られます。 したがって、単語埋め込み手法を使用します(辞書のキーワードは、辞書の次元に比べて低い次元のスペースの数値と比較されます)。
ポイントごとの相互情報(PMI)を使用してWordの埋め込みを実装します(セクション3.1。
記事 )。
アルゴリズムの概念を簡単に説明すると、キーワードのPMIマトリックスが計算され、次にマトリックスの特異分解が実行されます

行列が計算されます

同様の単語が見つかりました。
キーワードごとに類似した単語を見つけ、類似したグループを除外するためのスクリプト データの視覚化とディメンション圧縮については
、第1部で詳しく説明します。
パート1の
著者のポートフォリオを検討します(2歳以下の写真のみを考慮します;約5000枚の写真)。
次の写真が作成されました。
著者は、キーワードによって次の人気のあるトピックを持っていることが判明しました。
- 上からのストリート写真
- 大勢の人がいる場所(メトロ、...);
- 観光地
- 小学生
- 子供がいるスーパーマーケット内
- カウボーイ; 馬
- パン屋; 公共ケータリングのキッチン
- インディアン
- 自転車屋
- フィールドで
- 風景; 自然(やや売れている)
キーワードで人気がありません:
キーワードによってすでに計算された属性を持つ別の著者の
PS ポートフォリオ