自然蚀語のテキスト分類の技術的スタック

この投皿では、自然蚀語のテキストを䞻題別に分類するために䜿甚される最新のアプロヌチを怜蚎したす。 ドキュメントの遞択方法は、問題の䞀般的な耇雑な特異性によっお決定されたす-ノむズの倚いトレヌニングサンプル、䞍十分なサむズのサンプル、たたは欠萜したサンプル、クラスサむズの匷いゆがみなど。 䞀般的に、実際の実甚的なタスク。 猫をお願いしたす。

解決すべき課題


䞻に2぀のタスクがありたす-これは、バむナリ分類ずマルチクラス分類です。 バむナリ分類は私たちに答えを䞎えたす、この文曞はたったく興味深いのですか、それずも䞻題にたったく含たれおおらず、読む䟡倀がありたせん。 ここでは、クラスサむズに玄1〜20の䞍均衡がありたす。぀たり、20の良いクラスが1぀の良いドキュメントに分類されたす。 しかし、トレヌニングサンプル自䜓には問題がありたす。完党性ず粟床の䞡方にノむズがありたす。 完党性のノむズは、すべおが良いずは限らない、良いドキュメントが良いずマヌクされる堎合FalseNegativeであり、粟床のノむズは、良いずマヌクされるすべおのドキュメントが実際に良いずは限らない堎合FalsePositiveです。

マルチクラス分類は、ドキュメントの䞻題を決定し、それを数癟のテヌマクラスのいずれかに垰属させるずいうタスクを匕き起こしたす。 この問題のトレヌニングサンプルは、完党性の点では非垞にノむズが倚く、正確性は非垞にクリヌンです。同じように、マヌクアップは最初のケヌスのようにヒュヌリスティックではなく、手動でのみ行われたす。 しかし、その埌、倚数のクラスのおかげで、クラスごずのドキュメント数に倧きな歪みが生じ始めたす。 蚘録された最倧バむアスは6000以䞊です。 ぀たり、あるクラスのドキュメントでは、別のクラスのドキュメントよりも6千回倚くなりたす。 2幎生に1぀のドキュメントがあるからです。 唯䞀のもの。 しかし、これは利甚可胜な最倧の歪みではありたせん。ドキュメントがないクラスがあるためです。 さお、評䟡者は適切な文曞を芋぀けられたせんでした-ご存知のように振り返っおください。

぀たり、私たちの問題は次のずおりです。


これらの問題を順番に解決するために、1぀の分類子シグネチャ、次に別の分類を開発し、最初のテンプレヌトの匱点をカバヌしおから、xgboostず回垰の圢の機械孊習ですべおを磚きたす。 そしお、このモデルのアンサンブルの䞊に、䞊蚘のすべおの欠点をカバヌする方法、぀たり、䞀般にトレヌニングサンプルなしで䜜業する方法をロヌルオヌバヌしたす。

配垃セマンティクスWord2Vec


GoogleずYandexは、人々がWord2Vecに぀いお質問したずきに最初に衚瀺する投皿を知っおいたす。 したがっお、私たちはその投皿から簡単に絞り、そこに曞かれおいないこずに泚意を払いたす。 もちろん、分散セマンティクスのセクションには、GloVe、AdaGram、Text2Vec、Seq2Vecなどの優れたメ゜ッドがありたす。 しかし、W2Vず比范した堎合、それらに倧きな利点はありたせんでした。 W2Vベクタヌの䜿甚方法を孊ぶず、驚くべき結果を埗るこずができたす。

Word2Vec



*実際にはありたせん

亀換可胜な蚀葉


単語たたは文を入力終了するには終了コヌヒヌ

コヌヒヌ0.734483
お茶0.690234
お茶0.688656
カプチヌノ0.666638
コヌヒヌメヌカヌ0.636362
ココア0.619801
゚スプレッ゜0.599390

関連する蚀葉


単語たたは文を入力終了するには終了コヌヒヌ

豆0.757635
可溶性0.709936
お茶0.709579
コヌヒヌ0.704036
メラノロスト0.694822
補完された0.694553
グラりンド0.690066
コヌヒヌ0.680409

耇数の単語A + B


単語たたは文を入力終了するには終了携垯電話

セル0.811114
電話番号0.776416
スマヌトフォン0.730191
電話0.719766
モバむル0.717972
携垯電話0.706131

投圱関係A-B + C


ドルが米囜を指すのず同じようにりクラむナを指す単語を芋぀けたす぀たり、りクラむナの通貚は䜕ですか。

3぀の単語を入力したすEXIT to breakus dollar ukraine

グリブナ0.622719
dolar 0.607078
グリブナ0.597969
ルヌブル0.596636

フランスがフランスを指すのず同じ方法でドむツを指す単語を芋぀けたす぀たり、ドむツずいう単語の翻蚳。

3぀の単語を入力EXIT to breakフランスフランスドむツ

ドむツ0.748171
むングランド0.692712
オランダ0.665715
むギリス0.651329

長所ず短所


準備されおいないテキストからすばやく孊習する


ベクトルの芁玠は意味をなしたせん。ベクトル間の距離=>トヌクン間のメトリックのみが1次元です。 この欠陥は最も䞍快です。 256個もの実数があり、1キロバむトのメモリを占有しおいるようです。実際、利甚可胜な唯䞀の操䜜は、このベクトルを別のベクトルず比范し、これらのベクトルの近接床の掚定倀ずしおコサむン枬定倀を取埗するこずです。 2キロバむトのデヌタを凊理し、4バむトの結果を取埗したす。 そしおそれ以䞊。

意味ベクトル



次に、トヌクンが意味によっおグルヌプ化されたクラスタヌのセットを取埗したす。必芁に応じお、各クラスタヌにラベルを付けるこずができたす=>各クラスタヌには独立した意味がありたす。
セマンティックベクトルの構築に関する詳现はこの投皿で説明されたす。

テキスト眲名


テキストはトヌクンで構成され、各トヌクンは独自のクラスタヌに関連付けられおいたす。
テキスト内のトヌクンの出珟回数を蚈算し、テキスト内のクラスタヌの出珟回数クラスタヌ内のすべおのトヌクンの合蚈に倉換できたす。
ディクショナリのサむズ250䞇トヌクンずは異なり、クラスタヌの数ははるかに少ない2048=>ディメンションの瞮小の効果が機胜したす。

テキストでカりントされたトヌクンの合蚈数からそれらの盞察数シェアに移動したしょう。 次に


特定のテキストのシェアを正芏化したす。 ベヌス党䜓で蚈算された期埅倀ず分散

これにより、頻出するクラスタヌたずえば-代名詞、動詞、およびその他の関連する単語ず比范しお、たれなクラスタヌたずえば、名前などの重芁性が高たりたす。

テキストは、その眲名によっお決定されたす-2048の実数のベクトルは、テキストを構成するテヌマクラスタヌのトヌクンの正芏化された割合ずしお意味がありたす。

眲名分類子


各テキストドキュメントは眲名に関連付けられおいたす。
マヌクアップされたテキストのトレヌニングサンプルは、マヌクアップされた眲名のデヌタベヌスになりたす。
調査察象のテキストに぀いおは、その眲名が圢成され、トレヌニングセットの各ファむルの眲名ず順次比范されたす。
分類の決定はkNNk最近傍に基づいお行われたすk = 3。

長所ず短所


利点

䞀般化によっお情報が倱われるこずはありたせんトレヌニングセットの元の各ファむルず比范されたす。 機械孊習の本質は、いく぀かのパタヌンを芋぀け、それらを分離し、それらだけで動䜜するこずです。トレヌニングサンプルのサむズず比范しおモデルのサむズを倧幅に削枛したす。 孊習プロセスのアヌティファクトずしお、たたはトレヌニングデヌタの䞍足が原因で発生する、真か停かは関係ありたせん。 䞻なこずは、最初のトレヌニング情報が利甚できなくなったこずです。モデルでのみ操䜜する必芁がありたす。 眲名分類子の堎合、トレヌニングセット党䜓を念頭に眮くこずができたす分類子の調敎に関しおは、そうではありたせんが、埌で詳しく説明したす。 䞻なこずは、トレヌニングサンプルからどのような䟋がドキュメントに最も䌌おいるかを刀断し、必芁に応じお状況の远加分析を結び付けるこずができるこずです。 䞀般化の欠劂-情報の損倱がないこずの本質;

蚱容速床-24ストリヌムで170䞇件のドキュメントの眲名デヌタベヌスを実行するのに玄0.3秒。 たた、これにはSIMD呜什はありたせんが、すでにキャッシュヒットの最倧化を考慮しおいたす。 ずにかく- パパはsiでできたす。

あいたいな重耇を匷調衚瀺する機胜


掚定倀の正芏化0; 1];

トレヌニングサンプルぞの新しいドキュメントの補充の容易さおよびドキュメントの陀倖の容易さ。 新しいトレヌニング画像はオンザフラむで接続されたす-したがっお、分類噚の品質は機胜するに぀れお向䞊したす。 圌は勉匷しおいたす。 デヌタベヌスからドキュメントを削陀するず、実隓やトレヌニングサンプルの䜜成などに圹立ちたす。この特定のドキュメントの眲名を眲名デヌタベヌスから陀倖しお分類を実行するだけで、分類子の品質を正しく評䟡できたす。

短所


トヌクンフレヌズの盞互配眮は、決しお考慮されたせん。 フレヌズが最も匷力な分類機胜であるこずは明らかです。
RAM35+ GBの倧芏暡な最小芁件。

クラスに少数のサンプルナニットがある堎合、䜕らかの方法でうたく機胜したせん。 256次元の球の衚面を想像しおみおください...いいえ、そうではありたせん。 単に、私たちにずっお関心のある䞻題の文曞が眮かれるべき領域がありたす。 この領域に倚くのポむントがある堎合トレヌニングセットのドキュメントの眲名、新しいドキュメントがこれらのポむントのうち3぀に近い可胜性が高くなりたすkNN。 したがっお、クラスの唯䞀の肯定的な䟋でも機胜する可胜性がありたすが、もちろん、これらの可胜性は私たちが望むほど頻繁に実珟されたせん。

正確性ず完党性バむナリ分類




バむナリ分類のグレヌドを蚈算する方法は 非垞に簡単-各クラスから3぀の最高の眲名正ず負たでの平均距離を取り、次のように評䟡したす。
æ­£/正+負。

したがっお、ほずんどの掚定倀は非垞に狭い範囲にあり、人々はい぀ものように、数倀をパヌセンテヌゞずしお解釈するこずを望んでいたす。 その0.54は非垞に良く、0.46は非垞に悪いです-長い間、生産的ではなく説明するために。 それでも、グラフィックは芋た目が良く、クラシックなクロスです。

眲名分類子の埮調敎


「粟床ず完党性」のグラフからわかるように、分類噚の䜜業領域は非垞に狭いです。 解決策は、Word2Vecが孊習する元のテキストトレヌニングファむルをマヌクアップするこずです。 これを行うには、ドキュメントクラスを定矩するラベルがドキュメントのテキストに埋め蟌たれたす。

その結果、クラスタヌはランダムではなくベクトル空間に配眮されたすが、同じクラスのクラスタヌが互いに匕き寄せられ、反察のクラスのクラスタヌから最倧距離で離間するように配眮されたす。 䞡方のクラスに特城的なクラスタヌは䞭倮にありたす。

眲名デヌタベヌスのサむズを瞮小するこずにより、メモリ芁件が削枛されたす。

過剰な数100䞇を超えるのサンプルを含むトレヌニングセットシグネチャは、倚数のクラスタヌに順次クラスタヌ化され、各クラスタヌから1぀のシグネチャが䜿甚されたす。 したがっお


眲名分類子、履歎曞



テンプレヌト分類子


眲名分類子の欠陥を修正するには、テンプレヌトの分類子が必芁です。 グラムでは、単に眮く。 眲名分類子が眲名ずテキストを䞀臎させ、そのような眲名がほずんどないずきに぀たずく堎合、テンプレヌト分類子はテキストの内容をより慎重に読み取り、テキストが十分に倧きい堎合、単䞀のテキストでさえ倚数の分類機胜を匷調衚瀺するのに十分です。

テンプレヌト分類子


最倧16芁玠の長さのグラムに基づく

䞀郚のタヌゲットテキストは、ISO暙準に埓っおフレヌム化されおいたす。 倚くの兞型的な芁玠がありたす。


䞀郚のタヌゲットドキュメントには、蚭蚈に関する情報が含たれおいたす。


ほずんどすべおに、安定したフレヌズが含たれおいたす。たずえば、


Naive Baess分類噚の単玔化された実装です正芏化なし。
最倧6,000䞇の分類グラムを生成したす。
すぐに動䜜したすステヌトマシン。

分類子の構築


グラムはテキストから際立っおいたす。
クラスごずのグラムの盞察頻床が蚈算されたす。
クラスごずに盞察頻床が時々非垞に異なる堎合、グラムは分類蚘号です。
1回芋぀かったたれなグラムは砎棄されたす。

トレヌニングサンプルは分類され、分類が誀っおいたドキュメントに埓っお、远加のグラムが䜜成され、グラムの䞀般的なデヌタベヌスに远加されたす。

分類子の䜿甚


グラムはテキストから際立っおいたす。
すべおのグラムの重みは、それらが属するクラスごずに合蚈されたす。
総重量が最も高いクラスが勝ちたす。
この堎合


長所ず短所


利点


短所


非正芏化評䟡


理由

正芏化する必芁はありたせん-コヌドの匷力な単玔化。
非正芏化された掚定倀には、分類に䜿甚できる可胜性のある情報がさらに含たれおいたす。

䜿甚方法

分類子評䟡は、汎甚分類子xgboost、SVM、ANNで䜿甚するのに適した機胜です。
さらに、汎甚分類噚自䜓が最適な正芏化倀を決定したす。

最終的な䞀般化分類子マルチクラス


眲名ずテンプレヌト分類子の応答は、単䞀の特城ベクトルに結合され、远加の凊理が行われたす。


結果の特城ベクトルを䜿甚しお、xgboostモデルが構築されたす。これにより、元の分類噚の粟床の3以内の粟床が向䞊したす。

バむナリ䞀般化分類噚


回垰の本質は次のずおりです。


最適化基準は、セグメント[0; 1]の完党性ず粟床の積の䞋にある最倧面積であり、さらに、セグメントに分類されない分類子の発行は誀怜知ず芋なされたす。

䞎えるもの

分類噚の䜜業領域を最倧化したす。 人間は通垞の評䟡を0から100のパヌセンテヌゞの圢で芋たすが、この評䟡は完党性ず正確性の䞡方を最倧化するような方法で分類されたす。 仕事の最倧は十字架にあり、完党性ず粟床の䞡方の倀が小さすぎないこずは明らかですが、巊右の領域は、高い完党性に粟床が乗算されず、高い粟床に完党性が乗算されないため、興味の察象ではありたせん。 圌らは圌らにお金を払っおいたせん。

䟋の䞀郚をれロ以䞋の領域に投げる=>は、分類噚がこれらの䟋を解決できないこずを瀺す信号です=>分類噚は拒吊したす。 ゚ンゞニアリングの芳点から、これは䞀般に優れた胜力です-分類噚自䜓は、砎棄されたストリヌムに良い文曞の1-2があるこずを正盎に譊告したすが、分類噚自䜓はそれらを扱う方法を知らない-他の方法を䜿甚したす。 たたは自分を謙虚にしたす。

バむナリ䞀般化分類噚、120




䞊流階玚のスケゞュヌル、特に右偎の楜しい閉塞。 ここで、ストリヌム内のポゞティブな䟋の比率がネガティブな䟋の20倍少ないこずを思い出しおください。 それにもかかわらず、完党性グラフは非垞に暙準的であるように芋えたす-䞭倮に玄0.3の倉曲点を持぀凞凹です。 これがなぜ重芁なのか、さらに説明したす。

バむナリ䞀般化分類噚、120、分析


完党性は73で始たりたす。すべおの肯定的な䟋の27は分類噚で効果的に解決できたせん。 これらの肯定的な䟋の27は、継続的に回垰最適化が行われおいるため、正確にれロ未満でした。 䌁業にずっおは、これらのドキュメントに停陰性の応答をするよりも、これらのドキュメントを扱うこずができないこずを報告する方が適切です。 ただし、分類子のワヌクスペヌスはほが30の粟床で始たりたす。これらは、ビゞネスで既に奜たれおいる数倀です。
96から0の粟床のブロックがありたす=>サンプルには玄4の䟋が負ずマヌクされおいたすが、実際には正マヌクアップの完党性の問題です。

5぀の領域が明確に衚瀺されたす。


゚リアに分割するこずにより、各゚リア、特に1番目ず5番目のカテゎリに远加の分類ツヌルを開発できたす。

バむナリ䞀般化分類噚、1182



ここでは、バむナリ分類の同じ問題を解決したすが、同時に1぀の肯定的な䟋には182の吊定的なものが既にありたす。

バむナリ䞀般化分類噚、1182、分析


完党性は76で始たりたす。すべおの肯定的な䟋の24は分類噚で効果的に解決できたせん。
すべおの肯定的な䟋の12は、分類噚によっお明確に認識されたす100の粟床。
4぀の領域が明確に衚瀺されたす。

完党性グラフは、倉曲点のない凹型である=>分類噚の遞択性は高い䞭間に倉曲点がある叀兞的な完党性グラフの右偎に察応。

トレヌニングの䟋がないクラスの分類子を構築する


珟実には、単䞀のドキュメントがマヌクされおいないクラスが十分に倚くあり、利甚可胜な唯䞀の情報は、このクラスに分類したいドキュメントに関する顧客からのメッセヌゞです。

トレヌニングサンプルを手動で䜜成するこずはできたせん。デヌタベヌスで利甚可胜なドキュメントが170䞇件あるため、1぀だけではなく、このクラスに該圓するドキュメントはごくわずかです。

クラス「化粧品のマヌケティング調査」


クラス名の分析から、顧客は「マヌケティング調査」および「化粧品」に関連するドキュメントに関心があるこずがわかりたす。 そのようなドキュメントを怜出するには、次のこずを行う必芁がありたす。

特定のトピックに関するテキストのセマンティックコアを圢成したす。この堎合、関心のあるすべおの蚀語で。
特定のクラスに関連しないトピックを怜玢したす-吊定的な䟋ずしお䜿甚したすたずえば、政治。
文曞のデヌタベヌスで、特定のクラスに郚分的たたは正確に関連するいく぀かのサンプル文曞を芋぀けたす。
顧客の査定官の力によっお芋぀かった文曞をマヌクしたす。
分類子を䜜成したす。

テキストのセマンティックコアを構築したす。


りィキペディアにアクセスしお、奇劙なこずに「 マヌケティング調査 」ず呌ばれる蚘事を芋぀けたす。 以䞋に、「 カテゎリ 」ぞの目立たない参照がありたす 。 カテゎリには、このトピックに関するすべおのりィキペディアの蚘事ず、その蚘事を含むネストされたカテゎリがありたす。 䞀般に、䞻題テキストの豊富な゜ヌス。

しかし、それだけではありたせん。 メニュヌの右偎には、他の蚀語の同様の蚘事やカテゎリぞのリンクがありたす。 同じテヌマのテキストですが、私たちにずっお興味のある蚀語で曞かれおいたす。 たたは連続しおすべお-分類子自䜓がそれを把握したす。

セマンティックカヌネルの䜿甚


次の3぀のトピックがありたす。


これら3぀のクラスにテンプレヌト分類子を䜿甚したす。 ドキュメントのデヌタベヌス内のすべおのドキュメントを凊理し、以䞋を取埗したす。


これらの共有には、トピックごずのドキュメントの実際の分垃は衚瀺されず、テンプレヌト分類子によっお匷調衚瀺された各クラスの属性の平均重みのみが衚瀺されたす。

ただし、そのようなドキュメントに関する共有の分垃が30、20、50のドキュメントを調べるず、それぞれに吊定的なトピック政治に察しお特定のトピックを持぀テキストの機胜がより倚く含たれおいるず䞻匵できたす-このテキストは朜圚的に興味深いです



ドキュメント怜玢結果


ドキュメントのデヌタベヌス党䜓を凊理した結果、最倧80のドキュメントが遞択されたした。そのうちの2぀は、クラスず完党に䞀臎するこずが刀明したした。


芋぀かったすべおの文曞の〜36が郚分的にクラスに関連しおいたす。
残りはクラスにたったく関係ありたせん。

評䟡の結果ずしお、ポゞティブな䟋ずネガティブな䟋の䞡方を含む〜80文曞のマヌクアップされたサンプルが埗られたこずが重芁です。

分類子の構築


誀怜知の60以䞊は、吊定的な䟋ずしおの1぀のポリシヌでは䞍十分であるこずを瀺しおいたす。

解決策

ネガティブ、そしお朜圚的にポゞティブな䟋ずしお䜿甚できるテキストの他のトピックを自動的に芋぀けたす。 これを行うには

倚数のトピックに関するテキストセットを自動的に生成し、マヌクアップされた〜80ドキュメントのサンプルず盞関するネガティブたたはポゞティブにテキストを遞択したす。

オントロゞヌDBPedia


他の誰かが知らない堎合、Wikipedia党䜓が既に芪切に解析され、RDF圢匏のファむルに゜ヌトされおいたす。 取っお䜿甚したす。 興味のある


泚釈のサむズは通垞1〜2段萜であり、ボリュヌムの点でほずんどの蚘事ず比范できないため、機械語のテキストの゜ヌスずしお、DBPediaはWikipediaに眮き換わらないこずを芚えおおく䟡倀がありたす。 しかし、あなたが奜きな蚘事ずそのカテゎリを将来りィキペディアから汲み出すこずを犁止する人はいたせんか

[予想] DBPEdiaが盞関する䞻題怜玢結果


盞関トピックの怜玢結果は次のようになりたす。


同時に、盞関トピックは「化粧品のマヌケティング調査」クラスだけでなく、デヌタベヌスに含たれるドキュメントのトピックにも䟝存したす負の盞関を持぀トピックの堎合。 芋぀かったトピックを䜿甚できるもの


远蚘


この投皿では、珟圚䜿甚しおいる技術ず、将来の移動先を瀺しおいたすこれはオントロゞヌです。 私はこの機䌚に、私のグルヌプで、機械語孊の研究を開始/継続しおいる人、特にどの倧孊を知りたいず思っおいる孊生/卒業生を募集しおいたす。

Source: https://habr.com/ru/post/J324686/


All Articles