長い紹介は嫌いしたがって、私はネタバレの下でもそれらを書きません。
- なんで?
- 私のリーダーはFB2をサポートしていません!
- 欲しい!
- Python 2.7+をご覧ください 。 Python 2.7.3でテスト済み。
- ライブラリBeautifulSoup 4 を配置します。簡単なオプション:
apt-get install python-beautifulsoup4easy_install beautifulsoup4pip install beautifulsoup4- ソースと
python setup.py install
- リポジトリからコードをダウンロードします (最新バージョンへの直接リンク )。
habrafav.pyファイルを開き、 username = ...行でusername = ...指定します。python habrafav.py (またはWindowsではhabrafav.pyのみ)- 待っています。 キャッシュされたデータでは、最大150件の記事をエクスポートするには約6分と600 MBのRAMが必要です。
habrahabr_favorites.fb2を取得しhabrahabr_favorites.fb2 。 私は約62 MBかかります。
- すでにされています。
- 知ってるよ。 のみ
- PDFはどこにでも正常に表示されません。
- そのコードを実行できませんでした。
- コメントはありますか?
- いや 解析は行われますが、エクスポートは行われません。 ねじ込むのは難しいことではありませんが、結果のファイルは2、3回ごとに膨張します。
- FB2を選ぶ理由
- それはXMLだからです。 信じられない? 説明 、 スキーム 。
- 変換は正しいですか?
- そうでもない。 結果のファイルは検証に合格しません。
お気に入りの検証結果This element is not expected.
<empty-line> -287回<code> -83回<emphasis> -19回<strong> -7回<subtitle> -5回<cite> -4回<a> -3回<image> -2回<sup> -1回
Character content other than whitespace is not allowed because the content type is 'element-only'. タグは<cite> 、245回です。empty tag 。 タグ- <td> 、19回。
- ただし、Kindleの結果ファイル(.mobiに変換後)は完全に表示されます。
- そして、非公式の観点から?
- UPD:修正されました。 バグがありました。 リポジトリからバージョンをダウンロードします。
テキスト内のタグの周囲のスペースが消えるという奇妙なバグがあります。 つまり、 yet another bicycle HTMLコードがyet another bicycle変わります。 これはおそらくBeautifulSoupのバグですが、どこかにバグがあるのかもしれません。
- 実装で興味深いことはありますか?
- そうでもない。 すべての解析は、適切なライブラリ呼び出しになります。 その後、すべての写真を取り出してタグを交換します

<image l:href="#image_id"/> 。 次に、松葉杖の小さなセットを使用して、解析ツリーを再構築します。 いくつかのタグを削除し、他のタグを置き換え、3番目のタグを挿入します。 最後に、すべてをまとめて、ヘッダーと地下室を追加し、ファイルに書き込みます。 完全に些細なことではないが、 <br>タグをに置き換えるだけ. - . - conversion.py , make_paragraphs . . - . - conversion.py , make_paragraphs .
はい、 govnokod.ruへの同じ直接道路です!
- 可能です。 私はBeautifulSoupの可能性のみを調査しているので、確かにいくつかのことはいつものようにはできませんでした。 コメントであなたの視点を書いて、私たちは議論します。
別のバグを見つけました!
- BitBucketはforkをサポートしています。