FC2ブログ

そんなnewsは犬も喰わない

犬も喰わないnewsの数々に斜め横からアレコレ

スポンサーサイト 

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
[ --/--/-- --:-- ] スポンサー広告 | トラックバック(-) | コメント(-)

とりあえずココログ時代の記事を移管完了 

一応ココログ時代(2004年9月から)の記事をこちらに移管しました。

この件についての記事を断片的にいくつか書いてしまっていてゴチャゴチャしているのでこの後削除したりまとめたりして整理したいと思います。

移管方法は基本的にココログでエクスポートしたpost.htm(文字コードUTF8/改行コードLF/__default__)をFC2にインポートできる形式(文字コードEUC-JP/改行コードLF/default)に変換して読み込ませる、というだけのことでした。

でもいくつか問題も発生したのでそれについて以下にメモしておきます。 テキストファイルの文字コードを変換するのは、たとえばMacOSXではmiなど(サイトはこちら)を使って簡単に行えます。Windowsでも同様のソフトは多数あるのではないでしょうか。

そういう意味ではこれは簡単な作業のはずなんですけど、実際にやってみると色々問題が発生しました。

(1)post.htmの文字コードをUTF8だと認識しない。

ええと、miでpost.htmを開くとShift-JISだと言い張りました。文字コードをUTF8に変更して保存してもまた開くとShift-JISになってしまいます。どうやら文字コードを誤認させるような何かが含まれてしまっているようでした。あと基本的に文字化け状態になってました。

そこで試しにFirefoxで開いてみたところUTF8と認識して文字化けせずに表示してくれました。そこでこの表示された文書を選択→コピペとしたのですがこのときにも問題が発生。こんな↓アラートが出ます。

Unicodeペースト失敗
クリップボードの中にUnicodeから内部文字コードへ変換できない文字がありました。内部文字コードでコピーします。(内部文字コードはフォントによって変わります)

このアラートが出ても大抵は一部文字化けがあるだけでペーストできるのですが、それが出来なくなるケースがありました。

範囲を絞りつつ調べていったところ、私の場合は2005年6月30日の記事の中にそれがあることがわかりました(更に絞り込んで問題の箇所を発見するにはまだ至ってません)。

(2)インポート記事数が多いとエラーが出る。

90個くらいが限界なようです。私の場合は80数個までは認識しましたが93個ではエラーとなりました。93個分の記事を大体二等分してインポートし直したところ問題なく出来ました。

(3)画像リンクがココログのまま。

当たり前といえば当たり前ですが、インポートしても記事中のリンク先はすべてもとの記事のままです。画像へのリンクも当然もとのままです。FC2からココログの画像ファイルにリンクを貼る格好になってしまっていますが、一応問題なく表示されています。ココログを完全に消してしまうとこれも消えてしまうので、対策は必要かもしれません。

(4)その他

...色々あった気がしますが、またあとで書きます。

とりあえずこんなとこで。

(以下追記)
ココログ時代に加えて初代「そんなnewsは犬も喰わない」のころの記事(2003年9月9日から)の分も移管しました。こちらはココログと比べてエラーも出ず簡単にうまくいきました。一つあたりの記事も短いので179エントリ全部を一気にインポート出来ました。

あと、いくつか過去記事を点検した結果、読み込みが失敗しているものを発見しました。原因はまだ不明(大体想像はつきますけど)です。記事の途中部分がコメント相当部分を誤認識されてしまっているようです。文中に「---」なんかが使用されていると拙いのかな、と思います。

FC2のインポートに使っているアルゴリズムがちょっとイイカゲンすぎるんじゃないか...という疑念は湧いています。あとアクセス解析がよく止まるらしいですね。むう...安住の地に選定するには不安があるなあ...。

(以下追記2)

以前に書いた同様ネタのエントリを削除しつつ再利用できそうなネタを集めてみます。

===3/30あたりのネタ↓
ココログのデータ形式(TypePadなのでMovableTypeと同じはず...)とFC2形式との差はパッと見たところ次の二点でした。

(1)文字コード
(ココログ→UTF8 FC2→EUC)
(2)CONVERT BREAKS:
(ココログ→__default__ FC2→default)

なのでとりあえず文字コードをUTF8からEUCに変換(iconvでやりました、私は)。あとは「__default__」を「default」に全置換。

上記作業のあと出来上がったファイルをインポートしたら...出来た!

===3/31あたりのネタ↓
ココログデータのインポートについてはどうもUTF8関係で問題が発生している模様です。ココログからエクスポートしたpost.htmの中にUTF8としてきちんと認識できないような部分があるらしく、テキストエディタ(mi)でもエラーが出るし、iconvを使ってもcannot convertとかいうエラーが出ます。困ったものです。

それ以外ではブログ記事中に引用したデータ型というかレコード部分を引用した何かではなく、そのままレコードの一部と認識されてしまう障害が出ているようです。これについては近々の2~3エントリ以外では関係ないと思われるので、まあ、あまり問題ではなさそうです。

この点に関していうと、どうやら一旦投稿されたトラックバックやコメントに関しても修正や改変や移管が非常に簡単にできるらしいことがよくわかった...というのが意図せざる収穫かな、と。

最初に述べた文字コード絡みの不具合はやや面倒ですが、大筋でココログデータをFC2に移管するのは容易なようです。2chなんかをみると「出来ない」と嘆いている人がいるのですが、難しくもないし諦める必要は全くないと思うのですが、どうなんですかね。人様の事情は測りかねるのでアレですけど。

文字コード絡みの問題(UTF8のものをバグのためにEUC-JPに変換できない)については、今のところ非常に場当たり的ですが、次の方法で対処してみてます。

(1)該当ファイル(post.htm)の拡張子を.txtにしてFirefoxで開く。
(2)ブラウザ画面上に表示されている文字列を選択してテキストエディタ(mi)のファイル(文字コード=UTF8 改行コード=LF)上にコピペ。
(3)iconvを使って文字コードをEUC-JPに変換(miで別名で保存とかをやっても大丈夫かもしれない)。
(4)__default__をdefaultに置換。

ここまでやって出来たファイルをFC2管理画面の「ツール」→「ログのインポート」で読み込ませれば出来上がり!のはずです。
スポンサーサイト
[ 2006/04/01 00:00 ] ウェブログ・ココログ関連 | TB(0) | コメント(-)
プロフィール

犬桑主監

Author:犬桑主監
正式略称は「犬桑news」です。
気軽に呼んでください。

ブログ検索
総合案内

ブロとも申請フォーム


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。