SereneBachからWordPressへの乗り換えメモ(2)


..WPはなんていうか長文書きやすいな..

とりあえず、Wordpressのインストールは終了していることとします。

SereneBachからMovable Type型式で書き出したファイルをWordpressで読み込むとちゃんと読み込めることを確認しました。Movable Type型式のファイルをテキストエディタで開くとこんな感じ。

AUTHOR: admin<br />
TITLE: Akismetプラグイン<br />
STATUS: Publish<br />
CONVERT BREAKS: 1<br />
ALLOW COMMENTS: 1<br />
ALLOW PINGS: 1<br />
PRIMARY CATEGORY: サイト管理<br />
DATE: 04/28/2008 00:51:56<br />
-----<br />
BODY:<br />
..稲本のミドルはすかっとするね..&lt;br /&gt;&lt;br /&gt;いままで、<br />
(中略)<br />
-----<br />
EXTENDED BODY:<br />
 <br />
-----<br />
EXCERPT:<br />
 <br />
-----<br />
KEYWORDS:<br />
 <br />
-----<br />
 <br />
--------

「AUTHOR: admin」のadminは一人で書いてるのでとりあえず全記事で共通なので変えなくてよさそう。「TITLE: Akismetプラグイン」のAkismetプラグインはタイトルなので記事ごとに変更する必要がありそう。「STATUS: Publish」「CONVERT BREAKS: 1」「ALLOW COMMENTS: 1」「ALLOW PINGS: 1」もそのままでよさげ。「PRIMARY CATEGORY: サイト管理」は記事ごとに変更の必要がありそう。調べると「CATEGORY:」でサブカテゴリもしていできそうだけど、今回はやらない方向で。「DATE: 04/28/2008 00:51:56」の部分は、この型式にシリアル値から変換する必要があるんだろうな。「—–」も意味ありげ。「BODY:」も意味はわかるし、「n」や「t」はどこかで変換しておく必要があることが、何度かテストで読み込ませてみて確認。「EXTENDED BODY:」以降も意味はわかるけど、今回はとりあえず無視する方向で…。「——–」で一応データの区切りとして、複数の記事を1つのファイルにして読み込ませることができることも確認。空行もたぶん意味があるので、そのまま再現すると。それから実際に読み込み作業をはじめてからわかったことだけど、Wordpressでは「同じ時間の記事は同じ記事と判断される」「タイトルの重複は許容されない」ということもあとから判明。それから文字コードは「UTF-8」の模様。


ということで、ここまででわかった必要な作業は、

  • 1行だけの複数ファイルの結合
  • 文字コードEUC-JPからUTF-8への変換
  • シリアル値をMovable Type型式の日時型式に変換
  • Movable Type型式へのフォーマット

という作業をすれば記事の移転ができそう。で、どれでやろうか…という話なんだけど、最近、なでしこいじってたんで、それでやろうかなぁって思って調べてみたら、どうもシリアル値の変換が簡単にはいきそうもない感じ…HSPは環境つくりからだし…。PHPあたりかなぁ…とも思ったけど、たぶん、ワンステップ、ワンステップ手探りになるので面倒そう。それにとにかく時間がないし…。ということで、それぞれツールを見つけてきてやることに…。「1行だけの複数ファイルの結合」には「TXTJOIN 1.5」というものを、「文字コードEUC-JPからUTF-8への変換」には「KanjiTranslator 1.6」を使用。「TXTJOIN」がSJISしか対応していないようなので、「KanjiTranslator」でSJISに変換→「TXTJOIN」で結合→「KanjiTranslator」でUTF-8に変換ってな感じで作業。

ここまでで、タブ区切りテキストができたので、このあとはエクセルで作業。

読み込むとこんな感じ。
C列がタイトルでD列がカテゴリ、E列が日時だろうなぁ。本文のセルが3つにわかれているので、新たに列を作って、「=R1&S1&T1」などとして結合しておくとよさげ。また、データの並べ変えなどで確認しながら、必要のない列の削除、必要な列(タイトル・カテゴリ・日時・連結した本文)の追加・整理などを実行。カテゴリは「category.cgi」をUTF-8に変換し、別のシートに読み込み、「VLOOLUP関数」でマッチさせて引き出せるように設定。
整理するとこんな感じ。
次はシリアル値を変換する必要があるんだけど、PERLのシリアル値とエクセルのシリアル値はベースが70年くらい違うので…なんか計算をしてるページを検索中に見つけたんだけど、あとで読もうと思ったら、再度みつけることができなくて仕組みがよくわからないので、ここの列だけ、PHPで計算することに…。

続く…

カテゴリー: サイト管理 タグ: , パーマリンク
おもろないいまいちだふつう…だまあまあだおもしろい (未評価)
※よろしければ、今後のために「おもろ指数」の評価をお願いします。
Loading...

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です