PHP言語でデータからビット情報の取得

PHP言語でデータからビット情報の取得

普段、あまり利用することのないビット情報。思い浮かぶ限りでは、バイナリデータを扱う際に使用するぐらいではないでしょうか。逆に言えば、バイナリデータを扱う際には、ビット情報へのアクセスが避けられず、できないことには作業も進みません。

何故PHPでやるのか?

C言語やJAVAを使えば効率的に行える作業をわざわざWEB言語であるPHPで行うことは非効率に思えます。

しかし、PHPでバイナリデータを扱えるようになると画像、音声、動画、その他専用ツールでしか動作しないデータをアプリケーションを介さずにWEB上で処理をすることが可能になります。

画像だけで言えばImageMagickなどの外部モジュールを使って、専用のPHPコマンドで楽に処理をすることも可能ですが、データのタイプによってはモジュールが異なりますし、そもそも対象のデータタイプのモジュールが存在しない場合もあります。

必ずしもPHPMPの利用が最善というワケではありませんが、とりあえずWEBエンジニアが行う選択肢としては悪く無いという程度の考えですね。

もちろんPythonでもRubyでもJavaScriptでも・・・何でも良いというレベルでもあります。
とにかく気軽にバイナリデータを扱いましょうということなのです。

ここで、エンジニアではない人でも少し分かるように解説させていただきます。

バイナリ基礎知識

バイナリは基本的に2進数です。サクッとwikiを調べてみても、やはり同じようなことを説明しています。
<参考:ウィキペディア「バイナリ」>

それでもウィキペディアの情報だけでは、エンジニアではない人にしてみれば理解し難い情報かと思われます。できるだけ分かりやすく説明してみます。

パソコンのデータは2パターン

そもそも、パソコンのデータは「テキストデータ」と「バイナリデータ」の二種類しかありません。
テキストデータはメモ帳などで使っているような、「*.txt」などのファイル拡張子がついています。いわゆる、人の目で見て分かるデータと理解してください。
つまり、それ以外は全てバイナリデータ(ファイル)です。

サンプル

「*.csv」の中身をテキストエディタで見たことがある人は分かっていただけると思いますが、エクセルのデータが書き込まれているのが分かります。

image03

image04

しかし「*.xls」ファイルの場合はテキストエディタではまともに開けず、無理やり開いたところで訳の分からない文字列が並んでいるのが見て分かります。これがバイナリデータになります。

image07

今回は、このバイナリデータを読み込む処理を行います。

読み込みパターン

実際のプログラムでデータを読み込んでみます。
ここではvertualboxにPHPモジュールをインストールするか、サーバにデータを置いて下記を実行してみてください。なお、この環境構築はググッてください。

bit単位で読み込み

下記のPHPをCLIで実行すると、2進数のバイナリデータが確認できます。

–[getBits.php]–

仕様サンプル

ほとんどのバイナリデータは、データの最初の数バイトをフォーマットの共通データとして保持しています。
拡張子が同じであれば、24bitまたは32bitぐらいが同じということになります。

byte単位で読み込み

実際にbitの2進数で見ても分かりづらいので、通常のバイナリデータは16進数で閲覧します。
そのため、byte対応の読み込みを下記プログラムで実行しましょう。

–[getByte.php]–

仕様サンプル

ヘッダ専用

ヘッダは固定文字+テキストである場合が多いので、下記のコードを実行すると分かりやすいと思います。

これはbit変換せずに、そのままテキスト表示するだけなので非常に楽です。

–[getHeader.php]–

仕様サンプル

4byteで取得した時に、比較的キレイに取得できるのは画像ファイル系のようですね。

バイナリデータのルールを定めるのは対象のアプリケーションなので、世界標準がない以上、そのデータの特性をSDKなどで熟知して対応しないといけないようです。ただ、画像のヘッダ情報で種別判別はできそうですね。

内部情報が取得できるようになると無限の可能性もあるので、こういった技術もPHPで対応可能ということが分かりました。少しマニアックな領域に踏み込んでみましたが、エンジニアとして研究してみるのも面白いと思います。

コメント