へっぽこびんぼう野郎のnewbie日記

けろけーろ(´・ω・`)! #vZkt8fc6J

リスト形式になっているPDFファイルから文字を抽出して画像にしたい

単に文字を画像にすることはできるようになったが、

次はPDFファイルが問題なことに気付いた。

と、思ったが、単にPDFファイルの文字をコピーして、テキストファイルにすれば、簡単にデータベース化できることにも気付いた。

でもデータ化させたテキストファイルの文字は、

1 a0 b5 3 a7 b4

2 a9 b1 4 a5 b2

のように

変数が3つずつで、しかも、行で見れば順番がぐちゃぐちゃなので、

これを、Pythonで言うならば、

{ id : [var1, var2] }

と格納したい。具体的には次のよう。

{

 "1" : ["a0", "b5"],

 "3" : ["a7", "b4"], 

 "2" : ["a9", "b1"],

 "4" : ["a5", "b2"]

 と格納したい。Javaでこういう機能ってどういうものなんだろうか。

そしてこのデータを元に、文字を画像として出力したい。

このへん、読み込み方が微妙に厄介そうだ。

a0

└ b5

 

や、

a5

└ b2

 

●●●●

のような画像を作りたい。

割と簡単そうだけど、うまくいくかなぁと疑問。

趣味だけど、一応明日あさってまでには完成させて公開したい。

最悪でも17日18日には公開したい。