[Evernote]enexファイルの中身はXML。JPGのOCRは冗長構成。



1.バイナリファイルでなくテキストファイル


最近、とゆさん(@toyu3)と一緒にマロ。さん(@maro_draft)のプログラミング講座を受けています(贅沢な話です)。
その中で、Evernoteのエクスポートファイルについて発見があったので、紹介します。

それまでノートをエクスポートした際に出力される.enex拡張子のファイルはバイナリファイルなんだろうと勝手に思い込んでいたのですが、テキストエディタで開けるXMLファイルでした。

2.画像でも何も全てテキストデータに変換されて収められている


JPGでもExcelファイルでもPDFでも、文字列の羅列人間には意味が読み取れない英数字の羅列に変換されて収められています。
だからノートの任意の位置にファイルを挿入できたり、自由に使えるのですね。

3.JPGのOCRテキストは複数の認識候補が併記されている


Evernoteに貼り付けたJPGは、サーバ側で処理された後にOCR可能な状態になりますが、このOCRテキストもenexファイルの中に記載されていました。

複数の認識候補がタグで区切って併記してあり、OCRミスがあってもある程度カバーできるようになっているようです。
Evernote側では、検索時に多数の候補が挙がってきてしまうことよりも、欲しいノートが見つからないことの方が問題だと考えている、ということなんでしょうね。

[この記事の執筆にかかった時間 38分]
関連記事

移転後の新ブログの更新情報はこちらから受け取れます。

follow us in feedly

移転先ブログのリンク:流れるような一日を


コメントの投稿

非公開コメント

スポンサード リンク
移転先ブログ
プロフィール

坂根(昔はneunzehnと名乗っていました)

Author:坂根(昔はneunzehnと名乗っていました)
■信条
手間は少ない方が良い。
機械にさせられることは、機械にやってもらえば良い。人間は、人間様にしかできない仕事に力を割くべき。
自分の記憶力にはできるだけ頼らずにものごとを処理したい。

■環境
Windows7
スマホ:docomo SC-04E(Android4.2)

■その他
男児1人、女児1人の父親。
妻を含めて4人家族。
職業は司法書士。

■連絡先
Twitter:@sakane0958
mail:sakane@fluentlife.jp

2013年11月にブログを移転しました。
新ブログはこちら↓
http://fluentlife.jp/

リンク
にほんブログ村 司法書士試験
月別アーカイブ
TrackFeed
track feed 流れるような一日を(旧)
LECバナー
ブロとも一覧

ベテラン司法書士浪人生 合格への道  (それから)
最新コメント
最新記事
カテゴリ
検索フォーム
スポンサード リンク
Author : Masayuki Sakane