闘う図書館と情報の自由―ライブラリー・フリーダム・プロジェクト(八田真行) news.yahoo.co.jp/byline/hattam 図書館は利用者の知的自由を守る砦。米国のLFPは図書館司書にTorのようなプライバシー強化ツールの使い方を伝授

本日のロードで707,527,942トリプル。このあと最終調整が少し入るが、7億トリプルの構造化メタデータ。これはすごいと言っていい

英語データの範囲記述を扱う時、EN DASH(U+2013)というのが曲者で、一見すると - のように思えるため処理を間違いやすく、しかもUnicode扱いしないと正規表現マッチしてくれない。しかし意味的にはこちらのほうが正しいので、文句をいう筋合いでもない。要注意

生成したRDFグラフを図示してみて、ループしている関連が見つかり、バグを発見。やはり視覚化してみるのは重要

ローマ字があればカナは不要だろうと思って割愛したが、Toyaから都屋をさがすべきなのか遠谷なのか判断できないので、いろいろソースと照合しながら復元。これは難しい作業だ

カスタムCSSが急に効かなくなったので、ページ構造が変わったのかと思ったら、URIにsが加わったので、対象スタイルがマッチしなかっただけだった。何でもかんでもHTTPSだからねぇ…

LibreOfficeを約1年半ぶりにアップデートして6.1.4に。動作が少し軽快になったような気がする

ひさびさにIIIF関連をいじった。3D方面だけど

Introduction to Wikidata as a platform and data source developer.ibm.com/?p=75754 WikidataのAPIをcurl、jq、サンドボックスなどのツールやUIで使いこなすという記事

場所情報は正規化が難しいが、おおまかでも設定すると、地図で視覚化できるので効果が大きい。精度と地図縮尺の調整がポイント

地図の表示にはさすがにLeafletが便利。個別に緯度経度を付与するのは限界があるので、典拠に頑張ってデータを加え、間接的にでも表示できるようにした。結構インパクトある

オブジェクトのclone漏れによるバグをようやく修正。これは見つけるのに苦労した

久しぶりに全グラフ入れ替えを実施したら、データのロードで躓いた。大きなグラフはロードし終わっても後処理が重いようで、続けて他のグラフをロードしようとすると極端に遅くなる。しっかり間を置けば大丈夫そうだが、連続処理にはメモリの限界か

データをオープンな世界とつなぐ鍵が見つかると、うまくモデルを構築してマッピングできる。それが分からないデータは、肝心なところがブラックボックス(あるいは領域のみの常識)で、ここを世界につなぐ回路を作るのに膨大なエネルギーが必要

確かにシンタックスハイライトを入れると広い利用者向けにはよさそう

4K/8K放送が始まっても別に関係ないやと考えていたが、アーカイブという観点ではこれは大きな出来事だと今更ながら。現在のHD1080pの画素数2Mが8K4320pでは33Mになり、フルスペックだと非圧縮144.3Gbpsだというから、そのまま保存すれば1時間で65TBにもなる。アーカイブに必要なストレージが桁違いに膨れ上がるわけで、当然それに対応する機材も出てはくるだろうけれど、必要な場所をシークして探すというのもどんどん困難になり、ますます詳細なメタデータが重要になるというわけだ

SPARQLエンドポイントのある文化財関係サイトを探し、IDを工夫して統合クエリの範囲を広げていく。なかなか面白い

不完全ながらもEuropeanaとの統合クエリができてちょっと感動。あちらがEntity API相当のデータをエンドポイントでも提供してくれたらもっとスムーズになるはずで、期待

5000人近くの芸術家について、典拠間でこれとこれは同じ/異なるという同定作業。本当はそれぞれの活動内容や作品を吟味して検討すべきなのだけれど、そこを大幅に簡略化して大急ぎで進め、没年を機械的に比べる中で、時々あぁ数年前までは健在でご活躍だったんだなという思いがよぎり、メタデータの業を感じたりする。同定漏れよりも誤同定の方が罪深いので、できるだけ丁寧に確認はしたいところだが、全件チェックするわけにも行かず、悩ましい

2つの典拠を照合しようとして、ツールで生没年まで取得しているのだけれど、1年ずれていたり、一方で没年が漏れていたりと、かなりの部分で個別確認が必要で、恐ろしく手間がかかる

Show more
mastodon.cloud

Generalistic and moderated instance.