Форум » ОБЪЯВЛЕНИЯ » Требуются инициативные добровольцы-энтузиасты-альтруисты! » Ответить

Требуются инициативные добровольцы-энтузиасты-альтруисты!

А-Р: Я наконец-то раскрутил Волкова В.П. на протоколы прошлого века, не прошло и 10 лет (для этого пришлось поменять место жительства, втереться в доверие к "противнику" и прикинуться крутоватым марафонцем). Вчера притащил от ВВП увесистую пачечку судейских вторых экземпляров протоколов (=полная копия первых, основных). Марафоны со 2-го по 10-й (1978-1986 гг). Дистанции - 10, 20 и марафон М+Ж, включая по группам. Есть предложение! Дружно собраться и все это "обэлектронить", желательно в тексте - с последующим занесением в БД Ak55. На руки я их давать никому не буду по определению. Мои предложения такие. Берем для начала все марафоны за этот период, основной протокол (протокол по группам игнорируем). Я их сканирую и ЛИБО помещаю на общедоступный www-ресурс (в графике, без распознавания, поск. распознавать большого смысла не вижу), ЛИБО отсылаю на почту вызвавшимся оказать посильную помощь проекту добровольцам. По завершении ручного перевода графики в текст отсылаем протоколы на ПроБЕГ - и потомки будут нам благодарны! Ваши встречные предложения? Если вы со мной согласны, то записывайтесь в кач. инициативного добровольца-энтузиаста-альтруиста! Если не согласны, то давайте обсудим. ЗЫ. Протоколы не маленькие (в заинтересовавшем меня М42-1986 314 финишеров + с десяток Ж). Работа большая. Бесплатная. Кроме глубокого морального удовлетворения и неисчерпаемой благодарности любителей бега (как прошлых, так и нынешних + будущих) никаких поощрений ждать не приходится. На тек. момент уже есть 1 доброволец, чему я несказанно рад! ЗАПИСЫВАТЬСЯ ЗДЕСЬ!

Ответов - 83, стр: 1 2 3 All

Ak55: А-Р пишет: Я их сканирую Если все эти протоколы - не рукописные, а машинописные, то мой совет - сканируй с разрешением 420 или 480 ppi. Тогда на сканы можно будет довольно уверенно натравить FineReader.

sphinx: Мне в первую очередь скан 8-го марафона на sheker AT mail.ru. Сегодня будет свободный вечер.

Goose: Если такой есть, и чуть-чуть нарушить правило "начнем с марафонов" то я бы для начала выбрал Гжель-2000, ну а если нет - тогда все равно, вобью любой.


А-Р: Которые я пока еще даже не отсканировал. Поэтому не обещаю, что успею это сделать до сегодняшнего вечера. sphinx'у вышлю протокол 8-го КМа, - как отсканирую, так и сразу. Goose вышлю протокол 2-го КМа, - как отсканирую, так и сразу. По совету Ak55 буду сканировать с разрешением >400dpi - с тем, чтоб у желающих+могущих (могучих ) была бы возможность попробовать распознать.

sphinx: А в какой формат и какую форму? Неплохо, что бы был шаблон или образец. А то получится кто в лес, кто по дрова. Потом еще надо будет приводить к единому виду.

Ak55: Должны быть следующие поля: место абс результат (разделители между часами, минутами и секундами - в том виде, в каком в протоколе) фамилия имя год (дата) рождения нагрудный номер (если есть) страна (если есть) город клуб группа место в группе вместо двух полей "фамилия" и "имя" можно сделать одно поле "Фамилия имя", где фамилия и имя разделены пробелом. Если имя неполное, а только инициал, или какое-либо сокращение - то в том виде, как в протоколе, включая знаки препинания. ширина полей не ограничивается. порядок следования полей безразличен. если результат будет оформлен в виде Excel-таблицы, то все поля должны иметь тип "текст" во избежание ошибок при конвертации. В заголовке таблицы должны быть указаны точное наименование пробега по протоколу, дата пробега, дистанция. Если что еще - спрашивайте.

Бор: A-P. Андрей, пришли мне один протокол, попробую сделать. Ak55 пишет: если результат будет оформлен в виде Excel-таблицы А в каком формате предпочтительнее? Word, Excel?

sphinx: А протокол потом конвертируется в какую-то базу или в какой-то другой фиксированый формат? Если второе, то может сразу набирать, чтобы потом не конвертировать? А заголовки колонок могут иметь произвольное имя? Если порядок колонок непринципиален и имена колонок тоже, то непонятно как в них разбирается конвертор. Есть ли требования к шапке протокола или все произвольно?

Ak55: И тот, и другой подойдет. Как тебе будет привычнее. Если Word - то тоже лучше в виде таблицы.

Ak55: sphinx пишет: то непонятно как в них разбирается конвертор. Конвертером буду работать я, надеюсь, что разберусь, до сих пор получалось. Главная просьба - сохранить информацию в том виде, как она представлена в протоколе. Даже если вы видите ошибку, ее исправлять НЕ НАДО! Просто сообщите о ней в комментарии к полученной таблице. Если ошибок обнаружите много, можно завести еще одну колонку "Комментарий". Все дело в том, что помимо конвертации (для интересующихся - в dbf-формат), мне приходится выполнять еще и идентификацию каждого конкретного бегуна, а в этом никакой конвертер не поможет.

А-Р: (или даже требованию!) - оставлять все ошибки протоколов в их исходном виде без всяких правок. Разумеется, это не касается ошибок распознавания текста, если вдруг кто возьмется распознавать. Бор, тебе зарезервирую, например, 7-й КМ.

Бор: А-Р пишет: тебе зарезервирую, например, 7-й КМ Высылай. Ak55, dbf-формат - FoxPro? Если да, то - DOS-вский или VFP?

comcur: И мне можно один выслать: comcur AT mail ru

yola: А-Р пишет: есть 1 доброволец уже два

А-Р: МЖ42-VIII. Попробуем обкатать это дело на sphinx'е. Я решил не почтой слать, а выкладывать на сайт. Думаю, так разумней: если один доброволец "застрянет", не надо будет еще раз слать пр-лы на др. майл - можно просто кинуть ссылку другому помощнику.

А-Р: "Мне нравится моя рабо-о-та, Гори, гори моя звезда!..." /© ББГ/

Chapay: Кстати, у меня была программка, которая распознаёт прямо с экрана - выделяешь нужный кусок экрана - и нажимаешь кнопку. Сама сидит в трее и активизруется "горячими клавишами". Кажется это была ABBYY Screenshot Reader. Если её найду, то мож прям с сайта всё буду распознавать.

НА: yola пишет: уже два уже три.

sphinx: Посмотрел сканы. Боюсь, что распознавание тут будет бессильно, но попробую. Есть места, где строки наезжают друг на друга. Есть места, где отсутствуют буквы, цифры. Кстати, АР, в 4 и 5 файле правый нижний угол так и в оригинале или это дефект при сканировании. Если так и в оригинале, то пару результатов восстановить не удастся. Вопросы к АК55. 1.Сохранять разбивку по листам или можно в одну табличку? 2.Что делать, если невозможно достоверно понять какую-то букву или цифру. Ставить на ее место какой-то условный значок типа звездочки или знак вопроса? В названиях городов и клубов эти дефектные символы можно легко угадать. В фамилиях немного сложнее - бывают очень неожиданные фамилии. Дефект в нагрудном номере почти бесполезно исправить. Занятое место легко восстановить логически.

А-Р: sphinx, к сожалению, непонятки в конце двух листов - из оригинала. Даже глядя туда, я не смог понять, что же там должно быть. :( Так что пробелы/проблемы будут уже на этой стадии. sphinx пишет: Боюсь, что распознавание тут будет бессильно, но попробую. Просто сколько понадобится времени на правку распознанного.... не лучше ли его потратить на ручной ввод. Хотя вполне допускаю, что кто-то уже набил руку в распознавании и у него получится. Но здесь надо начинать с грамотного сканирования (не только достаточный dpi, но и контраст, возможно, еще какие-то параметры...). Если такие мастера есть, скажите оптимальные параметры сканирования. Хотя, подозреваю, что они получаются экспериментальным путем для каждого конкретного протокола. А это, опять же, уйму времени займет...

Ak55: Разбивка по листам - непринципиальна, лучше - в одну таблицу Непонятные символы - введи так как видишь или замени их знаком "?", но сделай пометку в графе "Комментарий" А распознавание непонятных фамилий и непонятных номеров - оставь на мою долю. Выдумывать только не надо. Я вот сейчас проверяю протокол ММММ-1990, его набивал и распознавал не я (даже и не знаю, кто). Там 137 листов (по 60 строк), я пока добрался до 39-го. На каждом листе 5-10 исправлений приходится делать.

taurus:

Ak55: taurus пишет: Андрей, насколько эта задача будет регулярна? (Месяц / год / вечно) Если этот вопрос ко мне, то отвечу так: Это - разовая работа с протоколами ККМ, которые добыл Ромуальдыч. Там их получилось много и сразу, для одного человека - действительно очень большая работа. С текущими протоколами я, надеюсь, справлюсь самостоятельно. А присоединение старых протколов к базе, по-моему, не столь критично по времени. Тоже буду производить я, но не форсируя события. Возможно, какому-нибудь еще Штирлицу удастся раздобыть протоколы Белых ночей 2002 года и ранее, тогда может появиться еще одна разовая работа. И еще совсем уж невозможная работа - раздобыть протоколы марафона Золотое кольцо России, умершего в 2002 году. 2001 год - есть, а вот ранее были проведены еще 13 этих марафонов.

sphinx: Ух, обработал всех женщин. Вручную. Теперь мужики. Это будет посложнее.

taurus: sphinx пишет: Ух, обработал всех женщин. Вручную.

Ak55: sphinx пишет: Ух, обработал всех женщин. Вручную. Теперь мужики. Это будет посложнее.

sphinx: Сделал половину. Возможно, завтра удастся закончить. Делаю по такой технологии: загружаю скан в Picture manager, увеличиваю контрастность на 100%, яркость процентов на 20-40 и распечатываю. Ввожу с бумажки. Неразборчивые места смотрю все в том же PM, в котором после печати еще немного увеличиваю яркость и масштаб.

Ak55: Бор пишет: Ak55, dbf-формат - FoxPro? Если да, то - DOS-вский или VFP? По большому счету, мне все равно, какие dbf-файлы Сам я работаю с VFP, но у VP (получился каламбур) с этим форматом VFP возникли некоторые проблемы, поэтому ему для ПроБега базы буду передавать в dbf-формате для DOS. Но я бы советовал как распознавание текста, так и набивку вручную вести в Excel'е. По моему личному опыту в нем удобнее всего. А конвертировать в dbf я смогу и сам, метода уже настроена под любой набор и последовательность полей таблицы.

sphinx: Кому и куда слать результат?

comcur: Вдогонку sphinx у вопрос: я набрал в Excelе Сестрорецк. Надо мне отсортировать по строкам - я имею ввиду по порядку прихода на финиш? Или и так сойдет?

А-Р:

А-Р: Итого текущие протоколы/добровольцы в работе: sphinx - МЖ VIII 1984 (7) Goose - M II 1978 (3) Бор - M IX 1985 (4) comcur - M III 1979 (3) Rushan - M X 1986 (5) Flar - МЖ IV 1980 (4) Если я что-нибудь с чем-нибудь не перепутал. В скобках указано к-во скан-листов. ЗЫ. Ой, что-то я засиделся. А седня вроде ЗелеПом бежать собирался. Ну ладно, с Chapay'ем прорвемся!

sphinx: А-Р пишет: sphinx - МЖ VIII 1984 (7) Так куда девать готовый протокол? Если что-то осталось, то я еще могу...

А-Р: info@probeg.org

yola: А-Р пишет: что-нибудь с чем-нибудь не перепутал

Бор: Вопросы: - Надо ли вносить сошедших, не явившихся, снятых? - Если в протоколе стоит город Кал-д, можно внести Калиниград или оставить, как в первоисточнике? - В 1985 году был СССР, и все бегуны считались из одной страны. Надо ли теперь им приписывать страну (которой в первоисточнике нет)? - Возр. группы в протоколе: 40 и старше, 50 и старше. Места в группе участников старше 50 лет считаются как бы по двум группам. Надо ли учитывать их отдельно (но тогда в группе старше 40 все места изменятся)?

А-Р: Бор пишет: - Надо ли вносить сошедших, не явившихся, снятых? Я бы обязательно вносил сошедших и снятых (бежали, однако!), но не вносил н/я (мало ли кто предварительно зарегился). - Если в протоколе стоит город Кал-д, можно внести Калиниград или оставить, как в первоисточнике? Я бы оставил как в первоисточнике. - В 1985 году был СССР, и все бегуны считались из одной страны. Надо ли теперь им приписывать страну (которой в первоисточнике нет)? Не надо. Этак и "Кал-д" надо будет Королевом называть! - Возр. группы в протоколе: 40 и старше, 50 и старше. Места в группе участников старше 50 лет считаются как бы по двум группам. Надо ли учитывать их отдельно (но тогда в группе старше 40 все места изменятся)? Я бы все упоминания о возрастных п/г попросту игнорировал. И без них работы хватит.

А-Р: Чтоб не раздваиваться, объединил посты по этой теме в одной ветке вместо двух. Заодно нашел тех про кого забыл - yola, HA и Chapay, - теперь и про вас не забыл!

sphinx: Я старался делать полную копию. Если потом кому-то надо будет что-то изменить, это будет несложно. Пусть будет полная электронная копия оригинала. А получить с нее различные производные варианты, это уже дело вкуса и желания.

Ak55: Соглашусь с А-Р'ом почти во всем, а именно: Все надо оставить так, как в первоисточнике, то есть и "Кал-д", причем имеено в таком виде, то есть в виде сокращения. К тому же это может быть и настоящий Калининград, а не нынешний Королев. В отличие от А-Р' буду настиивать на том, что и возрастные группы надо указывать по протоколу, если они там есть. Соответственно, и места в возрастных группах. Даже если они указаны с ошибками. Вместе с ошибками и вводить. Мы не можем изменить существующий протокол пост-фактум. Можем только дать комментарий, что, мол, в этом месте предполагаем ошибку.



полная версия страницы